4 безкоштовних онлайн-інструменти для оптичного розпізнавання тексту

Якщо ви хочете перетворити будь-який друкований текст на цифровий текст, який ви можете копіювати, вставляти, редагувати і шукати, вам необхідно використовувати сканери з оптичним розпізнаванням символів (OCR).

Коли ви вирішите відсканувати або сфотографувати документ, його буде збережено у форматі JPEG або PDF. Програмне забезпечення OCR може потім розпізнавати літери і цифри в цих документах і ^ перетворювати їх на PDF з можливістю пошуку. або у файл, який можна редагувати в таких програмах, як Microsoft Word.

Проблема в тому, що деякі сканери OCR працюють набагато краще, ніж інші, причому кращі з них досить важкі для гаманця.

Наприклад, Omnipage18 коштує 150 доларів, але особливо добре розпізнає різні мови. Adobe Acrobat Pro DC коштує величезних 400 доларів, але має неймовірну точність. ABBYY FceReader коштує 150 доларів, але він відмінно підходить для перетворення документів, таких як журнали і брошури, в текст з можливістю пошуку. Ми будемо тестувати онлайн пропозицію ABBYY пізніше в цій статті.

Однак, якщо вам потрібні безкоштовні альтернативи, які ви можете завантажити і використовувати в Windows або OS X, ви повинні спробувати ці інструменти OCR Але якщо ви вважаєте за краще використовувати безкоштовний онлайн- інструмент для оптичного розпізнавання тексту, продовжуйте читати, як ми випробували кращі з них, з результатами нижче.

Тест

Схоже, що більшість людей тепер використовують свої смартфони для сканування для них., я вирішив використовувати додаток Evernote Scannable (безкоштовно для iOS і Android). Я відсканував першу сторінку книги Річарда Докіна «Сходження на гору Неймовірний», щоб побачити, які результати ми можемо отримати з дуже простим форматуванням. Я також відсканував сторінку 4-годинного шеф-кухаря Тіма Ферріса, щоб випробувати сканери з трохи більш складним форматуванням. Я зберіг кожен з цих файлів у форматі PDF.

Потім ці документи були перевірені за допомогою деяких з імовірно кращих онлайн-інструментів OCR, щоб побачити, наскільки добре вони впоралися.

Безкоштовний онлайн OCR [більше не доступний]

На щастя, для використання безкоштовного онлайн-розпізнавання не потрібна реєстрація. І я був подвійно вражений, коли побачив їх заяву про збереження форматування і макета мого документа.

Сайт стверджує, що може підтримувати PDF, GIF, BMP, JPEG, TIFF і PNG як вхідні дані. Вихідні дані можуть бути DOC, текстовий PDF, RTF та TXT. На жаль, я не міг дізнатися, чи було у них обмеження розміру файлу.

Основний документ у PDFПреутворений
абсолютно ідеально. Більше сказати нічого! Ми дуже добре почали.

Основний документ для DOCФактичні
слова, здається, бездоганно змінилися, за винятком «ount» від «Маунт-Рашмор», якимось чином відбувається самоволка. Форматування - це окрема історія. Багато ком були замінені підкресленням, а в точках по всьому документу були вставлені випадкові пробіли. Коли ви пізніше побачите, як у цьому тесті здалося найкраще програмне забезпечення, це зовсім не погане зусилля.

Складний документ у PDFПреутворення
документа зайняло колосальні 120 секунд! Після завершення весь текст був конвертований з точністю близько 95%, хоча текст в окремому полі в правому верхньому куті сторінки був недоступний для пошуку. Декілька інших символів у PDF також були неправильними.

Комплексний документ для DOC
Ha цей раз перетворення зайняло всього 10 секунд, і текст знову був перетворений з точністю близько 95%. Були деякі дивні проблеми з пробілами, і у програмного забезпечення були проблеми з перетворенням шрифту в правому верхньому куті документа, і пропустили кілька символів тут і там.

 Якщо
ви бажаєте перетворити просто форматовані документи на PDF, це фантастичний інструмент. З точки зору перетворення на DOC результати не були чимось особливим.

i2OCR

i2OCR робить деякі вражаючі заяви. Інструмент розпізнає понад 60 мов, може обробляти багатостолбцеві макети (видаляючи форматування), не має обмежень на розмір файлу, може конвертувати завантажені файли і з URL-адрес. І вам не потрібно реєструватися, щоб використовувати цей інструмент.

Сервіс працює, просто витягуючи текст з вашого зображення, а потім виводячи неформатований текст. Ви можете швидко виправити будь-які помилки в режимі паралельного перегляду перед копіюванням тексту в інші програми або завантаженням у  форматі DOC, PDF або HTML.

Примітка: коли я намагався завантажити свої документи PDF, вони були відхилені i2OCR, тому мені потрібно було перетворити їх на JPEG (зробивши знімок екрану, а потім завантаживши файли).

Основний документ для простого тексту:
Завдяки тому, як працює цей інструмент, всі форматування втрачаються, хоча перетворення з зображення на текст було майже ідеальним. Були деякі невеликі помилки, такі як інтервал між абзацами, і деякі коми були замінені точками, але це невеликі пробіли.

Складний документ у простий текст:
Більша частина тексту була перетворена без особливих помилок, за винятком заголовка і рецепта в правому верхньому куті, що було неможливо прочитати для цього інструмента. Спосіб перетворення стовпчиків у простий текст був далеко не ідеальним. Якщо ви хочете, щоб це перетворення працювало, потрібно багато часу, щоб перебудувати рядки на узгоджені пропозиції.

рішення  Для
основних документів відмінно працює . Можливість редагувати текст перед завантаженням також дуже приємна річ. Однак для більш складних документів перетворення все ще досить точне, але спосіб виведення тексту не зробить ваше життя набагато простішим.

OCR онлайн

В даний час онлайнове розпізнавання тексту підтримує 46 різних мов і може конвертувати PDF, JPG, BMP, TIFF і GIF у формат Word, Excel або звичайний текст. Сайт стверджує, що «перетворені документи виглядають так само, як оригінали - таблиці, стовпчики і графіка».

Версія, яку ви можете використовувати без реєстрації, дозволяє конвертувати до 15 зображень на годину (обмеження 5 МБ). Якщо ви зареєструєте обліковий запис, ви зможете придбати більше сторінок понад цей ліміт, а також зможете конвертувати багатосторінкові документи і ZIP-архіви.

Основний документ для DOC
Основной документ бездоганно перетворений, крім римської цифри, яку я не взяв. Як і обіцяв сайт, форматування було саме таким, яким воно було в книзі. Слава цьому інструменту.

Комплексний документ для DOCБудучі
розчарованим попередніми інструментами OCR при перетворенні складного документа, я був дуже вражений онлайн OCR. Розташування було майже ідеальним, як ви можете бачити вище. Ще раз, хоча, рецепт не був узятий занадто добре, але будь-які інші незначні помилки були незначні.

рішення суду

Абсолютно фантастичні результати онлайн-розпізнавання. Єдиний недолік, який я бачу, полягає в тому, що неможливо конвертувати документи в форматі PDF, оскільки згадані формати виводу включають тільки DOCX, XLSX і TXT.

ABBYY FceReader Online (пробна версія на 10 сторінок)

Як згадувалося раніше, ABBYY є одним з лідерів на ринку програмного забезпечення для оптичного розпізнавання символів, його повна завантажувана програма коштує близько 150 доларів. Тим не менш, вони пропонують безкоштовну пробну версію на 10 сторінок для свого онлайн-інструменту (потрібна реєстрація). Для передплати за 5 $ їх онлайн-інструмент дозволить вам конвертувати 200 сторінок щомісяця.

Файли можуть мати розмір до 100 МБ у будь-якому з таких форматів: PDF, JPG, JPEG, TIF, TIFF, PCX, DCX, BMP и PNG. ABBYY також розпізнає майже 200 мов. Виходи особливо вражають, з вибором між DOCX, XLSX, RTF, TXT, PPTX, ODT, PDF, FB2 і EPUB.

Ви навіть можете спробувати декілька функцій BETA під час пробної версії. Перший варіант - це переклад вашого документа іншою мовою. Інший спосіб - експортувати конвертований документ у ваш обліковий запис хмарного сховища, будь то Dropbox, Google Drive, Evernote, Microsoft OneDrive або Box.

Основний документ для DOCXОблщі
результати були хорошими, але не дивними, враховуючи, що це продукт преміум-класу. Кілька ком і точок помінялися місцями, кілька лапок були замінені зірочкою, пара заголовних букв була відсутня, і одне слово (буквальний) було написано неправильно.

Складний документ в DOCX
После перетворення було дуже мало помилок в тексті в документі (крім розпізнавання тексту, який знову боровся зі шрифтом цього рецепта!), Але форматування залишало бажати кращого.

Три стовпчики якимось чином займають дві сторінки, а центральний стовпчик з'являється тільки на другій сторінці. Якби ви дійсно хотіли щось зробити з цим конвертованим документом, ви б у підсумку висмикнули волосся.

Основний документ PDFПросматривая
конвертований PDF, я не зміг знайти жодної помилки. Можливо, ми знайшли, де ABBYY перевершує. Фантастичні результати.

Складний документ у PDFОп'ять,
я не зміг знайти жодних помилок у цьому перетвореному файлі. Очевидно, ABBYY знає, як конвертувати в PDF виключно добре.

 Якщо
ви щасливі, заплативши кілька доларів, перетворення на PDF, здається, феноменально добре працює з цим сервісом, і можливість синхронізації перетворених файлів на хмарне сховище особливо корисна, якщо ви скануєте великий обсяг документів. Як і у випадку з іншими варіантами, ABBYY досі не з'ясував, як бездоганно конвертувати документи в DOC для зручного редагування.

Остаточний результат

Якщо, як і більшість людей, ви просто хочете відсканувати кілька журнальних статей і деякі рахунки за домашнє господарство, вам не потрібно буде редагувати ці документи. Тому для вас підійде пряме перетворення на PDF, тому що ви все одно зможете шукати ці документи. Для цього Free Online OCR безумовно був найкращим безкоштовним інструментом, який ми тестували. При цьому, якщо ви готові платити 5 доларів на місяць за майже досконалість, ABBYY FceReader Online був трохи більш точним.

Коли справа дійшла до конвертації документів в DOC, нам не вдалося знайти жодного ідеального рішення, але, безумовно, найкращі результати були отримані завдяки онлайн-розпізнаванню. Перетворення не було досконалим, але цілісність форматування була в основному збережена, а помилки були незначними. Коли ми порівнюємо ці результати з «преміальною» пропозицією від ABBYY, ви не можете не бути вражені.

Ми не включили можливості оптичного розпізнавання тексту на Google Диску в цьому пості; трохи за загальність Google, але більше за те, що ми хотіли протестувати кілька інших безкоштовних онлайн-сервісів OCR.

Вам: які інші інструменти онлайн-розпізнавання ви б порекомендували нашим читачам? І що ви пробували, що ви ніколи не будете використовувати знову?

COM_SPPAGEBUILDER_NO_ITEMS_FOUND