Розпізнати текст онлайногляд сервісів


raspoznat-tekst-onlayn-obzor-servisov

Буквально днями отримав поштою документ в форматі PDF, який потрібно було заповнити і відправити назад за призначенням. Найцікавіше, що заповнити його потрібно було друкованими літерами. Скажіть на милість, навіщо надсилати документ у вигляді картинки, а не, скажімо, вордовском документі, який легко заповнити з комп'ютера? Загалом, що б не мучитися, вирішив встановити CuneiForm - безкоштовну програму для розпізнавання тексту як аналог платній FineReader. Скажу відразу - нічого хорошого з цієї затії не вийшло, тому вирішив скористатися онлайн сервісами, які допомогли б мені не мучитися з передруком текстів. Про них ми і поговоримо.

Free OCR (free-ocr.com)

Це самий перший сервіс, який попався мені при пошуку в Яндексі. Абсолютно безкоштовний і, що важливо, не вимагає реєстрації. Щоправда, кількість завантажених документів обмежена (10 штук в годину), більше стає доступним після реєстрації на сайті.

Максимальний розмір файлу не повинен перевищувати 2 Мб. Малувато, звичайно, але не так вже й погано. Дозвіл більшої сторони документа - 5000 пікселів. Підтримуються формати JPG, GIF, BMP TIFF і PDF. Працює з документами на кількох десятках мов, включаючи російську. Перед завантаженням файлу необхідно вибрати мову документа самостійно, що б не було плутанини.

Після того, як система обробить файл, текст з'явиться на екрані. Його можна буде скопіювати. Якість розпізнавання тексту дуже непогане, однак виправлення робити напевно доведеться.

ABBYY FineReader Online OCR (finereader.abbyyonline.com)

Вважається одним з кращих серед подібних сервісів, а в нашій країні майже не має конкурентів. У нього феноменальний набір функцій:

  • Підтримка величезної кількості форматів, включаючи JPG, PNG, TIF, GIF, DjVu і т. д.
  • Конвертує PDF файли в текстові документи зі збереженням форматування і розмітки.
  • Підтримує 42 мови за станом на поточний момент.
  • Зберігає вихідну структуру та форматування документа. Це означає, що зберігаються в документі заголовки, виноски, нумерація сторінок, колонтитули і т. д.
  • Присутня підтримка хмарних онлайн-сервісів.
  • Можливо розпізнавання текстів з звичайних фотознімків.
  • Сервіс безкоштовно дозволяє розпізнати тільки три файлу, причому для цього потрібна реєстрація. Робота з великою кількістю файлів можлива тільки за оплату.

    Документи Google (docs.google.com)

    Google теж вирішив не відставати і запропонував користувачам свої послуги. Насправді в інтернет-гіганта безліч сервісів, так що це не дивно.

    Для того, що б отримати доступ до безкоштовного сервісу, доведеться завести аккаунт в Google. Якщо ж він у вас є, то проходьте авторизацію і починаєте користуватися потрібними функціями.

    Крім розпізнавання текстів практично в необмеженій кількості і будь-якому форматі, ви можете відформатувати отриманий документ-один з багатьох доступних форматів, починаючи про звичайного txt і закінчуючи doc (вордівському файлі). Також сервіс має масу додаткових функцій, як створення презентацій, таблиць і т. д.

    OCRonline (ocronline.com)

    Зарубіжний сервіс. На жаль, спробувати його не встиг, однак, якщо вірити відгукам, виконує свою роботу цілком непогано.

    Підтримує більше 150 (!) різних мов, включаючи російську. На сайті вимагається обов'язкова реєстрація, після якої ви зможете відредагувати не більше п'яти документів. Все інше - за оплату. Правда, якщо ви рідко користуєтеся розпізнавання текстів, то сервісу вам повинно вистачити, так як щотижня в акаунт буде нараховуватися за п'ять додаткових сторінок.

    Всього OCRonline підтримує п'ять різних форматів: JPG, TIFF, PNG, GIF, PDF. Як стверджують випробували, сервіс прекрасно розпізнає текст навіть на неякісне зображення і практично не допускає помилок.

    NewOCR (newocr.com)

    Наостанок розповім про NewOCR. Сервіс дуже потужний і безкоштовний.

  • Перше і найголовніше відміну від більшості конкурентів - читання документів прямо з інтернету, для цього всього лише потрібно вставити посилання в рядок.
  • Підтримка форматів PEG, JFIF, PNG, GIF, BMP, PBM, PGM, PPM, PCX, TIFF, PDF, DjVu і стислих файлів.
  • Автоматичне розпізнавання мов (58 на момент написання статті).
  • Розворот зображення на потрібний градус.
  • Розбиття на колонки.
  • Видалення тіней і підбір контрасту.
  • Загалом, прекрасний проект без будь-яких обмежень.

    *****

    Що ж стосується мене, то особисто мені до смаку найбільше припав NewOCR, хоча той документ, про який я писав на початку статті, мені довелося друкувати вручну, оскільки часу на тестування сервісів зовсім не було.

    Якщо знаєте інші проекти, що дозволяють якісно розпізнавати текст, напишіть нам про це за допомогою коментарів.