Это команда tesseract, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
tesseract - движок OCR командной строки
СИНТАКСИС
тессеракт Imagename|STDIN база вывода|стандартный вывод [параметры ...] [файл конфигурации ...]
ОПИСАНИЕ
тессеракт(1) - это движок OCR коммерческого качества, первоначально разработанный в HP в 1985 году.
и 1995. В 1995 году этот двигатель вошел в тройку лучших по оценке UNLV. Это было с открытым исходным кодом
компанией HP и UNLV в 2005 году и с тех пор разрабатывается в Google.
IN / OUT АРГУМЕНТЫ
Imagename
Имя входного изображения. Большинство форматов файлов изображений (все, что доступно для чтения Leptonica)
поддерживаются.
STDIN
Инструкция по чтению данных со стандартного ввода
база вывода
Базовое имя выходного файла (к которому будет добавлено соответствующее расширение).
По умолчанию результат будет назван outbase.txt.
стандартный вывод
Инструкция по отправке выходных данных на стандартный вывод
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
--tessdata-каталог /дорожка
Укажите расположение пути к tessdata
--пользовательские слова / путь / к / файлу
Укажите расположение файла пользовательских слов
--пользовательские шаблоны / путь / к / файлу указывать
Расположение файла пользовательских шаблонов
-c configvar = значение
Установите значение для управляющего параметра. Допускается несколько аргументов -c.
-l Ланг
Используемый язык. Если ничего не указано, предполагается английский. Несколько языков могут
должны быть указаны через знак плюса. Tesseract использует трехсимвольный стандарт ISO 3-639.
языковые коды. (См. ЯЗЫКИ)
-псм N
Настройте Tesseract так, чтобы он запускал только часть анализа макета и принимал определенную форму
изображение. Варианты для N составляют:
0 = только ориентация и обнаружение сценария (OSD).
1 = Автоматическая сегментация страниц с помощью экранного меню.
2 = Автоматическая сегментация страниц, но без OSD или OCR.
3 = Полностью автоматическая сегментация страниц, но без экранного меню. (Дефолт)
4 = Предположим, что один столбец текста переменного размера.
5 = Предположим, что один однородный блок вертикально выровненного текста.
6 = Предположим, что это один однородный блок текста.
7 = рассматривать изображение как одну текстовую строку.
8 = рассматривать изображение как одно слово.
9 = рассматривать изображение как отдельное слово в круге.
10 = рассматривать изображение как один символ.
файл конфигурации
Имя используемой конфигурации. Конфигурация - это простой текстовый файл, содержащий список
переменные и их значения, по одному в строке, с пробелом, отделяющим переменную от значения.
Интересные файлы конфигурации включают:
· Hocr - вывод в формате hOCR, а не как текстовый файл.
· Pdf - вывод в формате pdf вместо текстового файла.
примечание Бене: Варианты -l Ланг и -псм N должно произойти до любого файл конфигурации.
SINGLE ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
-v
Возвращает текущую версию тессеракт(1) исполняемый файл.
--list-языки
список доступных языков для движка tesseract. Может использоваться с --tessdata-dir.
--print-параметры
распечатать параметры tesseract в стандартный вывод.
ЯЗЫКИ
В настоящее время доступны языковые пакеты для следующих языков (в
https://github.com/tesseract-ocr/tessdata):
AFR (Африкаанс) АМГ (Амхарский) ара (арабский) ASM (Ассамский) AZE (Азербайджанский) aze_cyrl
(Азербайджанский - кириллица) бел (Беларусь) Бен (Бенгальский) заболачивание (Тибетский) BOS (Боснийский) бул
(Болгарский) кошка (Каталонский; валенсийский) CEB (Себуано) CES (Чешский язык) чи_сим (Китайский язык -
Упрощенное) чи_тра (Китайский традиционный) CHR (Чероки) CYM (Валлийский) Дан (Датский)
дан_фрак (Датский - Fraktur) DEU (На немецком) деу_фрак (Немецкий - Fraktur) DZO (Дзонгка) ELL
(Греческий, современный (1453-)) ENG (Английский) эм (Английский, средний (1100-1500)) ЭПО (Эсперанто)
фас (Модуль обнаружения математики / уравнений) является (Эстонский) EUS (Басков) ФАС (Персидский) плавник
(Финский) От (Французский) кляп (Франкский) FRM (Французский, средний (ок. 1400-1600)) гле (Ирландский) GLG
(Галицкая) GRC (Греческий, Древний (до 1453 г.)) guj (Гуджарати) имеет (Гаитянский; гаитянский креольский) хеб
(Иврит) вниз (Хинди) грн (Хорватский) гунн (Венгерский) Iku (Инуктитут) инд (Индонезийский) ISL
(Исландский) ита (Итальянский) ita_old (Итальянский - Старый) яв (Яванский) JPN (Японский язык) может быть
(Каннада) Kat (Грузинский) кат_олд (Грузинский - старый) Kaz (Каз) кхм (Центральный кхмерский) кир
(Киргизский; киргизский) Kor (Корейский) кур (Курдский) лао (Лао) лат (Латиница) LAV (Латышский) освещенный
(Литовский) раз (Малаялам) март (Маратхи) MKD (Македонский) млн т (Мальтийский) MSA (Малайский) Mya
(Бирманский) не (Непальский) НЛД (Голландский; фламандский) ни (Норвежский) или (Ория) экранное (Ориентация
и модуль обнаружения скриптов) кастрюля (Панджаби; пенджаби) полюс (Польский) по (Португальский) гной
(Пушту; пушту) Рон (Румынский; молдавский; молдавский) Русский (Русский) Святой (Санскрит) без
(Сингальский; сингальский) SLK (Словацкий) slk_frak (Словацкий - Fraktur) SLV (Словенский) спа
(Испанский; кастильский) спа_старый (Испанский; кастильский - древн.) квадратный метр (Албанский) серп (Сербский)
srp_latn (Сербский - латиница) сва (Суахили) SWE (Шведский) Syr (Сирийский) TAM (Тамил) телефон
(Телугу) тгк (Таджикский) TGL (Тагальский) Tha (Тайский) гроза с дождем (Тигринья) тур (Турецкий) УИГ (Уйгурский;
Уйгурский) уКР (Украинец) URD (Урду) узб (Узбекский) узб_цирл (Узбекский - кириллица) Пятница (Вьетнамский)
жид (Идиш)
Чтобы использовать нестандартный языковой пакет с именем foo.traineddata, установить TESSDATA_PREFIX
переменная окружения, чтобы файл можно было найти по адресу TESSDATA_PREFIX/ tessdata /Foo.traineddata
и дать Тессеракту аргумент -l Foo.
CONFIG FILES И ДОПОЛНЕНИЕ USER ДАННЫЕ
Файлы конфигурации Tesseract состоят из строк с парами переменных-значений (разделенных пробелами). В
переменные задокументированы как флаги в исходном коде, как показано ниже в
тессеракткласс.ч:
STRING_VAR_H (tessedit_char_blacklist, "", "Черный список символов, которые нельзя распознать");
Эти переменные могут включать или отключать различные функции движка и вызывать его
загружать (или не загружать) различные данные. Например, предположим, что вы хотите OCR на английском языке,
но подавить обычный словарь и загрузить альтернативный список слов и альтернативный
список шаблонов - эти два файла являются наиболее часто используемыми файлами дополнительных данных.
Если ваш языковой пакет находится в /path/to/eng.traineddata, а конфигурация hocr находится в
/ path / to / configs / hocr затем создайте три новых файла:
/путь/к/eng.user-words:
быстрый
коричневый
лиса
подскочили
/путь/к/eng.user-шаблоны:
1- \ d \ d \ d-GOOG-411
www. \ n \\\ *. com
/ путь / к / конфигам / базару:
load_system_dawg F
load_freq_dawg Ф
user_words_suffix пользовательские слова
user_patterns_suffix пользовательские шаблоны
Теперь, если вы передадите слово восточный базар в качестве завершающего параметра командной строки Tesseract,
Tesseract не будет загружать ни системный словарь, ни словарь частых
words и будет загружать и использовать предоставленные вами файлы eng.user-words и eng.user-patterns.
Первый - это простой список слов, по одному в каждой строке. Формат последнего задокументирован в
dict / trie.h в read_pattern_list ().
ИСТОРИЯ
Двигатель был разработан в Hewlett Packard Laboratories Bristol и Hewlett Packard.
Co, Greeley Colorado в период с 1985 по 1994 год, с некоторыми изменениями, внесенными в 1996 году для переноса на
Windows и немного C ++ в 1998 году. Большая часть кода была написана на C, а затем еще немного.
был написан на C ++. Код C \ ++ интенсивно использует систему списков с использованием макросов. Этот
предшествует stl, был переносимым до stl и более эффективен, чем списки stl, но имеет
большой минус в том, что если вы действительно получаете нарушение сегментации, его трудно отлаживать.
Версия 2.00 принесла поддержку Unicode (UTF-8), шесть языков и возможность обучения
Тессеракт.
Tesseract был включен в четвертый ежегодный тест UNLV на точность распознавания текста. Видеть
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. С Tesseract 2.00,
теперь включены сценарии, позволяющие любому воспроизвести некоторые из этих тестов. Видеть
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract Больше подробностей.
Tesseract 3.00 добавляет ряд новых языков, включая китайский, японский и корейский. Это
также представлена новая однофайловая система управления языковыми данными.
Tesseract 3.02 добавляет поддержку двунаправленного текста, возможность распознавания нескольких
языков в одном изображении и улучшенный анализ макета.
Дополнительные сведения см. В файле ReleaseNotes, включенном в дистрибутив.
РЕСУРСЫ
Главный сайт: https://github.com/tesseract-ocr Информация о тренировках:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Используйте tesseract онлайн с помощью сервисов onworks.net