Jest to polecenie tesseract, które można uruchomić u dostawcy bezpłatnego hostingu OnWorks przy użyciu jednej z wielu naszych bezpłatnych stacji roboczych online, takich jak Ubuntu Online, Fedora Online, emulator online systemu Windows lub emulator online MAC OS
PROGRAM:
IMIĘ
tesseract - silnik OCR działający w wierszu poleceń
STRESZCZENIE
tesseract nazwa obrazu|stdin baza wyjściowa|stdout [opcje...] [plik konfiguracyjny...]
OPIS
tesseract(1) to silnik OCR o jakości komercyjnej, pierwotnie opracowany w firmie HP w latach 1985
i 1995. W 1995 silnik ten znalazł się w pierwszej trójce ocenionej przez UNLV. To było open source
przez HP i UNLV w 2005 roku i od tego czasu jest rozwijany przez Google.
IN / OUT ARGUMENTY
nazwa obrazu
Nazwa obrazu wejściowego. Większość formatów plików graficznych (wszystko, co można odczytać przez Leptonica)
są obsługiwane.
stdin
Instrukcja odczytu danych ze standardowego wejścia
baza wyjściowa
Nazwa podstawowa pliku wyjściowego (do którego zostanie dołączone odpowiednie rozszerzenie).
Domyślnie dane wyjściowe zostaną nazwane outbase.txt.
stdout
Instrukcja wysłania danych wyjściowych na standardowe wyjście
OPCJE
--tessdata-dir /ścieżka
Określ położenie ścieżki tessdata
--słowa-użytkownika /ścieżka/do/pliku
Określ lokalizację pliku słów użytkownika
--wzorce-użytkownika /ścieżka/do/pliku sprecyzować
Lokalizacja pliku wzorców użytkownika
-c zmienna konfiguracyjna=wartość
Ustaw wartość parametru kontrolnego. Dozwolone jest wiele argumentów -c.
-l lang
Język, którego należy używać. Jeśli żaden nie jest określony, przyjmuje się język angielski. Wiele języków może
być określone, oddzielone znakami plusa. Tesseract używa 3-znakowego ISO 639-2
kody językowe. (Patrz JĘZYKI)
-psm N
Ustaw Tesseract, aby uruchamiał tylko podzbiór analizy układu i przyjmował określoną formę
obraz. Opcje dla N należą:
0 = Tylko wykrywanie orientacji i skryptu (OSD).
1 = Automatyczna segmentacja stron z OSD.
2 = Automatyczna segmentacja stron, ale bez OSD lub OCR.
3 = W pełni automatyczna segmentacja stron, ale bez OSD. (Domyślny)
4 = Załóż pojedynczą kolumnę tekstu o różnych rozmiarach.
5 = Załóż pojedynczy jednolity blok tekstu wyrównanego pionowo.
6 = Załóż pojedynczy jednolity blok tekstu.
7 = Traktuj obraz jako pojedynczą linię tekstu.
8 = Traktuj obraz jako pojedyncze słowo.
9 = Traktuj obraz jako pojedyncze słowo w kółku.
10 = Traktuj obraz jako pojedynczy znak.
plik konfiguracyjny
Nazwa konfiguracji do użycia. Konfiguracja to zwykły plik tekstowy, który zawiera listę
zmienne i ich wartości, po jednej w wierszu, ze spacją oddzielającą zmienną od wartości.
Ciekawe pliki konfiguracyjne obejmują:
· hocr - Wyjście w formacie hOCR zamiast jako plik tekstowy.
· pdf - Wyjście w formacie pdf zamiast pliku tekstowego.
uwaga Dobry: Opcje -l lang i -psm N musi nastąpić przed jakimkolwiek plik konfiguracyjny.
SINGLE OPCJE
-v
Zwraca bieżącą wersję pliku tesseract(1) wykonywalny.
--list-języki
lista dostępnych języków dla silnika tesseract. Może być używany z --tessdata-dir.
--parametry wydruku
wypisz parametry tesseraktu na stdout.
JĘZYKI
Obecnie dostępne są pakiety językowe dla następujących języków (in
https://github.com/tesseract-ocr/tessdata):
afr (Afrykanerowie) amhu (Amharski) ara (Arabski) asm (asamski) aze (Azerbejdżański) aze_cyrl
(azerbejdżański — cyrylica) bel (białoruski) ben (Bengalski) punkt (tybetański) bos (Bośniacki) bul
(Bułgarski) jak (kataloński; walencki) CEB (cebuański) ces (Czech) chi_sim (Chiński -
Uproszczony) chi_tra (Chiński tradycyjny) chr (cherokee) cym (Walijski) dan (Duński)
dan_frak (duński - Fraktur) deu (Niemiecki) deu_frak (niemiecki — Fraktur) dzó (Dzongkha) łokieć
(grecki, nowoczesny (1453-)) pl (Angielski) PL m (angielski, średni (1100-1500)) epo (Esperanto)
equ (Moduł wykrywania matematyki / równań) est (Estoński) Eus (Baskijski) fas (Perski) płetwa
(Fiński) fra (Francuski) Frk (francuski) z (Francuski, środkowy (ok. 1400-1600)) gle (Irlandczyk) glg
(galicyjski) grecki (Grecki, starożytny (do 1453)) gudżi (gudżarati) kapelusz (haitański; kreolski haitański) wk
(Hebrajski) hin (Hinduski) Hrv (Chorwacki) hun (Język węgierski) iku (Inuktitut) ind (Indonezyjski) isl
(Islandzki) ita (Włoski) ita_stary (włoski — stary) jav (Jawajski) Jap (Język japoński) może być
(kannada) kot (Gruziński) kat_stary (gruziński — stary) gęś (kazachski) hm (środkowy khmerski) kir
(kirgiski; kirgiski) kor (Koreański) kur (Kurdyjski) lao (laotański) lat (Łacina) niski (Łotewski) oświetlony
(Litewski) mal (malajalam) zniszczyć (marathi) mkd (Macedoński) w tym (maltański) msa (Malajski) mya
(Birmańczyk) nie (nepalski) nd (holenderski; flamandzki) ani (Norweski) lub (Orija) osd (Orientacja
i moduł wykrywania skryptów) pan (pandżabski; pendżabski) słup (Polskie) przez (Portugalski) ropa
(pushto; paszto) ron (rumuński; mołdawski; mołdawski) Rosyjski (Rosyjski) St (Sanskryt) grzech
( syngaleski ; syngaleski ) slk (Słowacki) slk_frak (słowacki - Fraktur) Slv (Słoweński) spa
(hiszpański; kastylijski) spa_stary (hiszpański; kastylijski - stary) narty (Albański) SRP (Serbski)
srp_latn (serbski — łacina) swa (Suahili) SWE (Szwedzki) syr (syryjski) tam (Tamil) tel
(telugu) tgk (Tadżycki) tgl (tagalski) tha (Tajski) tir (Tigrynia) tur (Turecki) uig (ujgurski;
ujgurski) uk (Ukraiński) Urd (urdu) uzb (Uzbecki) uzb_cyrl (uzbecki — cyrylica) Pt (Wietnamski)
jid (Jidysz)
Aby użyć niestandardowego pakietu językowego o nazwie foo.wyszkolone dane, Ustaw TESSDATA_PREFIX
zmienną środowiskową, aby plik można było znaleźć pod adresem TESSDATA_PREFIX/tessdane/blawyszkolone dane
i daj argument Tesseractowi -l bla.
CONFIG AKTA ROLNICZE POWIĘKSZANIE Z USER DATA
Pliki konfiguracyjne Tesseract składają się z linii z parami zmienna-wartość (oddzielonymi spacjami). The
zmienne są udokumentowane jako flagi w kodzie źródłowym, tak jak poniższa w
tesseractclass.h:
STRING_VAR_H(tessedit_char_blacklist, "", "Czarna lista znaków, których nie można rozpoznać");
Te zmienne mogą włączać lub wyłączać różne funkcje silnika i mogą go powodować
załadować (lub nie załadować) różne dane. Załóżmy na przykład, że chcesz OCR w języku angielskim,
ale wyłącz normalny słownik i załaduj alternatywną listę słów i alternatywę
lista wzorców — te dwa pliki są najczęściej używanymi dodatkowymi plikami danych.
Jeśli twój pakiet językowy znajduje się w /path/to/eng.traineddata i konfiguracja hocr jest w
/path/to/configs/hocr następnie utwórz trzy nowe pliki:
/ścieżka/do/eng.user-words:
dotychczasowy
szybki
brązowy
lis
skoczył
/ścieżka/do/eng.user-patterns:
1-\d\d\d-GOOG-411
www.\n\\\*.com
/ścieżka/do/konfiguracji/bazar:
ładowanie_system_dawg F
loading_freq_dawg F
user_words_suffix słowa użytkownika
user_patterns_suffix wzorce użytkownika
Teraz, jeśli podasz słowo bazar jako końcowy parametr wiersza poleceń do Tesseract,
Tesseract nie będzie zawracał sobie głowy ładowaniem słownika systemowego ani słownika częstości
słów i załaduje i użyje dostarczonych plików eng.user-words i eng.user-patterns.
Pierwsza to prosta lista słów, po jednym w wierszu. Format tego ostatniego jest udokumentowany w
dict/trie.h na read_pattern_list().
HISTORIA
Silnik został opracowany w Hewlett Packard Laboratories Bristol i Hewlett Packard
Co, Greeley Colorado w latach 1985-1994, z pewnymi zmianami wprowadzonymi w 1996 w celu przeniesienia na
Windows i trochę programowania w C++ w 1998. Duża część kodu została napisana w C, a potem jeszcze trochę
został napisany w C++. Kod C\++ intensywnie wykorzystuje system list przy użyciu makr. Ten
poprzedza stl, był przenośny przed stl i jest bardziej wydajny niż listy stl, ale ma
duży minus, że jeśli wystąpi naruszenie segmentacji, trudno jest debugować.
Wersja 2.00 przyniosła obsługę Unicode (UTF-8), sześć języków i możliwość trenowania
Teserakt.
Tesseract został uwzględniony w czwartym dorocznym teście dokładności OCR organizowanym przez UNLV. Widzieć
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. Z Tesseractem 2.00,
skrypty są teraz dołączone, aby każdy mógł odtworzyć niektóre z tych testów. Widzieć
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract by uzyskać więcej szczegółów.
Tesseract 3.00 dodaje kilka nowych języków, w tym chiński, japoński i koreański. To
wprowadza również nowy, jednoplikowy system zarządzania danymi językowymi.
Tesseract 3.02 dodaje obsługę tekstu dwukierunkowego, możliwość rozpoznawania wielu
języki na jednym obrazie i ulepszona analiza układu.
Aby uzyskać więcej informacji, zobacz plik ReleaseNotes dołączony do dystrybucji.
ZASOBY
Strona główna: https://github.com/tesseract-ocr Informacje o szkoleniu:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Korzystaj z tesseract online, korzystając z usług onworks.net