Il s'agit de la commande tesseract qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
tesseract - moteur OCR en ligne de commande
SYNOPSIS
tesseract nom de l'image|Stdin base de sortie|Stdout [options...] [fichier de configuration...]
DESCRIPTION
tesseract(1) est un moteur OCR de qualité commerciale développé à l'origine chez HP entre 1985
et 1995. En 1995, ce moteur figurait parmi les 3 premiers évalués par l'UNLV. C'était open source
par HP et UNLV en 2005, et a été développé chez Google depuis lors.
IN / OUT ARGUMENTS
nom de l'image
Le nom de l'image d'entrée. La plupart des formats de fichiers image (tout ce qui est lisible par Leptonica)
sont pris en charge.
Stdin
Instruction pour lire les données de l'entrée standard
base de sortie
Le nom de base du fichier de sortie (auquel l'extension appropriée sera ajoutée).
Par défaut, la sortie sera nommée outbase.txt.
Stdout
Instruction pour envoyer les données de sortie à la sortie standard
OPTIONS
--tessdata-rép /chemin
Spécifiez l'emplacement du chemin tessdata
--user-mots /chemin/vers/fichier
Spécifiez l'emplacement du fichier de mots utilisateur
--modèles-utilisateur /chemin/vers/fichier spécifier
L'emplacement du fichier de modèles utilisateur
-c configvar=valeur
Définir la valeur pour le paramètre de contrôle. Plusieurs arguments -c sont autorisés.
-l long
La langue à utiliser. Si aucun n'est spécifié, l'anglais est supposé. Plusieurs langues peuvent
être spécifié, séparé par des caractères plus. Tesseract utilise ISO 3-639 à 2 caractères
codes de langue. (Voir LANGUES)
-psm N
Configurez Tesseract pour qu'il n'exécute qu'un sous-ensemble d'analyses de mise en page et assume une certaine forme de
image. Les options pour N sont:
0 = Orientation et détection de script (OSD) uniquement.
1 = Segmentation automatique des pages avec OSD.
2 = Segmentation automatique des pages, mais pas d'OSD ou d'OCR.
3 = Segmentation de page entièrement automatique, mais pas d'OSD. (Défaut)
4 = Supposons une seule colonne de texte de tailles variables.
5 = Supposons un seul bloc uniforme de texte aligné verticalement.
6 = Supposons un seul bloc de texte uniforme.
7 = Traiter l'image comme une seule ligne de texte.
8 = Traiter l'image comme un seul mot.
9 = Traitez l'image comme un seul mot dans un cercle.
10 = Traiter l'image comme un seul caractère.
fichier de configuration
Le nom d'une configuration à utiliser. Une configuration est un fichier en texte brut qui contient une liste de
variables et leurs valeurs, une par ligne, avec un espace séparant la variable de la valeur.
Les fichiers de configuration intéressants incluent :
· hocr - Sortie au format hOCR au lieu d'un fichier texte.
· pdf - Sortie en pdf au lieu d'un fichier texte.
Note Bene : Les options -l long et -psm N doit avoir lieu avant tout fichier de configuration.
UNIQUE OPTIONS
-v
Renvoie la version actuelle du tesseract(1) exécutable.
--list-langes
liste les langues disponibles pour le moteur tesseract. Peut être utilisé avec --tessdata-dir.
--print-paramètres
imprime les paramètres de tesseract sur la sortie standard.
LANGUE
Des packs linguistiques sont actuellement disponibles pour les langues suivantes (en
https://github.com/tesseract-ocr/tessdata):
afr (Afrikaans) AMH (Amharique) ara (Arabe) asm (Assamais) aze (Azerbaïdjanais) aze_cyrl
(Azerbaïdjan - cyrillique) bel (biélorusse) bien (Bengali) bod (Tibétain) bos (Bosnien) bul
(Bulgare) cat (catalan, valencien) ceb (Cebano) CES (Tchèque) chi_sim (Chinois -
Simplifié) chi_tra (Chinois (Traditionnel) chr (Cherokee) Cym (Gallois) dan (Danois)
dan_frak (danois - Fraktur) deu (Allemand) deu_frak (Allemand - Fraktur) dzo (Dzongkha) aune
(grec, moderne (1453-)) fr (En anglais) en m (anglais, moyen (1100-1500)) epo (Espéranto)
équ (Module de détection de maths/équations) HNE (Estonien) eus (Basque) fas (Persan) ailette
(Finlandais) fra (En français) frk (franc) frm (français, moyen (ca.1400-1600)) gle (Irlandais) GLG
(galicien) grc (grec, ancien (jusqu'en 1453)) mec (gujarati) chapeau (haïtien ; créole haïtien) héb
(Hébreu) vers le bas (Hindi) VRC (Croate) Hun (Hongrois) fuite (inuktitut) salle (Indonésien) isl
(Islandais) ita (Italien) ita_old (italien - ancien) JAV (Javanais) jpn (Japonais) peut être
(Kannada) chat (Géorgien) kat_vieux (Géorgien - Vieux) kaz (Kazakh) kilomètres (Khmer central) sol
(Kirghiz; Kirghize) kor (Coréen) Kur (Kurde) lao (laotien) lat (Latin) lav (Letton) Allumé
(Lituanien) mal (malayalam) mar (marathi) mkd (macédonien) compris (Maltais) msa (Malais) mya
(Birman) ne pas (Népalais) fra (néerlandais; flamand) ni (Norvégien) ou (Oriya) osd (Orientation
et module de détection de script) casserole (panjabi; pendjabi) pol (Polonais) par (Portugais) pus
(Pachto; Pachto) ron (roumain, moldave, moldave) Russie (Russe) Saint (Sanskrit) sans
(cinghalais ; cinghalais) slk (Slovaque) slk_frak (Slovaque - Fraktur) slv (Slovène) spa
(espagnol, castillan) spa_ancien (espagnol ; castillan - ancien) ski (Albanais) srp (Serbe)
srp_latn (serbe - latin) swa (swahili) swe (Suédois) sir (Syriaque) tam (Tamil) tel
(télougou) merci (Tadjik) Date (tagalog) tha (Thaïlandais) tournage (Tigrinya) tur (Turc) uig (ouïghour ;
Ouïghour) royaume-uni (Ukrainien) urde (Ourdou) ouzb (Ouzbek) uzb_cyrl (ouzbek - cyrillique) Ven (Vietnamien)
youpi (Yiddish)
Pour utiliser un module linguistique non standard nommé foo.traineddata, met le TESSDATA_PREFIX
variable d'environnement afin que le fichier se trouve à TESSDATA_PREFIX/tessdata/foo.traineddata
et donner à Tesseract l'argument -l foo.
CONFIG DES DOSSIERS ET AUGMENTATION avec UTILISATEUR DONNEES
Les fichiers de configuration Tesseract se composent de lignes avec des paires de valeurs variables (séparées par des espaces). Les
les variables sont documentées sous forme d'indicateurs dans le code source comme le suivant dans
tesseractclass.h :
STRING_VAR_H(tessedit_char_blacklist, "", "Liste noire des caractères à ne pas reconnaître");
Ces variables peuvent activer ou désactiver diverses fonctionnalités du moteur, et peuvent l'amener à
charger (ou ne pas charger) diverses données. Par exemple, supposons que vous vouliez faire de l'OCR en anglais,
mais supprimez le dictionnaire normal et chargez une liste de mots alternatifs et une alternative
liste de modèles — ces deux fichiers sont les fichiers de données supplémentaires les plus couramment utilisés.
Si votre module linguistique est dans /path/to/eng.traineddata et que la configuration hocr est dans
/path/to/configs/hocr puis créez trois nouveaux fichiers :
/chemin/vers/eng.user-words :
le
rapide
marron
renard
sauté
/chemin/vers/eng.user-patterns :
1-\d\d\d-GOOG-411
www.\n\\\*.com
/chemin/vers/configs/bazar :
load_system_dawg F
load_freq_dawg F
user_words_suffix mots-utilisateurs
user_patterns_suffix modèles d'utilisateur
Maintenant, si vous passez le mot bazar en tant que paramètre de ligne de commande de fin vers Tesseract,
Tesseract ne prendra pas la peine de charger le dictionnaire système ni le dictionnaire des fréquents
mots et chargera et utilisera les fichiers eng.user-words et eng.user-patterns que vous avez fournis.
Le premier est une simple liste de mots, un par ligne. Le format de ce dernier est documenté dans
dict/trie.h sur read_pattern_list().
HISTOIRE
Le moteur a été développé chez Hewlett Packard Laboratories Bristol et chez Hewlett Packard
Co, Greeley Colorado entre 1985 et 1994, avec quelques modifications supplémentaires apportées en 1996 au port à
Windows, et un peu de C++ en 1998. Une grande partie du code a été écrit en C, puis un peu plus
a été écrit en C++. Le code C\++ fait un usage intensif d'un système de liste utilisant des macros. Cette
est antérieur à stl, était portable avant stl et est plus efficace que les listes stl, mais a le
gros point négatif que si vous obtenez une violation de segmentation, il est difficile à déboguer.
La version 2.00 a apporté la prise en charge d'Unicode (UTF-8), six langues et la possibilité de s'entraîner
tesseract
Tesseract a été inclus dans le quatrième test annuel d'exactitude de l'OCR de l'UNLV. Voir
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. Avec Tesseract 2.00,
des scripts sont maintenant inclus pour permettre à quiconque de reproduire certains de ces tests. Voir
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract pour plus de détails.
Tesseract 3.00 ajoute un certain nombre de nouvelles langues, dont le chinois, le japonais et le coréen. Ce
introduit également un nouveau système de gestion des données linguistiques basé sur un fichier unique.
Tesseract 3.02 ajoute la prise en charge du texte bidirectionnel, la possibilité de reconnaître plusieurs
langues dans une seule image et une meilleure analyse de la mise en page.
Pour plus de détails, consultez le fichier ReleaseNotes inclus avec la distribution.
RESSOURCES
Site Internet principal : https://github.com/tesseract-ocr Informations sur la formation :
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
Utilisez tesseract en ligne en utilisant les services onworks.net