هذا هو الأمر tesseract الذي يمكن تشغيله في مزود الاستضافة المجانية OnWorks باستخدام إحدى محطات العمل المجانية المتعددة على الإنترنت مثل Ubuntu Online أو Fedora Online أو محاكي Windows عبر الإنترنت أو محاكي MAC OS عبر الإنترنت
برنامج:
اسم
tesseract - محرك التعرف الضوئي على الحروف بسطر الأوامر
موجز
تسراكت اسم الصورة|ستدين قاعدة الإخراج|المعياري [خيارات ...] [configfile ...]
الوصف
تسراكت(1) هو محرك OCR ذو جودة تجارية تم تطويره في الأصل في HP بين عام 1985
و 1995. في عام 1995 ، كان هذا المحرك من بين أفضل 3 محركات تم تقييمها من قبل UNLV. كان مفتوح المصدر
بواسطة HP و UNLV في 2005 ، وتم تطويرها في Google منذ ذلك الحين.
في خارج الحجج
اسم الصورة
اسم الصورة المدخلة. معظم تنسيقات ملفات الصور (أي شيء يمكن قراءته بواسطة Leptonica)
مدعمون.
ستدين
تعليمات لقراءة البيانات من الإدخال القياسي
قاعدة الإخراج
الاسم الأساسي لملف الإخراج (الذي سيتم إلحاق الامتداد المناسب به).
بشكل افتراضي سيتم تسمية الإخراج outbase.txt.
المعياري
تعليمات لإرسال بيانات الإخراج إلى الإخراج القياسي
OPTIONS
- تيسداتا دير /طريق
حدد موقع مسار tessdata
- كلمات المستخدم / المسار / إلى / ملف
حدد مكان ملف كلمات المستخدم
- أنماط المستخدم / المسار / إلى / ملف تحديد
موقع ملف أنماط المستخدم
-c configvar = القيمة
تعيين قيمة لمعلمة التحكم. يُسمح بالوسائط المتعددة -c.
-l طويل
اللغة المراد استخدامها. إذا لم يتم تحديد أي شيء ، فسيتم افتراض اللغة الإنجليزية. لغات متعددة
أن تكون محددة ، مفصولة بأحرف زائد. تستخدم Tesseract ISO 3-639 المكون من 2 أحرف
رموز اللغة. (انظر اللغات)
-بسم N
قم بتعيين Tesseract لتشغيل مجموعة فرعية فقط من تحليل التخطيط وتفترض شكلاً معينًا من
صورة. خيارات N هي:
0 = كشف الاتجاه والكشف عن البرنامج النصي (OSD) فقط.
1 = تقسيم تلقائي للصفحة باستخدام OSD.
2 = تقسيم تلقائي للصفحة ، ولكن بدون OSD أو OCR.
3 = تجزئة تلقائية بالكامل للصفحة ، لكن بدون OSD. (تقصير)
4 = افترض عمودًا واحدًا للنص ذي الأحجام المتغيرة.
5 = افترض وجود كتلة واحدة موحدة من النص المحاذي رأسياً.
6 = افترض وجود كتلة نصية واحدة موحدة.
7 = تعامل مع الصورة كسطر نصي واحد.
8 = تعامل مع الصورة ككلمة واحدة.
9 = تعامل مع الصورة ككلمة واحدة في دائرة.
10 = تعامل مع الصورة كحرف واحد.
ملف التكوين
اسم ملف التكوين المراد استخدامه. التهيئة هي ملف نص عادي يحتوي على قائمة بامتداد
المتغيرات وقيمها ، واحد لكل سطر ، مع مسافة تفصل المتغير عن القيمة.
تتضمن ملفات التكوين المثيرة للاهتمام ما يلي:
hocr - الإخراج في شكل hOCR بدلا من ملف نصي.
قوات الدفاع الشعبي - الإخراج في قوات الدفاع الشعبي بدلا من ملف نصي.
مذكرة بيني: الخيارات -l طويل -بسم N يجب أن تحدث قبل أي ملف التكوين.
وحيدة OPTIONS
-v
إرجاع الإصدار الحالي من تسراكت(1) قابل للتنفيذ.
- قائمة اللغات
قائمة اللغات المتاحة لمحرك tesseract. يمكن استخدامه مع --tessdata-dir.
- طباعة المعلمات
طباعة المعلمات tesseract إلى stdout.
LANGUAGES
تتوفر حزم لغات حاليًا للغات التالية (بتنسيق
https://github.com/tesseract-ocr/tessdata):
AFR (الأفريكانية) AMH (الأمهرية) آرا (عربى) ASM (الأسامية) AZE (أذربيجاني) aze_cyrl
(الأذربيجانية - السيريلية) البل (بيلاروسية) بن (بنغالي) بود (التبتية) BOS (بوسني) BUL
(البلغارية) قط (كتالانية ، بلنسية) مجلس الرؤساء التنفيذيين (السيبيونو) هؤلاء (التشيكية) chi_sim (صينى -
مبسط) chi_tra (تقاليد صينية) مركز حقوق الإنسان (شيروكي) سيم (تهرب من دفع الرهان) دان (دانماركي)
دان_فراك (دانماركي - فراكتور) DEU (الألمانية) deu_frak (ألماني - Fraktur) دزو (دزونغا) ذراع وحدة قياس
(اليونانية الحديثة (1453-)) المهندس . أم (الإنجليزية، الأوسط (1100-1500)) EPO (اسبرانتو)
EQU (وحدة كشف الرياضيات / المعادلة) هو (إستوني) مسح العمالة والبطالة (الباسك) فاس (اللغة الفارسية) زعنفة
(الفنلندية) FRA (الفرنسية) هفوة (الفرنجية) والعلاجات (الفرنسية ، الوسطى (حوالي 1400-1600)) حكم (إيرلندي) GLG
(الجاليكية) GRC (اليونانية القديمة (حتى 1453)) guj (الغوجاراتية) قبعة (الهايتية ، الكريولية الهايتية) أسبوع
(اللغة العبرية) إلى (هندي) المهندس (الكرواتية) هون (مجري) ايكو (إينوكتيتوت) دائرة الهجرة والجنسية (إندونيسي) ISL
(آيسلندي) ITA (إيطالي) ita_old (إيطالي - قديم) JAV (الجاوية) JPN (اليابانية) يمكن أن يكون
(الكانادية) كات (جورجي) kat_old (جورجي - قديم) كازاخستان (الكازاخستانية) KHM (الخمير الوسطى) قير
(قيرغيز ؛ قيرغيزستان) الأبقار (الكورية) كور (كردي) لاو (لاو) اللات (لاتيني) LAV (لاتفيا) قاع
(ليتواني) مواعيد (المالايالامية) ث (المهاراتية) MKD (مقدوني) mlt (مالطية) MSA (لغة الملايو) ميا
(بورمي) لا (نيبالي) nld (الهولندية ، الفلمنكية) ولا (النرويجية) أوري (الأوريا) OSD (توجيه
ووحدة الكشف عن البرنامج النصي) مقلاة (بنجابي ؛ بنجابي) بول (تلميع) بواسطة (البرتغالية) صديد
(الباشتو ، الباشتو) رون (الرومانية ، المولدوفية ، المولدوفية) الروسية (الروسية) شارع (السنسكريتية) بدون
(السنهالية ، السنهالية) SLK (السلوفاكية) slk_frak (السلوفاكية - فراكتر) السلفادور (سلوفيني) منتجع
(الإسبانية ، القشتالية) سبا (الإسبانية ؛ القشتالية - القديمة) سيكي (الألبانية) سام رينسى (صربي)
srp_latn (صربي - لاتيني) سوا (السواحيلية) سوي (السويدية) SYR (سرياني) تام (التاميلية) الهاتف
(التيلوغوية) tgk (طاجيكي) tgl (تاغالوغ) ثا (التايلاندية) النقل البري الدولي (التيغرينيا) الطور (اللغة التركية) uig (الأويغور ؛
الأويغور) أوكر (أوكراني) URD (الأردية) uzb (أوزبكي) uzb_cyrl (أوزبكي - سيريلي) تنافس (الفيتنامية)
ييد (اليديشية)
لاستخدام حزمة لغة غير قياسية مسماة foo.traineddata، تعيين TESSDATA_PREFIX
متغير البيئة لذلك يمكن العثور على الملف في TESSDATA_PREFIX/ tessdata /فو.البيانات المدربة
وإعطاء Tesseract الحجة -l فو.
تكوين FILES لأي لبس زيادة مع USER بيانات
تتكون ملفات تكوين Tesseract من أسطر ذات أزواج متغيرة القيمة (مفصولة بمسافات). ال
يتم توثيق المتغيرات كأعلام في كود المصدر مثل المتغير التالي في
tesseractclass.h:
STRING_VAR_H (tessedit_char_blacklist، ""، "قائمة الأحرف السوداء لم يتم التعرف عليها") ؛
قد تعمل هذه المتغيرات على تمكين أو تعطيل ميزات مختلفة للمحرك ، وقد تتسبب في ذلك
تحميل (أو عدم تحميل) البيانات المختلفة. على سبيل المثال ، لنفترض أنك تريد التعرف الضوئي على الحروف باللغة الإنجليزية ،
لكن قم بإلغاء القاموس العادي وتحميل قائمة كلمات بديلة وبديلة
قائمة الأنماط - هذان الملفان هما أكثر ملفات البيانات الإضافية استخدامًا.
إذا كانت حزمة اللغة الخاصة بك في /path/to/eng.traineddata وكان التكوين hocr في
/ path / to / configs / hocr ثم أنشئ ثلاثة ملفات جديدة:
/path/to/eng.user-words:
هيه
بسرعة
بنى
ثعلب
قفز
/path/to/eng.user-patterns:
1- \ d \ d \ d-GOOG-411
www. \ n \\\ *. com
/ path / to / configs / bazaar:
load_system_dawg F.
load_freq_dawg F.
user_words_suffix كلمات المستخدم
user_patterns_suffix أنماط المستخدم
الآن ، إذا مررت الكلمة بازار كمعامل سطر أوامر لاحقة إلى Tesseract ،
لن يزعج Tesseract تحميل قاموس النظام أو قاموس المتكرر
سوف يتم تحميل واستخدام ملفات eng.user-words و eng.user-Pattern التي قدمتها.
الأول عبارة عن قائمة كلمات بسيطة ، واحدة في كل سطر. تم توثيق تنسيق هذا الأخير بتنسيق
ديكت / trie.h على read_pattern_list ().
التاريخ
تم تطوير المحرك في Hewlett Packard Laboratories Bristol وفي Hewlett Packard
Co ، Greeley Colorado بين عامي 1985 و 1994 ، مع إجراء بعض التغييرات الإضافية في عام 1996 على الميناء
Windows ، وبعض C ++ izing في عام 1998. تمت كتابة الكثير من التعليمات البرمجية بلغة C ، ثم أكثر من ذلك
تمت كتابته في C ++. يستخدم رمز C \ ++ بشكل مكثف نظام القائمة باستخدام وحدات الماكرو. هذا
predates stl ، كانت محمولة قبل stl ، وهي أكثر كفاءة من قوائم stl ، ولكنها تحتوي على
سلبي كبير أنه إذا حدث انتهاك للتجزئة ، فمن الصعب تصحيحه.
جلب الإصدار 2.00 دعم Unicode (UTF-8) وست لغات والقدرة على التدريب
تسراكت.
تم تضمين Tesseract في الاختبار السنوي الرابع لدقة التعرف الضوئي على الحروف لـ UNLV. يرى
https://github.com/tesseract-ocr/docs/blob/master/AT-1995.pdf. مع Tesseract 2.00 ،
يتم الآن تضمين البرامج النصية للسماح لأي شخص بإعادة إنتاج بعض هذه الاختبارات. يرى
https://github.com/tesseract-ocr/tesseract/wiki/TestingTesseract لمزيد من التفاصيل.
يضيف Tesseract 3.00 عددًا من اللغات الجديدة ، بما في ذلك الصينية واليابانية والكورية. هو - هي
يقدم أيضًا نظامًا جديدًا يعتمد على ملف واحد لإدارة بيانات اللغة.
يضيف Tesseract 3.02 دعمًا للنصوص ثنائية الاتجاه ، والقدرة على التعرف على العديد من العناصر
اللغات في صورة واحدة ، وتحسين تحليل التخطيط.
لمزيد من التفاصيل ، راجع ملف ReleaseNotes المتضمن في التوزيع.
الموارد
موقع الويب الرئيسي: https://github.com/tesseract-ocr معلومات عن التدريب:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
استخدم tesseract عبر الإنترنت باستخدام خدمات onworks.net