זוהי הפקודה unicharset_extractor שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו בחינם כגון Ubuntu Online, Fedora Online, אמולטור המקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
unicharset_extractor - חלץ unicharset מ-Tesseract boxfiles
תַקצִיר
unicharset_extractor [-ד דיר] קובץ...
תיאור
Tesseract צריך לדעת את קבוצת התווים האפשריים שהוא יכול להוציא. כדי ליצור את
קובץ הנתונים של unicharset, השתמש בתוכנית unicharset_extractor באותם דפי הדרכה
קבצי תיבה תוחמת המשמשים לאשכולות:
unicharset_extractor fontfile_1.box fontfile_2.box ...
ה-unicharset יוכנס לקובץ dir/unicharset, או בפשטות ./unicharset אם לא
ספריית הפלט מסופקת.
ל-Tesseract צריכה להיות גם גישה למאפייני התווים isalpha, isdigit, isupper,
islower, סימני פיסוק. כל נתוני העזר הללו ועוד מקודדים בקובץ הזה. (לִרְאוֹת
unicharset(5))
אם המערכת שלך תומכת בפונקציות wctype, ערכים אלה יוגדרו אוטומטית על ידי
unicharset_extractor ואין צורך לערוך את קובץ ה-unicharset. על כמה ישנים יותר
מערכות (למשל Windows 95), יש לערוך את קובץ ה-unicharset ביד כדי להוסיף את המאפיין הזה
קודי תיאור.
הערה יש ליצור מחדש את קובץ ה-unicharset בכל פעם שיש inttemp, normproto ו-pffmtable
נוצר (כלומר יש ליצור את כולם מחדש כאשר קובץ התיבה משתנה) כפי שהם צריכים
להיות מסונכרן. זה נעשה קל יותר מאשר בגרסאות קודמות על ידי הפעלת unicharset_extractor
לפני אימון ו-cntraining, ומתן את ה-unicharset ל-mftraining.
השתמש ב-unicharset_extractor באינטרנט באמצעות שירותי onworks.net