זהו הפקודה gocr שניתן להפעיל בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS
תָכְנִית:
שֵׁם
gocr - כלי זיהוי טקסט בשורת הפקודה
תַקצִיר
gocr [אוֹפְּצִיָה] [-i] קובץ pnm
תיאור
gocr היא תוכנית זיהוי תווים אופטית שניתן להשתמש בה משורת הפקודה.
הוא לוקח קלט בפורמט PNM, PGM, PBM, PPM או PCX, וכותב טקסט מוכר ל stdout.
אם PNM פילה הוא מקף בודד, ממנו קוראים נתוני PNM סטדין. אם gzip, bzip2 ו-netpbm-
פרוגים מותקנים והמערכת שלך תומכת פופ(3) גם pnm.gz, pnm.bz2, png, jpg,
jpeg, tiff, gif, bmp, ps (רק עמודים בודדים) ו-eps נתמכים כקבצי קלט (לא כ
זרם קלט), שבו ניתן להחליף את pnm באחד של ppm, pgm ו-pbm.
אפשרויות
-h להציג מידע שימוש
-i פילה
קרא קלט מ פילה (אוֹ סטדין if פילה הוא מקף בודד)
-o פילה
לשלוח פלט ל פילה במקום stdout
-e פילה
לשלוח שגיאות ל פילה במקום סטדרר או ל stdout if פילה הוא מקף
-x פילה
התקדמות פלט ל פילה (פילה יכול להיות שם קובץ, שם fifo או מתאר קובץ
1...255), זה שימושי עבור מפתחי GUI כדי להציג את התקדמות ה-OCR, הקובץ
ארגומנט התיאור זמין רק אם הוא הידור עם __USE_POSIX מוגדר
-p נתיב
נתיב מסד הנתונים, יש לכלול לוכסן סופי, ברירת המחדל היא ./db/, נתיב זה יהיה
מאוכלס בתמונות של דמויות נלמדות
-f פוּרמָט
תפוקה פוּרמָט מתוך הטקסט המוכר (ISO8859_1 TeX HTML XML UTF8 ASCII), XML יהיה
גם פלט נתוני מיקום והסתברות
-l רָמָה
הגדר את רמת האפור ל רָמָה (0<160<=255, ברירת מחדל: 0 לזיהוי אוטומטי), פיקסלים כהים יותר
שייכים לתווים, פיקסלים בהירים יותר מתפרשים כרקע של הקלט
תמונה
-d גודל
הגדר את גודל האבק בפיקסלים (מסירים אשכולות קטנים מזה), 0 פירושו לא
אשכולות מוסרים, ברירת המחדל היא -1 עבור זיהוי אוטומטי
-s NUM הגדר רוחב רווח בין מילים ביחידות של נקודות (ברירת מחדל: 0 לזיהוי אוטומטי), רחב יותר
רוחבים מתפרשים כרווחי מילים, קטנים יותר כרווחי תווים
-v מֶלֶל
להיות מילולי לסטדרר; מֶלֶל הוא שדה ביט
-c מחרוזת
רק פלט מילולי של תווים מ מחרוזת כדי stderr, יותר פלט נוצר
עבור כל התווים בתוך המחרוזת, הקו התחתון מייצג תווים לא ידועים, זה
הפונקציה שימושית כדי להגביל את מידע ניפוי באגים לנתון הדרוש
-C מחרוזת
מזהה רק דמויות מ מחרוזת, זוהי פונקציית סינון במקרים שבהם ה
העניין הוא רק לחלק מאלפבית התווים, אתה יכול להשתמש ב-0-9 או az כדי
ציין טווחים, השתמש ב-- כדי לזהות את סימן המינוס
-a ודאות
ערך מוגדר לוודאות זיהוי (0..100; ברירת מחדל: 95), תווים עם
ודאות גבוהה יותר מתקבלות, תווים עם ודאות נמוכה יותר מטופלים כאל
לא ידוע (לא מוכר); הגדר ערכים גבוהים יותר, אם אתה רוצה להיות בטוח יותר
דמויות מוכרות
-u מחרוזת
פלט מחרוזת זו עבור כל תו לא מזוהה (ברירת המחדל היא "_")
-m מצב
הגדר מצב מבצעי; מצב הוא שדה סיביות (ברירת מחדל: 0)
-n bool
if bool אינו אפס, מזהה רק מספרים (זה מיושן כעת, השתמש ב-C
"0123456789")
המילוליות מצוינת כ-bitfield:
1 להדפיס מידע נוסף
2 רשימה של צורות של תיבות (ראה -c) כדי stderr
4 דפוס רשימה של תיבות (ראה -c) ל-stderr
8 הדפסת דפוס לאחר זיהוי עבור ניפוי באגים
16 הדפס מידע באגים על זיהוי שורות ל-stderr
32 צור outXX.png עם תיבות וקווים מסומנים בכל שלב OCR כללי
מצבי הפעולה הם:
2 השתמש במסד נתונים כדי לזהות תווים שאינם מזוהים על ידי אחרים
אלגוריתמים, (פיתוח מוקדם)
4 הפעלת ניתוח פריסה או יעוד (פיתוח)
8 אל תשווה תווים לא מזוהים לדמויות מוכרות
16 אל תנסה לחלק תווים חופפים לשניים או שלושה תווים בודדים
32 אל תעשה תיקון הקשר
64 אריזת תווים, לפני שהזיהוי מתחיל, מחפשים תווים דומים
ורק אחת מהדמויות האלה תישלח למנוע הזיהוי
(התפתחות)
130 הרחבת מסד הנתונים, מבקשת מהמשתמש לתווים לא מזוהים ומרחיבה את
מסד נתונים עם תשובת משתמשים (128+2, פיתוח מוקדם)
256 כבה את מנוע הזיהוי (הגיוני יחד עם -m 2)
השתמש ב-gocr באינטרנט באמצעות שירותי onworks.net