אנגליתצרפתיתספרדי

סמל OnWorks

pdfsandwich - מקוון בענן

הפעל pdfsandwich בספק אירוח בחינם של OnWorks על אובונטו מקוון, פדורה מקוון, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

זהו הפקודה pdfsandwich שניתן להריץ בספק האירוח החינמי של OnWorks באמצעות אחת מתחנות העבודה המקוונות המרובות שלנו, כגון Ubuntu Online, Fedora Online, אמולטור מקוון של Windows או אמולטור מקוון של MAC OS

תָכְנִית:

שֵׁם


כריך pdf - מחולל לקבצי PDF סנדוויץ' OCR מקבצי PDF סרוקים

תַקצִיר


כריך pdf [אפשרויות] inputfile.pdf

תיאור


כריך pdf יוצר "סנדוויץ'" קבצי OCR pdf, כלומר קבצי pdf המכילים רק תמונות
(ללא טקסט) יעובד על ידי זיהוי תווים אופטי (OCR) והטקסט יהיה
הוסיפו לכל עמוד באופן בלתי נראה "מאחורי" התמונות. ציין זאת כריך pdf צריך את
התוכנות הבאות: unpaper, convert, gs, hocr2pdf (עבור tesseract < 3.03), ו-tesseract.
מכיוון ש-tesseract >= 3.03 יכול לכתוב קבצי PDF, יש צורך ב-hocr2pdf רק עבור גרסאות ישנות יותר של
tesseract. בבקשה תבקר http://www.tobias-elze.de/כריך pdf.

אפשרויות


-להמיר
-להמיר שם קובץ: שם המרה בינארי (ברירת מחדל: המרה)

-קו -קו אפשרויות : המרה נוספת אפשרויות; הקפידו לצטט; לְמָשָׁל -קו
"-לנרמל -סף שחור 75%" המרת שיחה - עזרה או אדם להתגייר עבור כולם
להמיר אפשרויות

-לנפות לשמור את כל הקבצים הזמניים / Tmp (לאיתור באגים)

-enforcehocr2pdf
השתמש ב-hocr2pdf גם אם tesseract >= 3.03

-עמוד ראשון
-עמוד ראשון מספר: מספר העמוד שממנו יש להתחיל OCR (ברירת מחדל: 1)

-מסנן אפור
אפשר את המסנן האפור של Unpaper; נוסף אפשרויות ניתן להגדיר על ידי - unpo

שם קובץ: שם של gs בינארי (ברירת מחדל: gs)

-hocr2pdf
-hocr2pdf שם קובץ: שם של hocr2pdf בינארי (ברירת מחדל: hocr2pdf); התעלמו בגלל
tesseract >= 3.03 אלא אם כן אפשרות -enforcehocr2pdf מוגדר

-הו -הו אפשרויות : נוסף hocr2pdf אפשרויות; הקפד לצטט

-לזהות
-לזהות שם קובץ: שם זיהוי בינארי (ברירת מחדל: זיהוי)

-עמוד אחרון
-עמוד אחרון מספר : מספר העמוד שאליו יש לעבד OCR (ברירת מחדל: מספר של
דפים בקובץ קלט)

-לאנג -לאנג שפה: שפת הטקסט; אפשרות ל-tesseract (ברירת מחדל: eng) למשל: eng,
deu, deu-frak, fra, rus, swe, spa, ita, ... ראה אפשרות -list_langs; מרובות
ניתן לציין שפות, מופרדות באמצעות תווי פלוס.

-מַעֲרָך
-מַעֲרָך { רווק | כפול | none } : פריסת העמודים הסרוקים; דורש חוסר נייר
יחיד: עמוד אחד לגיליון כפול: שני עמודים לגיליון אין: אין פריסה אוטומטית
(ברירת מחדל)

-list_langs
רשימת השפות הזמינות כעת וצא; במקרה של קבצים בינאריים מותאמים אישית של
tesseract, שים את זה אחרי -טסרקט אוֹפְּצִיָה

-מקסימום פיקסל
-מקסימום פיקסל NUM : המספר המרבי של פיקסלים המותר לקובץ קלט אם
(רזולוציה/72)^2 *רוחב*גובה > מקסימום פיקסלים ואז הגדל את קנה המידה של הדף של קובץ הקלט
לפני OCR כך שגודל העמוד בפיקסלים מתאים ל-maxpixels; בְּרִירַת מֶחדָל:
17415167 (A3 @ 300 dpi)

-אין תמונה
אין למקם את התמונה מעל הטקסט (דורש hocr2pdf; התעלמו ללא
-enforcehocr2pdf אוֹפְּצִיָה)

-נופרפרוק
אל תעבדו מראש עם unpaper

-nthreads
-nthreads מספר : מספר שרשורים מקבילים (ברירת מחדל: מספר ניחוש של מעבדים; אם
ניחוש נכשל: 1)

-o -o שם קובץ: קובץ פלט; ברירת מחדל: inputfile_ocr.pdf (אם הסיומת שונה
מ-.pdf, הסיומת המקורית נשמרת)

-גודל עמוד
-גודל עמוד { מקורי | NUMxNUM } : הגדר את גודל העמוד של הפלט המקורי של PDF: זהה ל
קובץ קלט (ברירת מחדל) NUMxNUM: רוחב x גובה בפיקסל (למשל עבור A4: -גודל עמוד
595x842)

-פתרון הבעיה
-פתרון הבעיה NUM : רזולוציה (dpi) בשימוש עבור OCR (ברירת מחדל: 300)

-rgb השתמש במרחב צבע RGB עבור תמונות (ברירת מחדל: שחור ולבן); השתמש בזהירות: גורמים
בעיות עם מרחבי צבע מסוימים

-טקסט_מרושל
מקם טקסט ברשלנות, קבץ מילים, אל תצייר גליפים בודדים; התעלמו בגלל טסרקט
>= 3.03 אלא אם כן אפשרות -enforcehocr2pdf מוגדר

-טסרקט
-טסרקט שם קובץ: שם של tesseract בינארי (ברירת מחדל: tesseract)

-טסו -טסו אפשרויות : tesseract נוסף אפשרויות; הקפד לצטט

-לא נייר
-לא נייר שם קובץ: שם של unpaper בינארי (ברירת מחדל: unpaper)

- unpo - unpo אפשרויות : ביטול נייר נוסף אפשרויות; הקפד לצטט

-שֶׁקֶט לדכא פלט

-שורש
לייצר יותר תפוקה

-הפך
גרסה להדפיס ולצאת

עזרה הצג רשימה זו של אפשרויות

- עזרה הצג רשימה זו של אפשרויות

שפות


דרך Tesseract, חבילות שפה רבות זמינות - עקוב אחר הקישור הזה
http://code.google.com/p/tesseract-ocr/downloads/list לרשימה מלאה. הנה א
בחירה לא מלאה של שפות נתמכות וקיצוריהן:

ara (ערבית), aze (אזרבייג'אני), בול (בולגרית), חתול (קטלאנית), ces (צ'כית), chi_sim
(סינית פשוטה), chi_tra (סינית מסורתית), chr (צ'ירוקי), דאן (דנית), dan-
frak (דנית (Fraktur)), deu (גרמנית), ell (יוונית), eng (אנגלית), enm (אנגלית עתיקה), epo
(אספרנטו), est (אסטונית), fin (פינית), fra (צרפתית), frm (צרפתית עתיקה), glg
(גליצית), heb (עברית), הין (הינדי), hrv (קרואטיה), הון (הונגרית), ind (אינדונזית),
ita (איטלקית), jpn (יפנית), kor (קוריאנית), lav (לטבית), lit (ליטאית), nld (הולנדית),
nor (נורווגית), pol (פולנית), por (פורטוגזית), רון (רומנית), רוס (רוסית), slk
(סלובקית), slv (סלובנית), sqi (אלבנית), ספא (ספרדית), srp (סרבית), swe (שוודית),
טאם (טמילית), טל (טלוגו), tgl (Tagalog), tha (תאילנדית), טור (טורקית), אוקר (אוקראינית), vie
(וייטנאמית)

ניתן לציין שפות מרובות, מופרדות באמצעות תווי פלוס. שימו לב שה-
יש להתקין את חבילת השפה tesseract המתאימה במערכת שלך כדי שתוכל להשתמש בו
כריך pdf. אוֹפְּצִיָה -list_langs מפרט את השפות הזמינות במערכת שלך.

זמינות


ניתן למצוא מקורות וחבילות כמו גם עזרה מקיפה בכתובת http://www.tobias-
elze.de/כריך pdf.

השתמש ב-pdfsandwich באינטרנט באמצעות שירותי onworks.net


שרתים ותחנות עבודה בחינם

הורד אפליקציות Windows & Linux

פקודות לינוקס

Ad