นี่คือคำสั่ง pdfsandwich ที่สามารถเรียกใช้ในผู้ให้บริการโฮสติ้งฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
pdf แซนวิช - เครื่องกำเนิดไฟล์ PDF แบบแซนด์วิช OCR จากไฟล์ PDF ที่สแกน
เรื่องย่อ
pdf แซนวิช [ตัวเลือก] อินพุตไฟล์.pdf
DESCRIPTION
pdf แซนวิช สร้างไฟล์ pdf "แซนวิช" OCR เช่นไฟล์ pdf ที่มีเฉพาะภาพ
(ไม่มีข้อความ) จะถูกประมวลผลโดยการรู้จำอักขระด้วยแสง (OCR) และข้อความจะเป็น
เพิ่มในแต่ละหน้า "หลัง" ที่มองไม่เห็นภาพ สังเกตว่า pdf แซนวิช ต้องการ
โปรแกรมต่อไปนี้: unpaper, convert, gs, hocr2pdf (สำหรับ tesseract < 3.03) และ tesseract
เนื่องจาก tesseract >= 3.03 สามารถเขียนไฟล์ pdf ได้ hocr2pdf จึงจำเป็นสำหรับ . เวอร์ชันเก่ากว่าเท่านั้น
เทสเซอแรคท์ กรุณาเยี่ยมชม http://www.tobias-elze.de/pdf แซนวิช.
OPTIONS
-แปลง
-แปลง ชื่อไฟล์ : ชื่อของแปลงไบนารี (ค่าเริ่มต้น: แปลง)
-คู -คู ตัวเลือก : แปลงเพิ่มเติม ตัวเลือก; ให้แน่ใจว่าได้เสนอราคา; เช่น -คู
"-ทำให้เป็นมาตรฐาน -ขีดดำ 75%" แปลงการโทร --ช่วยด้วย หรือมนุษย์แปลงเพื่อทุกคน
แปลง ตัวเลือก
-debug เก็บไฟล์ชั่วคราวทั้งหมดไว้ใน / Tmp (สำหรับการดีบัก)
-enforcehocr2pdf
ใช้ hocr2pdf แม้ว่า tesseract >= 3.03
-หน้าแรก
-หน้าแรก number : จำนวนหน้าที่เริ่ม OCR จาก (ค่าเริ่มต้น: 1)
-ตัวกรองสีเทา
เปิดใช้งานตัวกรองสีเทาของ unpaper; ไกลออกไป ตัวเลือก สามารถกำหนดได้โดย -ไม่โป
-gs -gs ชื่อไฟล์ : ชื่อของไบนารี gs (ค่าเริ่มต้น: gs)
-hocr2pdf
-hocr2pdf ชื่อไฟล์ : ชื่อของไบนารี hocr2pdf (ค่าเริ่มต้น: hocr2pdf); ละเลยสำหรับ
tesseract >= 3.03 เว้นแต่ตัวเลือก -enforcehocr2pdf มีการตั้งค่า
-ฮู -ฮู ตัวเลือก : hocr2pdf เพิ่มเติม ตัวเลือก; อย่าลืมเสนอราคา
-แยกแยะ
-แยกแยะ ชื่อไฟล์ : ชื่อของไบนารีระบุ (ค่าเริ่มต้น: ระบุ)
-หน้าสุดท้าย
-หน้าสุดท้าย number : จำนวนหน้าที่ประมวลผล OCR (ค่าเริ่มต้น: จำนวน
หน้าในไฟล์อินพุต)
-lang -lang ภาษา : ภาษาของข้อความ; ตัวเลือกในการ tesseract (ค่าเริ่มต้น: eng) เช่น: eng,
deu, deu-frak, fra, rus, swe, สปา, อิตา, ... ดูตัวเลือก -list_langs; หลายรายการ
อาจระบุภาษาโดยคั่นด้วยอักขระบวก
- เค้าโครง
- เค้าโครง { โสด | สองเท่า | none } : เลย์เอาต์ของหน้าที่สแกน; ต้อง unpaper
เดี่ยว: หนึ่งหน้าต่อแผ่น สองเท่า: สองหน้าต่อแผ่น ไม่มี: ไม่มีการจัดวางอัตโนมัติ
(เริ่มต้น)
-list_langs
แสดงรายการภาษาที่มีอยู่และออก; ในกรณีของไบนารีที่กำหนดเองของ
tesseract วางสิ่งนี้หลังจาก -เทสเซอร์แรค ตัวเลือก
-พิกเซลสูงสุด
-พิกเซลสูงสุด NUM : จำนวนพิกเซลสูงสุดที่อนุญาตสำหรับไฟล์อินพุต if
(ความละเอียด/72)^2 *ความกว้าง*ความสูง > maxpixels จากนั้นปรับขนาดหน้าของไฟล์อินพุตลง
ก่อนหน้า OCR เพื่อให้ขนาดหน้าเป็นพิกเซลสอดคล้องกับ maxpixels ค่าเริ่มต้น:
17415167 (A3 @ 300 จุดต่อนิ้ว)
-ไม่มีรูป
อย่าวางรูปภาพทับข้อความ (ต้องใช้ hocr2pdf ละเว้นโดยไม่ต้อง
-enforcehocr2pdf ตัวเลือก)
-nopreproc
อย่าประมวลผลล่วงหน้าด้วย unpaper
-nthreads
-nthreads number : จำนวนเธรดคู่ขนาน (ค่าเริ่มต้น: จำนวน CPU ที่เดา; if
การเดาล้มเหลว: 1)
-o -o ชื่อไฟล์ : ไฟล์ที่ส่งออก; ค่าเริ่มต้น: inputfile_ocr.pdf (หากนามสกุลต่างกัน
จาก .pdf นามสกุลเดิมจะถูกเก็บไว้)
-ขนาดเพจ
-ขนาดเพจ { ต้นฉบับ | NUMxNUM } : กำหนดขนาดหน้าของเอาต์พุต pdf ต้นฉบับ: เหมือนกับ
ไฟล์อินพุต (ค่าเริ่มต้น) NUMxNUM: กว้าง x สูงเป็นพิกเซล (เช่นสำหรับ A4: -ขนาดเพจ
595x842)
- ความละเอียด
- ความละเอียด NUM : ความละเอียด (dpi) ที่ใช้สำหรับ OCR (ค่าเริ่มต้น: 300)
-rgb ใช้ปริภูมิสี RGB สำหรับรูปภาพ (ค่าเริ่มต้น: ขาวดำ); ใช้ด้วยความระมัดระวัง: สาเหตุ
ปัญหาเกี่ยวกับช่องว่างสีบางส่วน
-sloppy_text
วางข้อความเลอะเทอะ, กลุ่มคำ, อย่าวาดร่ายมนตร์เดียว; ละเว้นสำหรับ tesseract
>= 3.03 เว้นแต่ตัวเลือก -enforcehocr2pdf มีการตั้งค่า
-เทสเซอร์แรค
-เทสเซอร์แรค ชื่อไฟล์ : ชื่อของไบนารี tesseract (ค่าเริ่มต้น: tesseract)
-เทสโซ่ -เทสโซ่ ตัวเลือก : tesseract เพิ่มเติม ตัวเลือก; อย่าลืมเสนอราคา
-แกะกระดาษ
-แกะกระดาษ filename : ชื่อของ unpaper binary (ค่าเริ่มต้น: unpaper)
-ไม่โป -ไม่โป ตัวเลือก : unpaper เพิ่มเติม ตัวเลือก; อย่าลืมเสนอราคา
-เงียบ ระงับการส่งออก
-รายละเอียด
ให้ผลผลิตมากขึ้น
-version
พิมพ์เวอร์ชั่นแล้วออก
-ช่วยด้วย แสดงรายการของ .นี้ ตัวเลือก
--ช่วยด้วย แสดงรายการของ .นี้ ตัวเลือก
ภาษา
ผ่าน Tesseract มีแพ็คเกจภาษามากมาย - ตามลิงค์นี้
http://code.google.com/p/tesseract-ocr/downloads/list สำหรับรายการที่สมบูรณ์ นี่คืออัน
การเลือกภาษาที่รองรับและคำย่อที่ไม่สมบูรณ์:
ara (อาหรับ), aze (อาเซอร์ไบจาน), bul (บัลแกเรีย), cat (คาตาลัน), ces (เช็ก), chi_sim
(จีนตัวย่อ), chi_tra (จีนตัวเต็ม), chr (เชอโรคี), dan (เดนมาร์ก), dan-
frak (เดนมาร์ก (Fraktur)), deu (เยอรมัน), ell (กรีก), eng (อังกฤษ), enm (ภาษาอังกฤษแบบเก่า), epo
(เอสเปรันโต), est (เอสโตเนีย), fin (ฟินแลนด์), fra (ฝรั่งเศส), frm (ภาษาฝรั่งเศสเก่า), glg
(กาลิเซีย), heb (ฮีบรู), hin (ภาษาฮินดี), hrv (Croation), hun (ฮังการี), ind (ชาวอินโดนีเซีย),
ita (อิตาลี), jpn (ญี่ปุ่น), kor (เกาหลี), lav (ลัตเวีย), lit (ลิทัวเนีย), nld (ดัตช์),
nor (นอร์เวย์), pol (โปแลนด์), por (โปรตุเกส), ron (โรมาเนีย), rus (รัสเซีย), slk
(สโลวะเกีย), slv (สโลวีเนีย), sqi (แอลเบเนีย), สปา (สเปน), srp (เซอร์เบีย), swe (สวีเดน),
tam (ทมิฬ), tel (เตลูกู), tgl (ตากาล็อก), tha (ไทย), tur (ตุรกี), ukr (ยูเครน), vie
(เวียดนาม)
สามารถระบุได้หลายภาษา โดยคั่นด้วยอักขระบวก โปรดทราบว่า
ต้องติดตั้งแพ็คเกจภาษา tesseract ที่เกี่ยวข้องในระบบของคุณจึงจะใช้งานได้โดย
pdf แซนวิช. ตัวเลือก -list_langs แสดงรายการภาษาที่มีอยู่ในระบบของคุณ
ห้องว่าง
แหล่งที่มาและแพ็คเกจรวมถึงความช่วยเหลือที่ครอบคลุมสามารถดูได้ที่ http://www.tobias-
elze.de/pdf แซนวิช.
ใช้ pdfsandwich ออนไลน์โดยใช้บริการ onworks.net