นี่คือคำสั่ง pdf2htmlEX ที่สามารถเรียกใช้ในผู้ให้บริการโฮสติ้งฟรีของ OnWorks โดยใช้หนึ่งในเวิร์กสเตชันออนไลน์ฟรีของเรา เช่น Ubuntu Online, Fedora Online, โปรแกรมจำลองออนไลน์ของ Windows หรือโปรแกรมจำลองออนไลน์ของ MAC OS
โครงการ:
ชื่อ
pdf2htmlEX - แปลง PDF เป็น HTML โดยไม่สูญเสียข้อความและรูปแบบ
การใช้
pdf2htmlEX [ตัวเลือก] [ ]
DESCRIPTION
pdf2htmlEX เป็นยูทิลิตี้ที่แปลงไฟล์ PDF เป็นไฟล์ HTML
pdf2htmlEX พยายามอย่างเต็มที่ในการแสดงผล PDF อย่างแม่นยำ รักษาสไตล์ที่เหมาะสมในขณะที่
การรักษาข้อความและการเพิ่มประสิทธิภาพสำหรับเว็บ
แยกแบบอักษรในรูปแบบ PDF แล้วฝังลงใน HTML ข้อความในไฟล์ HTML ที่แปลงแล้ว
มักจะเลือกและคัดลอกได้
ออบเจ็กต์อื่นๆ จะแสดงเป็นรูปภาพและฝังไว้ด้วย
OPTIONS
หน้า
-NS, --หน้าแรก (ค่าเริ่มต้น: 1)
ระบุหน้าแรกที่จะประมวลผล
-l --หน้าสุดท้าย (ค่าเริ่มต้น: ล่าสุด หน้า)
ระบุหน้าสุดท้ายที่จะประมวลผล
ขนาด
--ซูม , --พอดีความกว้าง , --พอดีความสูง
--zoom ระบุปัจจัยการซูมโดยตรง --fit-width/height ระบุค่าสูงสุด
ความกว้าง/ความสูงของหน้า ค่าเป็นพิกเซล
หากระบุหลายค่า ระบบจะใช้ค่าต่ำสุด
หากไม่มีการระบุ หน้าจะแสดงผลเป็น 72DPI
--use-cropbox <0|1> (ค่าเริ่มต้น: 1)
ใช้ CropBox แทน MediaBox สำหรับเอาต์พุต
--hdpi , --vdpi (ค่าเริ่มต้น: 144)
ระบุ DPI แนวนอนและแนวตั้งสำหรับรูปภาพ
เอาท์พุต
--ฝัง
--embed-css <0|1> (ค่าเริ่มต้น: 1)
--embed-ฟอนต์ <0|1> (ค่าเริ่มต้น: 1)
--embed-ภาพ <0|1> (ค่าเริ่มต้น: 1)
--embed-จาวาสคริปต์ <0|1> (ค่าเริ่มต้น: 1)
--embed-โครงร่าง <0|1> (ค่าเริ่มต้น: 1)
ระบุองค์ประกอบที่ควรฝังลงในไฟล์ HTML เอาต์พุต
หากปิดอยู่ ไฟล์ที่แยกจากกันจะถูกสร้างขึ้นพร้อมกับไฟล์ HTML สำหรับ
องค์ประกอบที่สอดคล้องกัน
--embed ยอมรับสตริงเป็นอาร์กิวเมนต์ ตัวอักษรแต่ละตัวในสตริงต้องเป็นหนึ่งใน
`cCfFiIjJoO` ซึ่งสอดคล้องกับสวิตช์ --embed-*** ตัวใดตัวหนึ่ง ตัวพิมพ์เล็ก
ตัวอักษรสำหรับ 0 และตัวพิมพ์ใหญ่สำหรับ 1 ตัวอย่างเช่น `--embed cFIJo` หมายถึงto
ฝังทุกอย่างยกเว้นไฟล์ CSS และโครงร่าง
--แยกหน้า <0|1> (ค่าเริ่มต้น: 0)
หากเปิดไว้ เนื้อหาของแต่ละหน้าจะถูกจัดเก็บไว้ในไฟล์ที่แยกจากกัน
สวิตช์นี้มีประโยชน์หากคุณต้องการให้โหลดหน้าแยกต่างหาก & แบบไดนามิก -- a
เซิร์ฟเวอร์ที่รองรับอาจจำเป็น
โปรดดูที่ --page-filename
--dest-ผบ (ค่าเริ่มต้น: .)
ระบุโฟลเดอร์ปลายทาง
--css-ชื่อไฟล์ (ค่าเริ่มต้น: )
ระบุชื่อไฟล์ของไฟล์ css ที่สร้างขึ้น หากไม่ได้ฝังไว้
หากว่างเปล่า ชื่อไฟล์จะถูกกำหนดโดยอัตโนมัติ
--page-ชื่อไฟล์ (ค่าเริ่มต้น: )
ระบุเทมเพลตชื่อไฟล์สำหรับหน้าเมื่อ --split-pages คือ 1
ตัวยึดตำแหน่ง %d อาจรวมอยู่ใน "ชื่อไฟล์" เพื่อระบุตำแหน่งที่หมายเลขหน้า
ควรวาง ตัวยึดรองรับชุดย่อยที่จำกัดของตัวเลขปกติ
ตัวยึด รวมทั้งความกว้างที่ระบุและช่องว่างภายในเป็นศูนย์
หาก "ชื่อไฟล์" ไม่มีตัวยึดตำแหน่งสำหรับหมายเลขหน้า ให้ระบุหมายเลขหน้า
จะถูกแทรกโดยตรงก่อนนามสกุลไฟล์ หากไม่มีชื่อไฟล์
นามสกุล เลขหน้าจะอยู่ที่ท้ายชื่อไฟล์
หากไม่ได้ระบุ --page-filename จะใช้สำหรับเอาท์พุท
ชื่อไฟล์ แทนที่นามสกุลด้วย .page และเพิ่มหมายเลขหน้าโดยตรง
ก่อนขยาย.
ตัวอย่าง
pdf2htmlEX --แยกหน้า 1 ฟู.pdf
ผลตอบแทนไฟล์หน้า foo1.page, foo2.page ฯลฯ
pdf2htmlEX --แยกหน้า 1 ฟู.pdf --page-ชื่อไฟล์ บาร์.บาส
ผลผลิตไฟล์หน้า bar1.baz, bar2.baz ฯลฯ
pdf2htmlEX --แยกหน้า 1 ฟู.pdf --page-ชื่อไฟล์ หน้า%dbar.baz
ผลผลิตไฟล์หน้า page1bar.baz, page2bar.baz ฯลฯ
pdf2htmlEX --แยกหน้า 1 ฟู.pdf --page-ชื่อไฟล์ บาร์%03d.baz
ผลผลิตไฟล์หน้า bar001.baz, bar002.baz ฯลฯ
--outline-ชื่อไฟล์ (ค่าเริ่มต้น: )
ระบุชื่อไฟล์ของไฟล์เค้าร่างที่สร้างขึ้น หากไม่ได้ฝังไว้
หากว่างเปล่า ชื่อไฟล์จะถูกกำหนดโดยอัตโนมัติ
--ประมวลผล-ไม่ใช่ข้อความ <0|1> (ค่าเริ่มต้น: 1)
จะประมวลผลวัตถุที่ไม่ใช่ข้อความหรือไม่ (เป็นรูปภาพ)
--กระบวนการ-โครงร่าง <0|1> (ค่าเริ่มต้น: 1)
จะแสดงโครงร่างใน HTML . ที่สร้างขึ้นหรือไม่
--ประมวลผลคำอธิบายประกอบ <0|1> (ค่าเริ่มต้น: 0)
จะแสดงคำอธิบายประกอบใน HTML . ที่สร้างขึ้นหรือไม่
--กระบวนการ-แบบฟอร์ม <0|1> (ค่าเริ่มต้น: 0)
จะรวมฟิลด์ข้อความและปุ่มตัวเลือกใน HTML . ที่สร้างขึ้นหรือไม่
--การพิมพ์ <0|1> (ค่าเริ่มต้น: 1)
เปิดใช้งานการสนับสนุนการพิมพ์ การปิดใช้งานตัวเลือกนี้อาจลดขนาดของ CSS
--รั้งท้าย <0|1> (ค่าเริ่มต้น: 0)
เอาต์พุตในโหมดสำรองเพื่อความแม่นยำและความเข้ากันได้ของเบราว์เซอร์ที่ดีขึ้น แต่
ขนาดจะใหญ่ขึ้น
--tmp-ไฟล์-ขนาด-จำกัด (ค่าเริ่มต้น: -1)
สิ่งนี้จะจำกัดขนาดรวม (เป็น KB) ของไฟล์ชั่วคราวซึ่งจะจำกัด
ขนาดรวมของไฟล์ที่ส่งออก นี่คือค่าประมาณและจะหยุดหลังจากหน้า
เมื่อขนาดไฟล์ชั่วคราวทั้งหมดมากกว่าจำนวนนี้
-1 หมายถึงไม่มีขีดจำกัดและเป็นค่าเริ่มต้น
แบบอักษร
--embed-ภายนอกแบบอักษร <0|1> (ค่าเริ่มต้น: 1)
ระบุว่าควรจับคู่ฟอนต์ในเครื่อง สำหรับฟอนต์ที่ไม่ได้ฝังใน PDF หรือไม่
ฝังลงใน HTML
หากสวิตช์นี้ปิดอยู่ ระบบจะส่งออกเฉพาะชื่อแบบอักษรเพื่อให้เว็บเบราว์เซอร์ลองใช้ได้
เพื่อค้นหาฟอนต์ที่เหมาะสมด้วยตัวเอง และนั่นอาจทำให้เกิดปัญหาเกี่ยวกับฟอนต์ที่ไม่ถูกต้อง
ตัวชี้วัด
--font-รูปแบบ (ค่าเริ่มต้น: วอฟ)
ระบุรูปแบบของฟอนต์ที่แยกจากไฟล์ PDF
--decompose-มัด <0|1> (ค่าเริ่มต้น: 0)
ย่อยสลายมัด ตัวอย่างเช่น 'fi' -> 'f''i'
--auto-คำใบ้ <0|1> (ค่าเริ่มต้น: 0)
หากตั้งค่าเป็น 1 คำแนะนำจะถูกสร้างขึ้นสำหรับฟอนต์โดยใช้ FontForge
สิ่งนี้อาจนำหน้าด้วย --external-hint-tool
--external-คำใบ้-เครื่องมือ (ค่าเริ่มต้น: )
หากระบุไว้ เครื่องมือจะถูกเรียกเพื่อปรับปรุงคำใบ้สำหรับฟอนต์ นี่
จะนำหน้า --auto-hint
เครื่องมือนี้จะถูกเรียกว่า ' ' โดยที่ส่วนต่อท้ายจะเป็น
เช่นเดียวกับที่ระบุไว้สำหรับ --font-format
--ยืด-แคบ-ร่ายมนตร์ <0|1> (ค่าเริ่มต้น: 0)
หากตั้งค่าเป็น 1 ร่ายมนตร์ที่แคบกว่าที่อธิบายไว้ใน PDF จะถูกยืดออก มิฉะนั้น
ช่องว่างจะถูกบุไว้ทางด้านขวาของร่ายมนตร์
--squeeze-wide-glyph <0|1> (ค่าเริ่มต้น: 1)
หากตั้งค่าเป็น 1 ร่ายมนตร์ที่กว้างกว่าที่อธิบายไว้ใน PDF จะถูกบีบอัด มิฉะนั้นจะ
ถูกตัดทอน
--แทนที่-fstype <0|1> (ค่าเริ่มต้น: 0)
ล้าง fstype bits ในฟอนต์ TTF/OTF
เปิดใช้งานหาก Internet Explorer บ่นเกี่ยวกับ 'ต้องได้รับอนุญาตติดตั้ง'
และคุณได้รับอนุญาตให้ทำเช่นนั้น
--กระบวนการ-type3 <0|1> (ค่าเริ่มต้น: 0)
หากเปิดไว้ pdf2htmlEX จะพยายามแปลงแบบอักษร Type 3 เพื่อให้ข้อความเป็น
แสดงโดยกำเนิดใน HTML มิฉะนั้น ข้อความทั้งหมดที่มีแบบอักษร Type 3 จะถูกแสดง
เป็นภาพ
คุณลักษณะนี้อยู่ในขั้นทดลองอย่างมาก
ข้อความ
-- แกะ , --veps (ค่าเริ่มต้น: 1)
ระบุออฟเซ็ตแนวนอน/แนวตั้งสูงสุดที่ยอมรับได้ (เป็นพิกเซล)
pdf2htmlEX จะพยายามเพิ่มประสิทธิภาพไฟล์ HTML ที่สร้างขึ้นโดยย้ายข้อความภายในนี้
ระยะทาง
--ช่องว่างเกณฑ์ (ค่าเริ่มต้น: 0.125)
pdf2htmlEX จะแทรกอักขระช่องว่าง ' ' หากระยะห่างระหว่างสอง
ตัวอักษรต่อเนื่องกันในบรรทัดเดียวกันกว้างกว่าอัตราส่วน * font_size
--font-size-ตัวคูณ (ค่าเริ่มต้น: 4.0)
เว็บเบราว์เซอร์จำนวนมากจำกัดขนาดฟอนต์ขั้นต่ำ และหลายๆ เว็บจะปัดเศษฟอนต์ที่กำหนด
ขนาดซึ่งส่งผลให้การแสดงผลไม่ถูกต้อง
ระบุอัตราส่วนที่มากกว่า 1 จะแก้ปัญหานี้ได้ อย่างไรก็ตาม มันอาจจะค้าง
เบราว์เซอร์บางตัว
อย่างไรก็ตาม สำหรับ Firefox บางรุ่น จะมีปัญหาเมื่อขนาดฟอนต์
ใหญ่เกินไป ในกรณีนี้ควรระบุค่าที่น้อยกว่าที่นี่
--ช่องว่างเป็นออฟเซ็ต <0|1> (ค่าเริ่มต้น: 0)
หากตั้งค่าเป็น 1 อักขระเว้นวรรคจะถือเป็นการชดเชย ซึ่งช่วยให้ดีขึ้น
การเพิ่มประสิทธิภาพ
สำหรับไฟล์ PDF ที่มีการเข้ารหัสไม่ดี การเปิดตัวเลือกนี้อาจทำให้สูญหาย
อักขระ
--tounicode <-1|0|1> (ค่าเริ่มต้น: 0)
อาจมีแผนที่ ToUnicode สำหรับแต่ละแบบอักษรในรูปแบบ PDF ซึ่งระบุ 'ความหมาย'
ของตัวละคร อย่างไรก็ตาม มักจะมีข้อมูล "ToUnicode" ที่ดีกว่าในประเภท 0/1
แบบอักษร และบางครั้งแผนที่ ToUnicode ที่ให้มานั้นผิด หากตั้งค่านี้เป็น
1 แผนที่ ToUnicode จะถูกนำไปใช้เสมอ หากมีให้ในรูปแบบ PDF และอักขระอาจไม่
แสดงอย่างถูกต้องใน HTML หากมีการชนกัน
หากตั้งค่าเป็น -1 ระบบจะใช้แผนที่ที่กำหนดเองเพื่อให้การเรนเดอร์ถูกต้องใน HTML
(หน้าตาเหมือนกัน) แต่คุณอาจได้อักขระที่ไม่ถูกต้องโดยเลือก & คัดลอก &
วาง
หากตั้งค่าเป็น 0, pdf2htmlEX จะพยายามสร้างสมดุลระหว่างสองวิธีข้างต้น
--เพิ่มประสิทธิภาพข้อความ <0|1> (ค่าเริ่มต้น: 0)
หากตั้งค่าเป็น 1 pdf2htmlEX จะพยายามลดจำนวนองค์ประกอบ HTML ที่ใช้สำหรับ
ข้อความ. ปิดหากมีสิ่งผิดปกติเกิดขึ้น
-- แก้ไขการมองเห็นข้อความ <0|1> (ค่าเริ่มต้น: 0)
หากตั้งค่าเป็น 1 pdf2htmlEX จะพยายามตรวจหาข้อความที่ครอบคลุมโดยกราฟิกอื่นๆ และ
จัดเรียงอย่างเหมาะสม กล่าวคือ ข้อความที่ปิดไว้จะถูกทำให้โปร่งใสในเลเยอร์ข้อความ และ
ถูกวาดบนเลเยอร์พื้นหลัง
พื้นหลัง ภาพ
--bg-รูปแบบ (ค่าเริ่มต้น: PNG)
ระบุรูปแบบภาพพื้นหลัง เรียกใช้ `pdf2htmlEX -v` เพื่อตรวจสอบทั้งหมดที่รองรับ
รูปแบบ
--svg-node-count-limit (ค่าเริ่มต้น: -1)
หากจำนวนโหนดในรูปภาพพื้นหลัง svg เกินขีดจำกัดนี้ ถอยกลับหน้านี้ไปที่
พื้นหลังบิตแมป ค่าลบหมายถึงไม่มีขีดจำกัด ตัวเลือกนี้มีประโยชน์ก็ต่อเมื่อ
'--bg-format svg' ถูกระบุ โปรดทราบว่าจำนวนโหนดใน svg เป็นเพียงการคำนวณ
ประมาณ.
--svg-embed-บิตแมป <0|1> (ค่าเริ่มต้น: 1)
ฝังบิตแมปในภาพพื้นหลัง svg หรือไม่ 1: ฝังบิตแมปในพื้นหลัง svg;
0: ดัมพ์บิตแมปไปยังไฟล์ภายนอก ถ้าเป็นไปได้
ตัวเลือกนี้มีประโยชน์เฉพาะเมื่อมีการระบุ '--bg-format svg' และ '--embed-image'
ปิด.
ปัจจุบัน บิตแมป RGB หรือ Grey JPEG ใน PDF สามารถทิ้งได้ ในขณะที่บิตแมปอื่นๆ
รูปแบบหรือสเปซสียังคงฝังอยู่ หากบิตแมปไม่ถูกทิ้งตามที่คาดไว้
ลองประมวลผล PDF ของคุณล่วงหน้าด้วย ghostscript หรือ acrobat และตรวจสอบให้แน่ใจว่าบิตแมปอยู่ในนั้น
จะถูกแปลงเป็นรูปแบบ RGB/Gray JPEG ดูวิกิโครงการสำหรับรายละเอียดเพิ่มเติม
รูปแบบไฟล์ PDF การป้องกัน
-o, --owner-รหัสผ่าน
ระบุรหัสผ่านเจ้าของ
-ยู, --user-รหัสผ่าน
ระบุรหัสผ่านผู้ใช้
--no-drm <0|1> (ค่าเริ่มต้น: 0)
แทนที่การตั้งค่า DRM ของเอกสาร
เปิดใช้งานเมื่อคุณได้รับอนุญาตเท่านั้น
misc
--สะอาด-tmp <0|1> (ค่าเริ่มต้น: 1)
หากปิดอยู่ ไฟล์กลางจะไม่ได้รับการล้างในท้ายที่สุด
--data-dir (ค่าเริ่มต้น: /usr/share/pdf2htmlEX)
ระบุโฟลเดอร์ที่มีรายการและไฟล์อื่น ๆ (ดูด้านล่างสำหรับรายการ
ไฟล์)`
--tmp-ผบ (ค่าเริ่มต้น: / Tmp or $TMPDIR if ชุด)
ระบุโฟลเดอร์ชั่วคราวที่จะใช้สำหรับไฟล์ชั่วคราว
--css-วาด <0|1> (ค่าเริ่มต้น: 0)
การวาดภาพ CSS แบบทดลองและไม่รองรับ
--debug <0|1> (ค่าเริ่มต้น: 0)
พิมพ์ข้อมูลการดีบัก
--การพิสูจน์ <0|1|2> (ค่าเริ่มต้น: 0)
ส่งออกเวอร์ชันการพิสูจน์ หากระบุค่าบวก ข้อความจะถูกวาดบนทั้งสอง
ชั้นข้อความและรูปภาพพื้นหลังสำหรับการเปรียบเทียบ ถ้าระบุ 2 ให้พิมพ์
พื้นหลังเป็นสีต่างๆ หากใช้รูปแบบพื้นหลัง png/jpg ค่าที่สูงขึ้น
แนะนำให้ใช้ hdpi/vdpi (เช่น 288) เพื่อให้อ่านได้ชัดเจน
Meta
-ใน, --รุ่น
พิมพ์ข้อมูลลิขสิทธิ์และเวอร์ชัน
--ช่วยด้วย พิมพ์ข้อมูลการใช้งาน
MANIFEST และ ข้อมูล-DIR
เมื่อหน้าแยกเป็น 0 ไฟล์รายการจะอธิบายว่าหน้า html สุดท้ายควรเป็นอย่างไร
สร้างขึ้น
โดยค่าเริ่มต้น pdf2htmlEX จะใช้รายการใน data-dir เริ่มต้น (เรียกใช้ `pdf2htmlEX -v`
เพื่อตรวจสอบ) ซึ่งให้การสาธิตอย่างง่ายของไวยากรณ์
คุณสามารถแก้ไขค่าเริ่มต้นหรือสร้างใหม่และระบุค่าที่ถูกต้อง
data-dir ในบรรทัดคำสั่ง
ไฟล์ทั้งหมดที่อ้างอิงโดยรายการต้องอยู่ใน data-dir
ตัวอย่าง
pdf2htmlEX /path/to/file.pdf
แปลง file.pdf เป็น file.html
pdf2htmlEX --สะอาด-tmp 0 --debug 1 /path/to/file.pdf
แปลง file.pdf และปล่อยให้ไฟล์ระดับกลางทั้งหมด
pdf2htmlEX --dest-ผบ ออก --ฝัง fi /path/to/file.pdf
แปลง file.pdf เป็น out/file.html และแยกไฟล์ฟอนต์/รูปภาพออกจากกัน
ลิขสิทธิ์
ลิขสิทธิ์ 2012,2013 ลู่หวาง[ป้องกันอีเมล]>
pdf2htmlEX ได้รับอนุญาตภายใต้ GPLv3 พร้อมข้อกำหนดเพิ่มเติม อ่าน LICENSE สำหรับรายละเอียด
ใช้ pdf2htmlEX ออนไลน์โดยใช้บริการ onworks.net