Dies ist der Befehl pdf2htmlEX, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann
PROGRAMM:
NAME/FUNKTION
pdf2htmlEX – konvertiert PDF in HTML, ohne Text und Format zu verlieren.
ANWENDUNG
pdf2htmlEX [Optionen] [ ]
BESCHREIBUNG
pdf2htmlEX ist ein Dienstprogramm, das PDF-Dateien in HTML-Dateien konvertiert.
pdf2htmlEX versucht sein Bestes, die PDF-Datei präzise wiederzugeben und gleichzeitig den richtigen Stil beizubehalten
Beibehaltung des Textes und Optimierung für das Web.
Schriftarten werden aus PDF extrahiert und dann in HTML eingebettet, Text in der konvertierten HTML-Datei
ist in der Regel auswählbar und kopierbar.
Andere Objekte werden als Bilder gerendert und ebenfalls eingebettet.
OPTIONAL
Seiten
-F, --erste Seite (Standard: 1)
Geben Sie die erste zu verarbeitende Seite an
- l, --letzte Seite (Standard: letzte Seite)
Geben Sie die letzte zu verarbeitende Seite an
Abmessungen
--Zoomen , --fit-width , --passende Höhe
--zoom gibt den Zoomfaktor direkt an; --fit-width/height gibt das Maximum an
Breite/Höhe einer Seite, die Werte sind in Pixel.
Wenn mehrere Werte angegeben werden, wird der kleinste Wert verwendet.
Wenn keine angegeben wird, werden die Seiten mit 72 DPI gerendert.
--use-cropbox <0|1> (Standard: 1)
Verwenden Sie für die Ausgabe CropBox anstelle von MediaBox.
--hdpi , --vdpi (Standard: 144)
Geben Sie die horizontale und vertikale DPI für Bilder an
Ausgang
--einbetten
--embed-css <0|1> (Standard: 1)
--embed-font <0|1> (Standard: 1)
--embed-image <0|1> (Standard: 1)
--embed-javascript <0|1> (Standard: 1)
--embed-outline <0|1> (Standard: 1)
Geben Sie an, welche Elemente in die Ausgabe-HTML-Datei eingebettet werden sollen.
Wenn diese Option deaktiviert ist, werden getrennte Dateien zusammen mit der HTML-Datei für generiert
entsprechende Elemente.
--embed akzeptiert einen String als Argument. Jeder Buchstabe der Zeichenfolge muss einer von sein
„cCfFiIjJoO“, was einem der --embed-***-Schalter entspricht. Kleinbuchstaben
Buchstaben für 0 und Großbuchstaben für 1. Beispielsweise bedeutet „--embed cFIJo“ „to“.
Alles außer CSS-Dateien und Konturen einbetten.
--split-pages <0|1> (Standard: 0)
Wenn diese Option aktiviert ist, wird der Inhalt jeder Seite in einer separaten Datei gespeichert.
Dieser Schalter ist nützlich, wenn Sie möchten, dass Seiten separat und dynamisch geladen werden – a
Möglicherweise ist ein unterstützender Server erforderlich.
Siehe auch --page-filename.
--dest-dir (Standard: .)
Zielordner angeben.
--css-Dateiname (Standard: )
Geben Sie den Dateinamen der generierten CSS-Datei an, falls diese nicht eingebettet ist.
Wenn es leer ist, wird der Dateiname automatisch ermittelt.
--page-Dateiname (Standard: )
Geben Sie die Dateinamenvorlage für Seiten an, wenn --split-pages 1 ist
Ein %d-Platzhalter kann in „Dateiname“ eingefügt werden, um anzugeben, wo sich die Seitenzahl befindet
sollte plaziert sein. Der Platzhalter unterstützt eine begrenzte Teilmenge normaler numerischer Werte
Platzhalter, einschließlich angegebener Breite und Nullauffüllung.
Wenn „Dateiname“ keinen Platzhalter für die Seitenzahl enthält, wird die Seitenzahl angegeben
wird direkt vor der Dateierweiterung eingefügt. Wenn der Dateiname nicht vorhanden ist
Bei einer Erweiterung wird die Seitenzahl am Ende des Dateinamens eingefügt.
Wenn --page-filename nicht angegeben ist, wird für die Ausgabe verwendet
Dateinamen, ersetzen Sie die Erweiterung durch .page und fügen Sie die Seitenzahl direkt hinzu
vor der Verlängerung.
Beispiele
pdf2htmlEX --split-pages 1 foo.pdf
Ergibt die Seitendateien foo1.page, foo2.page usw.
pdf2htmlEX --split-pages 1 foo.pdf --page-Dateiname bar.baz
Ergibt die Seitendateien bar1.baz, bar2.baz usw.
pdf2htmlEX --split-pages 1 foo.pdf --page-Dateiname Seite%dbar.baz
Ergibt die Seitendateien page1bar.baz, page2bar.baz usw.
pdf2htmlEX --split-pages 1 foo.pdf --page-Dateiname bar%03d.baz
Ergibt die Seitendateien bar001.baz, bar002.baz usw.
--outline-Dateiname (Standard: )
Geben Sie den Dateinamen der generierten Gliederungsdatei an, falls diese nicht eingebettet ist.
Wenn es leer ist, wird der Dateiname automatisch ermittelt.
--process-nontext <0|1> (Standard: 1)
Ob Nichttextobjekte (als Bilder) verarbeitet werden sollen
--process-outline <0|1> (Standard: 1)
Ob die Gliederung im generierten HTML angezeigt werden soll
--process-annotation <0|1> (Standard: 0)
Ob Anmerkungen im generierten HTML angezeigt werden sollen
--process-form <0|1> (Standard: 0)
Ob Textfelder und Optionsfelder in den generierten HTML-Code einbezogen werden sollen
--Drucken <0|1> (Standard: 1)
Aktivieren Sie die Druckunterstützung. Das Deaktivieren dieser Option kann die Größe von CSS verringern.
--Zurückfallen <0|1> (Standard: 0)
Ausgabe im Fallback-Modus für bessere Genauigkeit und Browserkompatibilität, aber die
Größe wird größer.
--tmp-file-size-limit (Standard: -1)
Dadurch wird die Gesamtgröße (in KB) der temporären Dateien begrenzt, wodurch auch die begrenzt wird
Gesamtgröße der Ausgabedatei. Dies ist eine Schätzung und stoppt nach einer Seite.
sobald die Gesamtgröße der temporären Dateien diesen Wert überschreitet.
-1 bedeutet keine Begrenzung und ist die Standardeinstellung.
Schriftarten
--embed-external-font <0|1> (Standard: 1)
Geben Sie an, ob die lokal übereinstimmenden Schriftarten für Schriftarten verwendet werden sollen, die nicht in PDF eingebettet sind
in HTML eingebettet.
Wenn dieser Schalter deaktiviert ist, werden nur Schriftartnamen exportiert, damit Webbrowser es versuchen können
selbst die richtigen Schriftarten zu finden, was zu Problemen mit falschen Schriftarten führen kann
Metriken.
--font-format (Standard: Wow)
Geben Sie das Format der aus der PDF-Datei extrahierten Schriftarten an.
--decompose-ligatur <0|1> (Standard: 0)
Ligaturen zerlegen. Zum Beispiel 'fi' -> 'f''i'.
--auto-hint <0|1> (Standard: 0)
Wenn der Wert auf 1 gesetzt ist, werden mithilfe von FontForge Hinweise für die Schriftarten generiert.
Dem kann --external-hint-tool vorangestellt werden.
--external-hint-tool (Standard: )
Falls angegeben, wird das Tool aufgerufen, um die Hinweise für Schriftarten zu verbessern
wird vor --auto-hint stehen.
Das Tool wird aufgerufen als „ ', wobei das Suffix steht
das Gleiche wie für --font-format angegeben.
--stretch-narrow-glyph <0|1> (Standard: 0)
Bei der Einstellung 1 werden Glyphen, die schmaler als im PDF beschrieben sind, gestreckt. ansonsten
Der Platz wird rechts neben den Glyphen aufgefüllt
--squeeze-wide-glyph <0|1> (Standard: 1)
Bei der Einstellung 1 werden Glyphen, die breiter sind als im PDF beschrieben, gestaucht; sonst wird es
abgeschnitten werden.
--override-fstype <0|1> (Standard: 0)
Löschen Sie die FSType-Bits in TTF/OTF-Schriftarten.
Aktivieren Sie diese Option, wenn Internet Explorer die Meldung „Berechtigung muss installierbar sein“ meldet.
UND Sie haben die Erlaubnis dazu.
--process-type3 <0|1> (Standard: 0)
Wenn diese Option aktiviert ist, versucht pdf2htmlEX, Typ-3-Schriftarten so zu konvertieren, dass Text möglich ist
nativ in HTML gerendert. Andernfalls wird der gesamte Text mit Typ-3-Schriftarten gerendert
als Bild.
Diese Funktion ist sehr experimentell.
Text
--heps , --veps (Standard: 1)
Geben Sie den maximal tolerierbaren horizontalen/vertikalen Versatz (in Pixel) an.
pdf2htmlEX würde versuchen, die generierte HTML-Datei zu optimieren und Text darin zu verschieben
Entfernung.
--space-threshold (Standard: 0.125)
pdf2htmlEX würde ein Leerzeichen „ “ einfügen, wenn der Abstand zwischen zwei
Aufeinanderfolgende Buchstaben in derselben Zeile sind breiter als das Verhältnis * Schriftgröße.
--font-size-multiplier (Standard: 4.0)
Viele Webbrowser beschränken die Mindestschriftgröße und viele runden die angegebene Schriftart ab
Größe, was zu einer falschen Darstellung führt.
Wenn Sie ein Verhältnis größer als 1 angeben, wird dieses Problem behoben, es könnte jedoch einfrieren
einige Browser.
Bei manchen Firefox-Versionen kommt es jedoch zu Problemen bei der Schriftgröße
ist zu groß, in diesem Fall sollte hier ein kleinerer Wert angegeben werden.
--space-as-offset <0|1> (Standard: 0)
Wenn der Wert auf 1 gesetzt ist, werden Leerzeichen als Offsets behandelt, was eine bessere Darstellung ermöglicht
Optimierung.
Bei PDF-Dateien mit schlechter Kodierung kann die Aktivierung dieser Option zu Verlusten führen
Zeichen.
--tounicode <-1|0|1> (Standard: 0)
Für jede Schriftart im PDF kann eine ToUnicode-Karte bereitgestellt werden, die die „Bedeutung“ angibt.
der Charaktere. Allerdings gibt es oft bessere „ToUnicode“-Informationen in Typ 0/1
Schriftarten und manchmal ist die bereitgestellte ToUnicode-Karte falsch. Wenn dieser Wert auf eingestellt ist
1 wird die ToUnicode-Zuordnung immer angewendet, wenn sie im PDF-Format bereitgestellt wird, Zeichen jedoch möglicherweise nicht
Bei Kollisionen korrekt in HTML rendern.
Bei der Einstellung -1 wird eine benutzerdefinierte Karte verwendet, sodass die Darstellung in HTML korrekt ist
(visuell gleich), aber Sie erhalten möglicherweise nicht die richtigen Zeichen, wenn Sie „Auswählen & Kopieren &“ wählen.
Einfügen.
Bei der Einstellung 0 würde pdf2htmlEX sein Bestes tun, um die beiden oben genannten Methoden auszugleichen.
--optimize-text <0|1> (Standard: 0)
Bei der Einstellung 1 versucht pdf2htmlEX, die Anzahl der verwendeten HTML-Elemente zu reduzieren
Text. Schalten Sie es aus, wenn etwas schief geht.
--correct-text-visibility <0|1> (Standard: 0)
Wenn auf 1 gesetzt, versucht pdf2htmlEX, Texte zu erkennen, die von anderen Grafiken verdeckt werden
Ordnen Sie sie richtig an, dh verdeckte Texte werden in der Textebene transparent gemacht
werden auf der Hintergrundebene gezeichnet.
Hintergrund Bild
--bg-format (Standard: png)
Geben Sie das Hintergrundbildformat an. Führen Sie „pdf2htmlEX -v“ aus, um alle unterstützten Dateien zu überprüfen
Formate.
--svg-node-count-limit (Standard: -1)
Wenn die Knotenanzahl in einem SVG-Hintergrundbild diesen Grenzwert überschreitet, greifen Sie auf diese Seite zurück
Bitmap-Hintergrund; Ein negativer Wert bedeutet keine Begrenzung. Diese Option ist nur nützlich, wenn
'--bg-format svg' ist angegeben. Beachten Sie, dass die Knotenanzahl in SVG nur berechnet wird
etwa.
--svg-embed-bitmap <0|1> (Standard: 1)
Ob Bitmaps in SVG-Hintergrundbilder eingebettet werden sollen. 1: Bitmaps in SVG-Hintergrund einbetten;
0: Bitmaps nach Möglichkeit in externe Dateien kopieren.
Diese Option ist nur nützlich, wenn „--bg-format svg“ angegeben ist und „--embed-image“
ist aus.
Derzeit können RGB- oder Grau-JPEG-Bitmaps in einer PDF-Datei ausgegeben werden, während dies in anderen PDF-Dateien der Fall ist
Formate oder Farbräume sind weiterhin eingebettet. Wenn Bitmaps nicht wie erwartet ausgegeben werden,
Versuchen Sie, Ihr PDF mit Ghostscript oder Acrobat vorzuverarbeiten und stellen Sie sicher, dass es Bitmaps enthält
werden in das RGB/Grau-JPEG-Format konvertiert. Weitere Informationen finden Sie im Projekt-Wiki.
PDF Schutz
-Ö, --besitzer-passwort
Geben Sie das Besitzerpasswort an
-du, --Benutzer-Passwort
Geben Sie das Benutzerpasswort an
--no-drm <0|1> (Standard: 0)
Überschreiben Sie die DRM-Einstellungen des Dokuments
Aktivieren Sie dies nur, wenn Sie die Erlaubnis dazu haben.
Misc.
--clean-tmp <0|1> (Standard: 1)
Wenn diese Option deaktiviert ist, werden Zwischendateien am Ende nicht bereinigt.
--data-dir (Standard: /usr/share/pdf2htmlEX)
Geben Sie den Ordner an, der das Manifest und andere Dateien enthält (siehe unten für das Manifest).
Datei)`
--tmp-dir (Standard: / Tmp or $ TMPDIR if set)
Geben Sie den temporären Ordner an, der für temporäre Dateien verwendet werden soll
--css-draw <0|1> (Standard: 0)
Experimentelles und nicht unterstütztes CSS-Zeichnen
--debuggen <0|1> (Standard: 0)
Debug-Informationen drucken.
--nachweisen <0|1|2> (Standard: 0)
Geben Sie eine Proof-Version aus. Wenn ein positiver Wert angegeben wird, werden Texte auf beiden gezeichnet
Textebene und Hintergrundbild zum Vergleich. Wenn 2 angegeben ist, werden Texte aktiviert
Der Hintergrund ist in verschiedenen Farben. Wenn das PNG/JPG-Hintergrundformat verwendet wird, ein höheres
Aus Gründen der Lesbarkeit wird hdpi/vdpi (z. B. 288) empfohlen.
Meta
-in, --Version
Urheberrecht und Versionsinformationen drucken
--help Nutzungsinformationen drucken
MANIFEST und DATEN-VERZEICHNIS
Wenn „split-pages“ 0 ist, beschreibt die Manifestdatei, wie die endgültige HTML-Seite aussehen soll
generiert.
Standardmäßig verwendet pdf2htmlEX das Manifest im Standarddatenverzeichnis (führen Sie „pdf2htmlEX -v“ aus
zu überprüfen), das eine einfache Demo seiner Syntax bietet.
Sie können die Standardeinstellung ändern oder eine neue erstellen und die richtige angeben
data-dir in der Befehlszeile.
Alle Dateien, auf die das Manifest verweist, müssen sich im Datenverzeichnis befinden.
BEISPIEL
pdf2htmlEX /path/to/file.pdf
Konvertieren Sie file.pdf in file.html
pdf2htmlEX --clean-tmp 0 --debuggen 1 /path/to/file.pdf
Datei.pdf konvertieren und alle Zwischendateien belassen.
pdf2htmlEX --dest-dir --einbetten fi /path/to/file.pdf
Konvertieren Sie file.pdf in out/file.html und lassen Sie Schriftart-/Bilddateien getrennt.
URHEBERRECHT
Copyright 2012,2013 Lu Wang[E-Mail geschützt] >
pdf2htmlEX ist unter GPLv3 mit zusätzlichen Bedingungen lizenziert. Weitere Informationen finden Sie unter LIZENZ.
Nutzen Sie pdf2htmlEX online über die Dienste von onworks.net