Il s'agit de la commande pdf2htmlEX qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
pdf2htmlEX - convertit le PDF en HTML sans perdre le texte et le format.
UTILISATION
pdf2htmlEX [options] [ ]
DESCRIPTION
pdf2htmlEX est un utilitaire qui convertit les fichiers PDF en fichiers HTML.
pdf2htmlEX fait de son mieux pour restituer le PDF avec précision, conserver un style approprié, tout en
conserver du texte et optimiser pour le Web.
Les polices sont extraites du PDF puis intégrées au HTML, le texte dans le fichier HTML converti
est généralement sélectionnable et copiable.
D'autres objets sont rendus sous forme d'images et également intégrés.
OPTIONS
Pages
-F, --première page (Défaut: 1)
Spécifiez la première page à traiter
-l, --dernière page (Défaut: dernier page)
Spécifiez la dernière page à traiter
Dimensions
--Zoom , --fit-largeur , --fit-hauteur
--zoom spécifie directement le facteur de zoom ; --fit-width/height spécifie le maximum
largeur/hauteur d'une page, les valeurs sont en pixels.
Si plusieurs valeurs sont spécifiées, la valeur minimale sera utilisée.
Si aucun n'est spécifié, les pages seront rendues en 72DPI.
--use-cropbox <0|1> (Défaut: 1)
Utilisez CropBox au lieu de MediaBox pour la sortie.
--hdpi , --vdpi (Défaut: 144)
Spécifiez le DPI horizontal et vertical pour les images
Sortie
--intégrer
--embed-css <0|1> (Défaut: 1)
--embed-police <0|1> (Défaut: 1)
--embed-image <0|1> (Défaut: 1)
--embed-javascript <0|1> (Défaut: 1)
--embed-outline <0|1> (Défaut: 1)
Spécifiez quels éléments doivent être incorporés dans le fichier HTML de sortie.
S'il est désactivé, des fichiers séparés seront générés avec le fichier HTML pour le
éléments correspondants.
--embed accepte une chaîne comme argument. Chaque lettre de la chaîne doit être l'une des
`cCfFiIjJoO`, qui correspond à l'un des commutateurs --embed-***. Minuscule
lettres pour 0 et lettres majuscules pour 1. Par exemple, "--embed cFIJo" signifie
tout intégrer sauf les fichiers CSS et les contours.
--pages divisées <0|1> (Défaut: 0)
Si cette option est activée, le contenu de chaque page est stocké dans un fichier séparé.
Ce commutateur est utile si vous voulez que les pages soient chargées séparément et dynamiquement -- un
serveur de support peut être nécessaire.
Voir aussi --page-filename.
--dest-dir (Défaut: .)
Spécifiez le dossier de destination.
--css-nomfichier (Défaut: )
Spécifiez le nom de fichier du fichier CSS généré, s'il n'est pas intégré.
S'il est vide, le nom du fichier sera déterminé automatiquement.
--page-nomfichier (Défaut: )
Spécifiez le modèle de nom de fichier pour les pages lorsque --split-pages vaut 1
Un espace réservé %d peut être inclus dans `filename` pour indiquer où le numéro de page
devrait être placé. L'espace réservé prend en charge un sous-ensemble limité de valeurs numériques normales
espaces réservés, y compris la largeur spécifiée et le rembourrage zéro.
Si `filename` ne contient pas d'espace réservé pour le numéro de page, le numéro de page
sera inséré directement avant l'extension de fichier. Si le nom de fichier n'a pas
une extension, le numéro de page sera placé à la fin du nom du fichier.
Si --page-filename n'est pas spécifié, sera utilisé pour la sortie
nom de fichier, en remplaçant l'extension par .page et en ajoutant directement le numéro de page
avant la prolongation.
Exemples
pdf2htmlEX --pages divisées 1 foo.pdf
Produit les fichiers de page foo1.page, foo2.page, etc.
pdf2htmlEX --pages divisées 1 foo.pdf --page-nomfichier bar.baz
Produit les fichiers de page bar1.baz, bar2.baz, etc.
pdf2htmlEX --pages divisées 1 foo.pdf --page-nomfichier page%dbar.baz
Rend les fichiers de pages page1bar.baz, page2bar.baz, etc.
pdf2htmlEX --pages divisées 1 foo.pdf --page-nomfichier bar%03d.baz
Produit les fichiers de page bar001.baz, bar002.baz, etc.
--nom-fichier-contour (Défaut: )
Spécifiez le nom de fichier du fichier de contour généré, s'il n'est pas incorporé.
S'il est vide, le nom du fichier sera déterminé automatiquement.
--processus-nontexte <0|1> (Défaut: 1)
S'il faut traiter les objets non textuels (sous forme d'images)
--contour du processus <0|1> (Défaut: 1)
S'il faut afficher le contour dans le code HTML généré
--processus-annotation <0|1> (Défaut: 0)
S'il faut afficher l'annotation dans le code HTML généré
--processus-formulaire <0|1> (Défaut: 0)
S'il faut inclure des champs de texte et des boutons radio dans le HTML généré
--impression <0|1> (Défaut: 1)
Activer la prise en charge de l'impression. La désactivation de cette option peut réduire la taille du CSS.
--se retirer <0|1> (Défaut: 0)
Sortie en mode de secours, pour une meilleure précision et compatibilité avec les navigateurs, mais le
la taille devient plus grande.
--tmp-file-size-limite (Défaut: -1)
Cela limite la taille totale (en Ko) des fichiers temporaires ce qui limitera également le
taille totale du fichier de sortie. Ceci est une estimation et il s'arrêtera après une page,
une fois que la taille totale des fichiers temporaires est supérieure à ce nombre.
-1 signifie aucune limite et est la valeur par défaut.
Polices
--embed-external-police <0|1> (Défaut: 1)
Spécifiez si les polices correspondantes locales, pour les polices non intégrées au PDF, doivent être
intégré au HTML.
Si ce commutateur est désactivé, seuls les noms de police sont exportés afin que les navigateurs Web puissent essayer
pour trouver les polices appropriées elles-mêmes, ce qui peut entraîner des problèmes de police incorrecte
métrique.
--format-police (Défaut: ouf)
Spécifiez le format des polices extraites du fichier PDF.
--décomposer-ligature <0|1> (Défaut: 0)
Décomposer les ligatures. Par exemple 'fi' -> 'f''i'.
--auto-indice <0|1> (Défaut: 0)
S'il est défini sur 1, des conseils seront générés pour les polices à l'aide de FontForge.
Cela peut être précédé de --external-hint-tool.
--outil-indice-externe (Défaut: )
Si spécifié, l'outil sera appelé afin d'améliorer les conseils pour les polices, ce
précédera --auto-hint.
L'outil sera appelé comme ' ', où le suffixe sera
le même que celui spécifié pour --font-format.
--stretch-narrow-glyphe <0|1> (Défaut: 0)
S'il est défini sur 1, les glyphes plus étroits que ceux décrits dans le PDF seront étirés ; autrement
l'espace sera rempli à droite des glyphes
--squeeze-wide-glyphe <0|1> (Défaut: 1)
S'il est défini sur 1, les glyphes plus larges que ceux décrits dans le PDF seront compressés ; sinon ça va
être tronqué.
--override-fstype <0|1> (Défaut: 0)
Effacez les bits fstype dans les polices TTF/OTF.
Activez cette option si Internet Explorer se plaint de « L'autorisation doit être installable »
ET vous avez la permission de le faire.
--processus-type3 <0|1> (Défaut: 0)
S'il est activé, pdf2htmlEX essaiera de convertir les polices de type 3 de sorte que le texte puisse être
rendu natif en HTML. Sinon, tout le texte avec des polices de type 3 sera rendu
comme image.
Cette fonctionnalité est hautement expérimentale.
Texte
--heps , --veps (Défaut: 1)
Spécifiez le décalage horizontal/vertical maximum tolérable (en pixels).
pdf2htmlEX essaierait d'optimiser le fichier HTML généré en déplaçant le texte dans ce
distance.
--espace-seuil (Défaut: 0.125)
pdf2htmlEX insérerait un caractère d'espacement ' ' si la distance entre deux
lettres consécutives dans la même ligne est plus large que ratio * font_size.
--font-size-multiplicateur (Défaut: 4.0)
De nombreux navigateurs Web limitent la taille de police minimale, et beaucoup arrondiraient la police donnée
taille, ce qui entraîne un rendu incorrect.
Spécifier un ratio supérieur à 1 résoudrait ce problème, mais il pourrait geler
certains navigateurs.
Pour certaines versions de Firefox, cependant, il y aura un problème lorsque la taille de la police
est trop grand, auquel cas une valeur plus petite doit être spécifiée ici.
--espace-comme-décalage <0|1> (Défaut: 0)
S'il est défini sur 1, les espaces seront traités comme des décalages, ce qui permet une meilleure
optimisation.
Pour les fichiers PDF avec de mauvais encodages, l'activation de cette option peut entraîner la perte
caractères.
--tounicode <-1|0|1> (Défaut: 0)
Une carte ToUnicode peut être fournie pour chaque police en PDF qui indique la « signification »
des personnages. Cependant, il y a souvent de meilleures informations "ToUnicode" dans le type 0/1
polices, et parfois la carte ToUnicode fournie est erronée. Si cette valeur est définie sur
1, la carte ToUnicode est toujours appliquée, si elle est fournie en PDF, et les caractères peuvent ne pas
rendu correctement en HTML s'il y a des collisions.
Si défini sur -1, une carte personnalisée est utilisée de telle sorte que le rendu soit correct en HTML
(visuellement le même), mais vous pouvez ne pas obtenir les caractères corrects en sélectionnant & copier &
pâte.
S'il est défini sur 0, pdf2htmlEX fera de son mieux pour équilibrer les deux méthodes ci-dessus.
--optimize-texte <0|1> (Défaut: 0)
S'il est défini sur 1, pdf2htmlEX essaiera de réduire le nombre d'éléments HTML utilisés pour
texte. Désactivez-le si quelque chose ne va pas.
--correct-text-visibilité <0|1> (Défaut: 0)
S'il est défini sur 1, pdf2htmlEX essaiera de détecter les textes couverts par d'autres graphiques et
les organiser correctement, c'est-à-dire que les textes couverts sont rendus transparents dans le calque de texte, et
sont dessinés sur le calque d'arrière-plan.
Biographie Image(s)
--format-bg (Défaut: png)
Spécifiez le format de l'image d'arrière-plan. Exécutez `pdf2htmlEX -v` pour vérifier toutes les prises en charge
formats.
--svg-node-count-limite (Défaut: -1)
Si le nombre de nœuds dans une image d'arrière-plan svg dépasse cette limite, retournez cette page à
fond bitmap; une valeur négative signifie aucune limite. Cette option n'est utile que lorsque
'--bg-format svg' est spécifié. Notez que le nombre de nœuds dans svg est juste calculé
environ.
--svg-embed-bitmap <0|1> (Défaut: 1)
Intégrer ou non des bitmaps dans l'image d'arrière-plan svg. 1 : intégrer des bitmaps dans l'arrière-plan svg ;
0 : vider les bitmaps dans des fichiers externes si possible.
Cette option n'est utile que lorsque '--bg-format svg' est spécifié et '--embed-image'
est éteint.
Actuellement, les bitmaps RVB ou JPEG gris d'un PDF peuvent être vidés, tandis que ceux d'autres
les formats ou les espaces colorimétriques sont toujours intégrés. Si les bitmaps ne sont pas vidés comme prévu,
essayez de pré-traiter votre PDF par ghostscript ou acrobat et assurez-vous qu'il contient des bitmaps
sont convertis au format JPEG RVB/Gris. Voir le wiki du projet pour plus de détails.
PDF Protection
-o, --propriétaire-mot de passe
Spécifiez le mot de passe du propriétaire
-tu, --mot de passe de l'utilisateur
Spécifier le mot de passe utilisateur
--pas de drm <0|1> (Défaut: 0)
Remplacer les paramètres DRM du document
Activez cette option uniquement lorsque vous en avez l'autorisation.
Divers.
--clean-tmp <0|1> (Défaut: 1)
S'il est désactivé, les fichiers intermédiaires ne seront pas nettoyés à la fin.
--data-dir (Défaut: /usr/share/pdf2htmlEX)
Spécifiez le dossier contenant le manifeste et d'autres fichiers (voir ci-dessous pour le manifeste
fichier)`
--tmp-rép (Défaut: / Tmp or $ TMPDIR if ensemble)
Spécifiez le dossier temporaire à utiliser pour les fichiers temporaires
--css-dessiner <0|1> (Défaut: 0)
Dessin CSS expérimental et non pris en charge
--déboguer <0|1> (Défaut: 0)
Imprimer les informations de débogage.
--preuve <0|1|2> (Défaut: 0)
Sortez une version d'épreuve. Si une valeur positive est spécifiée, les textes sont dessinés sur les deux
couche de texte et image d'arrière-plan pour comparaison. Si 2 est spécifié, les textes sur
fond sont de différentes couleurs. Si le format d'arrière-plan png/jpg est utilisé, un
hdpi/vdpi (par exemple 288) est recommandé pour la lisibilité.
Meta
-dans, --version
Imprimer les informations sur les droits d'auteur et la version
--Aidez-moi Imprimer les informations d'utilisation
MANIFESTE et DONNEES-DIR
Lorsque split-pages est égal à 0, le fichier manifeste décrit comment la page html finale doit être
généré.
Par défaut, pdf2htmlEX utilisera le manifeste dans le répertoire de données par défaut (exécutez `pdf2htmlEX -v`
à vérifier), qui donne une simple démonstration de sa syntaxe.
Vous pouvez modifier celui par défaut, ou vous pouvez en créer un nouveau et spécifier le bon
data-dir dans la ligne de commande.
Tous les fichiers référencés par le manifeste doivent se trouver dans le répertoire data-dir.
EXEMPLE
pdf2htmlEX /chemin/vers/fichier.pdf
Convertir fichier.pdf en fichier.html
pdf2htmlEX --clean-tmp 0 --déboguer 1 /chemin/vers/fichier.pdf
Convertissez file.pdf et laissez tous les fichiers intermédiaires.
pdf2htmlEX --dest-dir ande --intégrer fi /chemin/vers/fichier.pdf
Convertissez file.pdf en out/file.html et laissez les fichiers police/image séparés.
DROIT D'AUTEUR
Droit d'auteur 2012,2013 Lu Wang[email protected]>
pdf2htmlEX est sous licence GPLv3 avec des conditions supplémentaires, lisez LICENCE pour plus de détails.
Utilisez pdf2htmlEX en ligne à l'aide des services onworks.net