Englishfrançaisespagnol

Icône de favori OnWorks

pdf2txt - En ligne dans le Cloud

Exécutez pdf2txt dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande pdf2txt qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


pdf2txt - extrait le contenu textuel des fichiers PDF

SYNOPSIS


pdf2txt [option...] filet

DESCRIPTION


pdf2txt extrait le contenu textuel d'un fichier PDF. Il extrait tout le texte qui doit être
rendu par programmation, c'est-à-dire du texte représenté sous forme de chaînes ASCII ou Unicode. Ça ne peut pas
reconnaître le texte dessiné comme des images qui nécessiteraient une reconnaissance optique de caractères. Ça aussi
extrait les emplacements correspondants, les noms de police, les tailles de police, la direction d'écriture
(horizontal ou vertical) pour chaque portion de texte. Vous devez fournir un mot de passe pour
documents PDF protégés lorsque son accès est restreint. Vous ne pouvez pas extraire de texte d'un
Document PDF qui n'a pas d'autorisation d'extraction.

OPTIONS


-o filet
Spécifie le nom du fichier de sortie. La valeur par défaut est d'imprimer le contenu extrait sur
standand sortie au format texte.

-p numéro de page[,numéro de page,...]
Spécifie la liste séparée par des virgules des numéros de page à extraire. Numéros de page
commencer à un. Par défaut, il extrait le texte de toutes les pages.

-c codec
Spécifie le codec de sortie.

-t type
Spécifie le format de sortie. Les formats suivants sont actuellement pris en charge :

texte
Format texte. C'est la valeur par défaut.

html
Format HTML. Ce n'est pas recommandé.

xml
format XML. Il fournit le plus d'informations.

Étiquette
Format « PDF balisé ». Un PDF balisé a son propre contenu annoté de type HTML
Mots clés. pdf2txt essaie d'extraire ses flux de contenu plutôt que d'inférer son texte
Emplacements. Les balises utilisées ici sont définies dans le PDF Référence, Sixième Édition
(§10.7 « PDF balisé »).

-D mode d'écriture
Spécifie le mode d'écriture des sorties de texte :

lr-tb
De gauche à droite, de haut en bas.

tb-rl
De haut en bas, de droite à gauche.

auto
Déterminer automatiquement le mode d'écriture

-M char-marge, -L ligne-marge, -W mot-marge
Ce sont les paramètres utilisés pour l'analyse de la disposition. Dans un fichier PDF réel, le texte
les portions peuvent être divisées en plusieurs morceaux au milieu de son exécution, selon
le logiciel auteur. Par conséquent, l'extraction de texte doit assembler des morceaux de texte. Dans le
figure ci-dessous, deux morceaux de texte dont la distance est plus proche que le char-marge is
considérés comme continus et regroupés en un seul. Aussi, deux lignes dont la distance est
plus proche que le ligne-marge est regroupé sous la forme d'une zone de texte, qui est une zone rectangulaire qui
contient un « groupe » de portions de texte. De plus, il peut être nécessaire d'insérer des blancs
caractères (espaces) si nécessaire si la distance entre deux mots est supérieure à la
mot-marge, car un blanc entre les mots peut ne pas être représenté comme un espace, mais
indiqué par le positionnement de chaque mot.

Chaque valeur est spécifiée non pas comme une longueur réelle, mais comme une proportion de la longueur à
la taille de chaque caractère en question. Les valeurs par défaut sont char-marge = 1.0,
ligne-marge = 0.3, et W = 0.2, Respectivement.

-n
Supprimer l'analyse de la mise en page.

-A
Forcer l'analyse de la mise en page pour toutes les chaînes de texte, y compris le texte contenu dans les figures.

-V
Activer la détection de l'écriture verticale.

-s en échelon
Spécifie l'échelle de sortie. Cette option ne peut être utilisée qu'au format HTML.

-m n
Spécifie le nombre maximal de pages à extraire. Par défaut, toutes les pages d'un
document sont extraits.

-P Mot de passe
Fournit le mot de passe utilisateur pour accéder au contenu PDF.

-d
Augmentez le niveau de débogage.

EXEMPLES


Extrayez le texte sous forme de fichier HTML dont le nom de fichier est output.html :

$ pdf2txt -o sortie.html samples/naacl06-shinyama.pdf

Extrayez un fichier HTML japonais en écriture verticale :

$ pdf2txt -c euc-jp -D tb-rl -o sortie.html exemples/jo.pdf

Extraire le texte d'un fichier PDF crypté :

$ pdf2txt -P mon mot de passe -o output.txt secret.pdf

Utilisez pdf2txt en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    Psi
    Psi
    Psi est un puissant XMPP multiplateforme
    client conçu pour les utilisateurs expérimentés.
    Il existe des versions disponibles pour MS
    Windows, GNU/Linux et macOS.. Public :
    Les utilisateurs finaux...
    Télécharger Psi
  • 2
    Blobby Volée 2
    Blobby Volée 2
    Suite officielle du célèbre
    Jeu d'arcade Blobby Volley 1.x.
    Public : utilisateurs finaux/ordinateurs de bureau. Utilisateur
    interface : OpenGL, SDL. Programmation
    Langage : C++, Lua. C...
    Télécharger Blobby Volley 2
  • 3
    SuiteCRM
    SuiteCRM
    SuiteCRM est le client primé
    Gestion des relations (CRM)
    application présentée par les auteurs
    et mainteneurs, SalesAgility. C'est le
    le plus du monde...
    Télécharger SuiteCRM
  • 4
    Administrateur de puissance
    Administrateur de puissance
    Poweradmin est un DNS basé sur le Web
    outil d'administration pour le serveur PowerDNS.
    L'interface a un support complet pour la plupart
    des fonctionnalités de PowerDNS. Il a plein
    Support...
    Télécharger Poweradmin
  • 5
    Cadre Web Gin
    Cadre Web Gin
    Gin est un framework web incroyablement rapide
    écrit en Golang qui peut effectuer jusqu'à
    40 fois plus rapide, grâce à sa
    API de type martini et version personnalisée de
    httproute...
    Télécharger le framework Web Gin
  • 6
    CÉREUS LINUX
    CÉREUS LINUX
    CEREUS LINUX basé sur MX LINUX avec
    divers entornos de escritorios. C'est
    une application qui peut aussi être récupérée
    de
    https://sourceforge.net/projects/cereu...
    Télécharger CEREUS LINUX
  • Plus "

Commandes Linux

Ad