Il s'agit de l'application Linux nommée DocWire DocToText dont la dernière version peut être téléchargée sous doctotext-5.0.9-msvc.zip. Il peut être exécuté en ligne chez le fournisseur d'hébergement gratuit OnWorks pour les postes de travail.
Téléchargez et exécutez en ligne gratuitement cette application nommée DocWire DocToText avec OnWorks.
Suivez ces instructions pour exécuter cette application :
- 1. Téléchargé cette application sur votre PC.
- 2. Entrez dans notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous voulez.
- 3. Téléchargez cette application dans ce gestionnaire de fichiers.
- 4. Démarrez l'émulateur en ligne OnWorks Linux ou Windows en ligne ou l'émulateur en ligne MACOS à partir de ce site Web.
- 5. Depuis le système d'exploitation OnWorks Linux que vous venez de démarrer, accédez à notre gestionnaire de fichiers https://www.onworks.net/myfiles.php?username=XXXXX avec le nom d'utilisateur que vous souhaitez.
- 6. Téléchargez l'application, installez-la et exécutez-la.
DocWire DocVersTexte
Ad
DESCRIPTION
DocToText de DocWire - Une boîte à outils de développement de logiciels d'extraction de données à multiples facettes qui convertit toutes sortes de fichiers en texte brut et html. Écrit en C++, cet outil d'extraction de données dispose d'un analyseur capable de convertir les fichiers PST et OST ainsi que d'une toute nouvelle API pour un meilleur traitement des fichiers.
Pour améliorer son utilité, DocToText, en tant qu'outil d'extraction de données, peut être intégré à d'autres applications d'exploration de données et d'analyse de données. Il est équipé d'un OCR de haute qualité, scriptable et entraînable, doté d'une reconnaissance de caractères basée sur les réseaux neuronaux LSTM. Cet analyseur de documents est capable d'extraire des métadonnées avec des annotations et prend en charge une liste de formats qui incluent : DOC, XLS, XLSB, PPT, RTF, ODF (ODT, ODS, ODP),
OOXML (DOCX, XLSX, PPTX), iWork (PAGES, NUMÉROS, KEYNOTE),
ODFXML (FODP, FODS, FODT), PDF, EML, HTML, Outlook (PST, OST),
Image (JPG, JPEG, JFIF, BMP, PNM, PNG, TIFF, WEBP)
Disponible sous licence publique générale GNU version 2.0 (GPLv2) et licence commerciale.
Caractéristiques
- Possibilité d'extraire/importer et d'exporter du texte, des images, du formatage et des métadonnées ainsi que des annotations
- Les données peuvent être transformées entre import et export (filtrage, agrégation etc)
- Equipé de plusieurs importateurs
- Equipé de plusieurs exportateurs
- Équipé d'un OCR de haute qualité, scriptable et entraînable, doté d'une reconnaissance de caractères basée sur les réseaux neuronaux LSTM
- Analyse incrémentielle renvoyant les données dès qu'elles sont disponibles
- Multiplateforme : Linux, Windows, MacOSX (et bien d'autres à venir)
- Peut être intégré dans votre application (SDK)
- Peut être intégré à d’autres applications d’exploration de données et d’analyse de données
- Le processus d'analyse peut être facilement conçu en connectant des objets avec un tuyau | opérateur dans une chaîne
- Analyse de la communication des éléments de la chaîne basée sur les signaux Boost
- Des éléments de chaîne d'analyse personnalisés peuvent être ajoutés (importateurs, transformateurs, exportateurs)
- Petits binaires, code C++ natif rapide
Audience
Utilisateurs finaux avancés, développeurs, utilisateurs finaux/bureau
Interface utilisateur
Ligne de commande
Langage de programmation
C++, C
Catégories
Il s'agit d'une application qui peut également être récupérée sur https://sourceforge.net/projects/doctotext/. Il a été hébergé dans OnWorks afin d'être exécuté en ligne de la manière la plus simple à partir de l'un de nos systèmes d'exploitation gratuits.