Il s'agit de la commande ucto qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
ucto - Tokenizer Unicode
SYNOPSIS
ucto [[options]] [fichier-entrée] [[fichier-sortie]]
DESCRIPTION
ucto ucto tokenise les fichiers texte : il sépare les mots de la ponctuation, divise les phrases (et
éventuellement des paragraphes) et recherche des guillemets jumelés. Ucto est préconfiguré avec la tokenisation
règles pour plusieurs langues.
OPTIONS
-c fichier de configuration
lire les paramètres d'un fichier
-d Plus-value
définir le mode de débogage sur « valeur »
-e Plus-value
définir l'encodage d'entrée. (UTF par défaut8)
-f
désactiver le filtrage des caractères spéciaux
-L langue
Sélectionne automatiquement un fichier de configuration par code de langue. par exemple 'fr' sera
sélectionnez le fichier tokconfig-fr dans le répertoire d'installation
-l
Convertir en minuscules
-u
Convertir en majuscules
-n
Émettre une phrase par ligne en sortie
-m
Supposons une phrase par ligne en entrée
--passer à travers
Ne pas tokeniser, mais effectuer un décodage d'entrée et une simple détection de rôle de jeton
-P
Désactiver la détection de paragraphe
-Q
Activer la détection de devis. (ceci est expérimental et peut conduire à des résultats inattendus)
-S
Désactiver la détection de phrases
-s
Définir le marqueur de fin de phrase. (Défaut )
-V
Afficher les informations sur la version
-v
définir le mode détaillé
-F
Lisez un document XML FoLiA, tokenisez-le et sortez le document modifié. (cela désactive
utilisation de la plupart des autres options : -nulPQvsS)
--classe de texte cls
Lors de la tokenisation d'un document XML FoLiA, recherchez les nœuds de texte de la classe 'cls'
-X
Sortie FoLiA XML. (cela désactive l'utilisation de la plupart des autres options : -nulPQvsS)
--identifiant
Utilisez l'ID de document spécifié pour le XML FoLiA
-x (obsolète)
Sortez FoLiA XML, utilisez l'ID de document spécifié. (cela désactive l'utilisation de la plupart des autres
options : -nulPQvsS)
obsolète Utilisez -X et --identifiant plutôt ;
Utilisez ucto en ligne en utilisant les services onworks.net