Il s'agit de la commande enconv qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
enca -- détecter et convertir l'encodage des fichiers texte
SYNOPSIS
enca [-L LANGUAGE] [OPTION]... [DOSSIER] ...
enconv [-L LANGUAGE] [OPTION]... [DOSSIER] ...
INTRODUCTION ET EXEMPLES
Si vous êtes assez chanceux, les deux seules choses que vous aurez besoin de savoir sont :
enca DOSSIER
vous dira quel fichier d'encodage DOSSIER utilise (sans le changer), et
enconv DOSSIER
va convertir le fichier DOSSIER à l'encodage natif de votre locale. Pour convertir le fichier en un autre
l'encodage utilise le -x option (voir -x entrée dans la section OPTIONS et rubriques CONVERSION et
ENCODAGES pour plus de détails).
Les deux fonctionnent également avec plusieurs fichiers et une entrée (sortie) standard. Par exemple
enca -x latin2
assure que le fichier 'sometext' est en ISO Latin 2 lorsqu'il est envoyé à l'imprimante.
La principale raison pour laquelle ces commandes échoueront et transformeront vos fichiers en ordures est qu'Enca
doit connaître sa langue pour détecter l'encodage. Il essaie de déterminer votre langue
et le jeu de caractères préféré des paramètres régionaux, ce qui pourrait ne pas être ce que vous voulez.
Vous pouvez (ou devez) utiliser -L option pour lui dire la bonne langue. Supposons que vous ayez téléchargé
un fichier HTML russe, `file.htm', il prétend que c'est Windows-1251 mais ce n'est pas le cas. Alors tu cours
enca -L ru fichier.htm
et découvrez que c'est KOI8-R (par exemple). Soyez averti, actuellement il n'y a pas beaucoup de supportés
langues (voir section LANGUE).
Un autre avertissement concerne le fait que plusieurs fonctionnalités d'Enca, à savoir sa conversion du jeu de caractères
capacités, dépendent fortement des autres outils installés sur votre système (voir
CONVERSION)--Cours
enca --version
pour obtenir la liste des fonctionnalités (voir la section CARACTERISTIQUES ). Essayez aussi
enca --aide
pour obtenir une description de toutes les autres options Enca (et pour trouver le reste de cette page de manuel
redondant).
DESCRIPTION
Enca lit des fichiers texte donnés, ou une entrée standard lorsqu'aucun n'est donné, et utilise les connaissances
sur leur langue (doit être pris en charge par vous) et un mélange d'analyse, de statistiques
analyse, devinettes et magie noire pour déterminer leurs encodages, qu'il imprime ensuite sur
sortie standard (ou il avoue qu'il n'a aucune idée de ce que pourrait être l'encodage). Par
par défaut, Enca présente les résultats sous forme de descriptions multilignes lisibles par l'homme, plusieurs autres
formats sont disponibles--voir Sélecteurs de type de sortie ci-dessous.
Enca peut également convertir des fichiers vers un autre encodage ENC lorsque vous le demandez - soit en utilisant un
convertisseur intégré, une bibliothèque de conversion ou en appelant un convertisseur externe.
L'objectif principal d'Enca est d'être utilisable sans surveillance, en tant qu'outil de conversion automatique, bien qu'il
n'ont peut-être pas encore atteint ce stade (veuillez consulter la section SÛRETÉ).
Veuillez noter que sauf dans de rares cas, Enca doit vraiment connaître la langue des fichiers d'entrée pour donner
vous une réponse fiable. En revanche, il peut alors assez bien gérer les fichiers qui sont
pas purement textuel ni même détecter un jeu de caractères de chaînes de texte dans un fichier binaire ; de
bien sûr, cela dépend du caractère du composant non textuel.
Enca ne se soucie pas de la structure des fichiers d'entrée, il les considère comme un élément uniforme de
texte/données. En cas de fichiers en plusieurs parties (par exemple des boîtes aux lettres), vous devez utiliser un outil sachant
la structure pour extraire les pièces individuelles en premier. C'est le coût de la capacité à détecter
codages de tout fichier endommagé, incomplet ou autrement incorrect.
OPTIONS
Il existe plusieurs catégories d'options : options de mode de fonctionnement, sélecteurs de type de sortie,
paramètres de devinette, paramètres de conversion, options générales et listes.
Toutes les options longues peuvent être abrégées tant qu'il s'agit de paramètres non ambigus et obligatoires
des options longues sont également obligatoires pour les options courtes.
Opération modes
sont les suivantes:
-c, --convertir automatiquement
Équivaut à appeler Enca comme enconv.
Si aucun sélecteur de type de sortie n'est spécifié, détectez les encodages de fichiers, devinez votre
jeu de caractères préféré des paramètres régionaux et convertir les fichiers vers celui-ci (uniquement disponible avec
+ fonction cible-charset-auto).
-g, --deviner
Équivaut à appeler Enca comme enca.
Si aucun sélecteur de type de sortie n'est spécifié, détectez les encodages de fichiers et signalez-les.
Sortie type sélecteurs
sélectionnez l'action qu'Enca entreprendra lorsqu'elle déterminera l'encodage ; la plupart d'entre eux juste
choisir entre différents noms, formats et conventions comment les encodages peuvent être imprimés, mais
l'un d'eux (-x) est spécial : il indique à Enca de recoder les fichiers vers un autre encodage ENC.
Ces options s'excluent mutuellement ; si vous spécifiez plus d'un sélecteur de type de sortie
le dernier a préséance.
Plusieurs types de sortie représentent le nom du jeu de caractères utilisé par un autre programme, mais pas tous ceux-ci
les programmes connaissent tous les jeux de caractères reconnus par Enca. Soyez prévenu, Enca ne fait aucune différence
entre un jeu de caractères non reconnu et un jeu de caractères n'ayant pas de nom dans l'espace de noms donné dans un tel
situations.
-d, --des détails
Auparavant, il imprimait quelques pages de détails sur le processus de devinette, mais depuis qu'Enca
est juste un programme lié à la bibliothèque Enca, ce n'est pas possible et cette option
est à peu près équivalent à --lisible par l'homme, sauf qu'il signale la raison de l'échec lorsque
Enca ne reconnaît pas l'encodage.
-e, --enca-nom
Imprime le joli nom d'Enca du jeu de caractères, c'est-à-dire peut-être le plus généralement accepté
et un identifiant de jeu de caractères plus ou moins lisible par l'homme, avec des surfaces ajoutées.
Ce nom est également utilisé lors de l'appel d'un convertisseur externe.
-f, --lisible par l'homme
Imprime une description verbale du jeu de caractères détecté et des surfaces - quelque chose d'humain
comprend le mieux. C'est le comportement par défaut.
Le format précis est le suivant : la première ligne contient le nom du jeu de caractères seul, et
il est suivi de zéro ou plusieurs lignes en retrait contenant les noms des surfaces détectées.
Ce format n'est cependant pas adapté ou destiné à un traitement ultérieur par machine,
et les descriptions verbales des jeux de caractères sont susceptibles de changer à l'avenir.
-i, --iconv-nom
Imprime comment iconv(3) (et/ou iconv(1)) appelle le jeu de caractères détecté. Plus précisément,
il imprime un alias, plus ou moins arbitrairement choisi, accepté par iconv. Un jeu de caractères
inconnu à iconv compte comme inconnu.
Ce type de sortie n'a de sens que lorsque Enca est compilé avec le support d'iconv (fonctionnalité
+iconv-interface).
-r, --rfc1345-nom
Imprime le nom du jeu de caractères RFC 1345. Lorsqu'un tel nom n'existe pas car RFC 1345
ne définit pas un encodage donné, un autre nom défini dans une autre RFC ou simplement
le nom que l'auteur considère 'le plus canonique', est imprimé.
Étant donné que la RFC 1345 ne définit pas les surfaces, aucune information de surface n'est ajoutée.
-m, --nom-mime
Imprime le nom MIME préféré du jeu de caractères détecté. C'est le nom que tu devrais
normalement utiliser lors de la correction des e-mails ou des pages Web.
Un jeu de caractères non présent dans http://www.iana.org/assignments/character-sets compte comme
inconnu.
-s, --cstocs-nom
Imprime comment cstoc(1) appelle le jeu de caractères détecté. Un jeu de caractères inconnu des cstocs
compte comme inconnu.
-n, --nom=WORD
Imprime le nom du jeu de caractères (encodage) sélectionné par WORD (peut être abrégé tant qu'il est
non ambigu). Pour les noms énumérés ci-dessus, --nom=WORD équivaut à --WORD.
En utilisant alias car le type de sortie oblige Enca à imprimer la liste de tous les alias acceptés
du jeu de caractères détecté.
-x, --convertir-en=[..]ENC
Convertit le fichier en encodage ENC.
L'option `..' avant le nom d'encodage n'a pas de signification particulière, sauf que vous pouvez utiliser
pour vous rappeler que, contrairement à recoder(1), vous devez préciser voulu
encodage, au lieu de courant.
Vous pouvez utiliser recoder(1) des chaînes de recodage ou tout autre type de recodage cérébral
spécification pour ENC, à condition que vous disiez à Enca d'utiliser des outils de compréhension
pour la conversion (voir la section CONVERSION).
Lorsque Enca ne parvient pas à déterminer l'encodage, il imprime un avertissement et laisse le
fichier tel quel ; lorsqu'il est exécuté en tant que filtre, il essaie de faire de son mieux pour copier le standard
entrée à sortie standard inchangée. Néanmoins, vous ne devriez pas vous y fier et faire
sauvegarde
Devinant paramètres
Il n'y en a qu'un: -L réglage de la langue des fichiers d'entrée. Cette option est obligatoire (mais voir
ci-dessous).
-L, --langue=LANGUE
Définit la langue des fichiers d'entrée sur LANGUE.
Plus précisément, LANGUE peut être n'importe quel nom de locale valide (ou alias avec +locale-alias
fonctionnalité) de certaines langues prises en charge. Vous pouvez également spécifier 'aucun' comme nom de langue,
seuls les encodages multi-octets sont alors reconnus. Courir
enca --liste les langues
pour obtenir la liste des langues prises en charge. Lorsque vous ne spécifiez aucune langue, Enca essaie
pour deviner votre langue à partir des paramètres régionaux et supposer que les fichiers d'entrée l'utilisent
Langue. Voir section LANGUE pour en savoir plus.
Conversion paramètres
vous donne un contrôle plus fin sur la façon dont la conversion du jeu de caractères sera effectuée. Ils n'affectent pas
n'importe quoi quand -x n'est pas spécifié comme type de sortie. Veuillez consulter la section CONVERSION pour
détails de conversion sanglants.
-C, --try-converters=LISTE
Ajoute séparés par des virgules LISTE à la liste des convertisseurs qui seront essayés lorsque vous
demander la conversion. Leurs noms peuvent être abrégés tant qu'ils sont
non ambigu. Courir
enca --list convertisseurs
pour obtenir la liste de tous les noms de convertisseurs valides (et voir la section CONVERSION pour leur
la description).
La liste par défaut dépend de la façon dont Enca a été compilé, exécutez
enca --aide
pour connaître la liste des convertisseurs par défaut.
Notez que la liste par défaut est utilisée uniquement lorsque vous ne spécifiez pas -C du tout. Autrement,
la liste est construite comme si elle était initialement vide et chaque -C ajoute de nouveaux convertisseurs
à cela. De plus, en précisant aucun car le nom du convertisseur provoque l'effacement du convertisseur
liste.
-E, --programme-convertisseur-externe=PATH
Définit le nom du programme du convertisseur externe sur PATH. Le convertisseur externe par défaut dépend
sur la façon dont enca a été respecté, et la possibilité d'utiliser des convertisseurs externes peut
ne pas être disponible du tout. Courir
enca --aide
pour découvrir le programme de conversion par défaut dans votre build enca.
Général Options
ne correspond pas à d'autres catégories d'options...
-p, --avec-nom-de-fichier
Force Enca à préfixer chaque résultat avec le nom de fichier correspondant. Par défaut, Enca
préfixe les résultats avec les noms de fichiers lorsqu'ils sont exécutés sur plusieurs fichiers.
L'entrée standard est imprimée comme STDIN et sortie standard comme SORTIE STD (ce dernier peut être
probablement vu dans les messages d'erreur seulement).
-P, --pas de nom de fichier
Force Enca à ne pas préfixer les résultats avec les noms de fichiers. Par défaut, Enca ne préfixe pas
résultat avec le nom du fichier lorsqu'il est exécuté sur un seul fichier (y compris l'entrée standard).
-V, --verbeux
Augmente le niveau de verbosité (chaque utilisation l'augmente de un).
Actuellement, cette option n'est pas très utile car différentes parties d'Enca répondent
différemment au même niveau de verbosité, la plupart du temps pas du tout.
Annonces
sont tous terminaux, c'est-à-dire que lorsque Enca en rencontre certains, il imprime la liste requise
et se termine sans traiter les options suivantes.
-h, --Aidez-moi
Imprime une brève aide à l'utilisation.
-G, --Licence
Imprime la licence Enca complète (via un téléavertisseur, si possible).
-l, --list=WORD
Liste d'impressions spécifiée par WORD (peut être abrégé tant qu'il n'est pas ambigu).
Les listes disponibles incluent :
jeux de caractères intégrés. Tous les encodages convertibles par convertisseur intégré, par groupe (les deux
l'encodage d'entrée et de sortie doit provenir de cette liste et appartenir au même groupe pour
transformation interne).
encodages intégrés. Équivalent à jeux de caractères intégrés, mais considéré comme obsolète ; volonté
être accepté avec un avertissement, pendant un certain temps.
convertisseurs. Tous les noms de convertisseur valides (à utiliser avec -C).
jeux de caractères. Tous les encodages (charsets). Vous pouvez sélectionner les noms qui seront imprimés
avec --Nom ou n'importe quel sélecteur de type de sortie de nom (bien sûr, seuls les encodages ayant un
le nom dans l'espace de noms donné sera imprimé alors), le sélecteur doit être spécifié
avant --liste.
encodages. Équivalent à jeux de caractères, mais considéré comme obsolète ; sera accepté avec
un avertissement, pendant un certain temps.
langues. Toutes les langues prises en charge ainsi que les jeux de caractères qui leur appartiennent. Noter
le type de sortie sélectionne le style de nom de langue, pas le style de nom de jeu de caractères ici.
noms. Toutes les valeurs possibles de --Nom option.
listes. Toutes les valeurs possibles de cette option. (Fou?)
surfaces. Toutes les surfaces reconnues par Enca.
-v, --version
Imprime la version du programme et la liste des fonctionnalités (voir la section CARACTERISTIQUES ).
CONVERSION
Bien qu'Enca ait été conçu à l'origine comme un outil pour deviner uniquement l'encodage, il
propose plusieurs méthodes de conversion de jeu de caractères. Vous pouvez contrôler lequel d'entre eux sera
utilisé avec -C.
Enca essaie séquentiellement les convertisseurs de la liste spécifiée par -C jusqu'à ce qu'il en trouve
est capable d'effectuer la conversion requise ou jusqu'à ce qu'il épuise la liste. Vous devez préciser
convertisseurs préférés en premier, moins préférés plus tard. Convertisseur externe (externe) devrait être
toujours spécifié en dernier, uniquement en dernier recours, car il n'est généralement pas possible de récupérer
quand il échoue. La liste par défaut des convertisseurs commence toujours par intégré et alors
continue avec le premier disponible à partir de : code libre, iconv, rien.
Il convient de noter quand Enca dit qu'il n'est pas en mesure d'effectuer la conversion, cela signifie seulement
aucun des convertisseurs n'est capable de l'exécuter. Il est encore possible d'effectuer le
conversion requise en plusieurs étapes, en utilisant plusieurs convertisseurs, mais pour comprendre comment,
l'intelligence humaine est probablement nécessaire.
Encastré convertisseur
est le plus simple et de loin le plus rapide de tous, ne peut effectuer que quelques octets à octets
conversions et modifie les fichiers directement en place (peut être considéré comme dangereux, mais est
assez efficace). Vous pouvez obtenir la liste de tous les encodages qu'il peut convertir avec
enca --list intégré
A côté de la vitesse, son principal avantage (et aussi inconvénient) est qu'il s'en moque : il
convertit simplement les caractères ayant une représentation dans l'encodage cible, ne touche pas
rien d'autre et n'imprime jamais de message d'erreur.
Ce convertisseur peut être spécifié comme intégré avec -C.
code libre convertisseur
est une interface vers la bibliothèque de recodage GNU, qui effectue le travail de recodage réel. Il peut ou peut
ne pas être compilé ; Cours
enca --version
pour connaître sa disponibilité dans votre build enca (fonctionnalité + interface-librecode).
Vous devriez être familier avec recoder(1) avant de l'utiliser, car le recodage est assez
outil de conversion de jeu de caractères sophistiqué et puissant. Vous pouvez rencontrer des problèmes lors de son utilisation
en collaboration avec Enca notamment parce que le support d'Enca pour des surfaces non compatibles à 100%,
car recode fait trop d'efforts pour rendre la transformation réversible, car il arrive parfois
ignore silencieusement les erreurs d'E/S, et parce qu'il est incroyablement bogué. S'il vous plaît voir GNU recoder
pages d'informations pour plus de détails sur la bibliothèque de recodage.
Ce convertisseur peut être spécifié comme code libre avec -C.
iconv convertisseur
est une interface vers UNIX98 iconv(3) fonctions de conversion, qui effectuent le recodage réel
travail. Il peut ou non être compilé ; Cours
enca --version
pour connaître sa disponibilité dans votre build enca (fonctionnalité + interface iconv).
Bien qu'iconv soit présent sur la plupart des systèmes actuels, il n'offre que rarement un ensemble utile de
conversions disponibles, la seule exception notable étant iconv de GNU libc. Il est
généralement assez pointilleux sur les surfaces aussi (tout en n'implémentant pas la surface
conversion). Il représente cependant probablement le seul outil standardisé capable d'effectuer
conversion de/vers Unicode. Veuillez consulter la documentation d'iconv pour plus de détails sur son
capacités sur votre système particulier.
Ce convertisseur peut être spécifié comme iconv avec -C.
Externe convertisseur
est un outil de conversion externe arbitraire qui peut être spécifié avec -E option (au plus un
peuvent être définis simultanément). Il y a quelques standards, fournis avec enca :
cstoc, recoder, Localisation, umap et piconv. Tous sont des scripts wrapper : pour cstoc(1), recoder(1),
Localisation(1), umap(1), et piconv (1).
Veuillez noter qu'enca a peu de contrôle sur ce que fait réellement le convertisseur externe. Si vous définissez
à /bin/rm vous êtes entièrement responsable des conséquences.
Si vous souhaitez créer votre propre convertisseur à utiliser avec enca, sachez qu'il est toujours
appelé
CONVERTISSEUR ENC_ACTUEL ENC DOSSIER [-]
où CONVERTISSEUR est ce qui a été fixé par -E, ENC_ACTUEL est détecté l'encodage, ENC c'est quoi
a été spécifié avec -x et DOSSIER est le fichier à convertir, c'est-à-dire qu'il est appelé pour chaque
fichier séparément. Le quatrième paramètre facultatif, -, devrait provoquer (lorsqu'il est présent) l'envoi
résultat de la conversion en sortie standard au lieu d'écraser le fichier DOSSIERL’
le convertisseur doit également veiller à ne pas modifier les autorisations de fichier, en renvoyant le code d'erreur 1
en cas d'échec et en nettoyant ses fichiers temporaires. S'il vous plaît voir la norme externe
convertisseurs pour des exemples.
Ce convertisseur peut être spécifié comme externe avec -C.
Réglage par défaut l'objectif jeu de caractères
La façon la plus simple de spécifier le jeu de caractères cible est le -x option, qui remplace toute
par défaut. Quand Enca est appelé comme enconv, le jeu de caractères cible par défaut est sélectionné exactement
de la même manière que recoder(1) le fait.
Si la DEFAULT_CHARSET variable d'environnement est définie, elle est utilisée comme jeu de caractères cible.
Sinon, si votre système fournit le nl_langinfo(3) fonction, natif de la locale actuelle
jeu de caractères est utilisé comme jeu de caractères cible.
Lorsque les deux méthodes échouent, Enca se plaint et se termine.
Réversibilité note
Si la réversibilité est cruciale pour vous, vous ne devriez pas du tout utiliser enca comme convertisseur (ou peut-être
vous pouvez, avec un design très spécifique recoder(1) enveloppe). Sinon, vous devriez à
sachez au moins qu'il existe quatre moyens de base pour gérer les entités de caractères inconvertibles :
échouer - c'est aussi une possibilité, et d'ailleurs c'est exactement ce que la libc GNU actuelle
L'implémentation d'iconv le fait (recode peut également être dit de le faire)
ne les touchez pas - c'est ce que le convertisseur interne enca fait toujours et le recodage peut faire ;
bien qu'il ne soit pas réversible, un être humain est généralement capable de reconstruire l'original (à
moins en principe)
approximez-les - c'est ce que les cstocs peuvent faire, et recoder aussi, bien que différemment ; et le
meilleur choix si vous voulez juste rendre le texte maudit lisible
supprimez-les - c'est ce que recode et cstocs peuvent faire (cstocs peuvent également les remplacer
caractères par un caractère fixe au lieu de simplement ignorer); utile lorsque le
les caractères à omettre ne contiennent que du bruit.
Veuillez consulter le manuel de votre convertisseur préféré pour plus de détails sur ce problème. Généralement, si
vous n'avez pas la chance d'avoir tous les caractères convertibles dans votre fichier, manuel
une intervention est nécessaire de toute façon.
Performance note
Les mauvaises performances des convertisseurs disponibles ont été l'une des principales raisons d'inclure
convertisseur intégré dans enca. Essayez de l'utiliser autant que possible, c'est-à-dire lorsque les fichiers dans
considération sont suffisamment propres au jeu de caractères ou assez désordonné pour que son zéro intégré
l'intelligence n'a pas d'importance. Il ne nécessite pas d'espace disque supplémentaire ni de mémoire supplémentaire et peut
surpasser recoder(1) plus de 10 fois sur les gros fichiers et la version Perl (c'est à dire la plus rapide
un des cstoc(1) plus de 400 fois sur de petits fichiers (en fait c'est presque aussi rapide que de simples
cp(1)).
Essayez d'éviter les convertisseurs externes quand ce n'est pas absolument nécessaire car tout le fork
et déplacer des objets est incroyablement lent.
ENCODAGES
Vous pouvez obtenir la liste des jeux de caractères reconnus avec
enca --liste les jeux de caractères
et en utilisant --Nom paramètre, vous pouvez sélectionner le nom que vous souhaitez utiliser dans la liste.
Vous pouvez également lister toutes les surfaces avec
enca --liste les surfaces
L'encodage et les noms de surface sont insensibles à la casse et les caractères non alphanumériques ne le sont pas
pris en compte. Cependant, les caractères non alphanumériques ne sont généralement pas autorisés.
Les seuls autorisés sont : `-', `_', `.', `:' et `/' (comme séparateur charset/surface). Donc
`ibm852' et `IBM-852' sont identiques, tandis que `IBM 852' n'est pas accepté.
Jeux de caractères
La liste suivante des jeux de caractères reconnus utilise les noms d'Enca (-e) et des descriptions verbales comme
rapporté par Enca (-f):
Caractères ASCII 7 bits ASCII
Norme ISO-8859-2 ISO 8859-2 ; ISO Latine 2
Norme ISO-8859-4 ISO 8859-4 ; Latine 4
Norme ISO-8859-5 ISO 8859-5 ; ISO cyrillique
Norme ISO-8859-13 ISO 8859-13 ; ISO Baltique ; latine 7
Norme ISO-8859-16 ISO 8859-16
CP1125 MS-Windows page de codes 1125
CP1250 MS-Windows page de codes 1250
CP1251 MS-Windows page de codes 1251
CP1257 page de codes MS-Windows 1257 ; WinBaltRim
IBM852 page de codes IBM/MS 852 ; PC (DOS) Latin 2
IBM855 Page de codes IBM/MS 855
IBM775 Page de codes IBM/MS 775
IBM866 Page de codes IBM/MS 866
baltique ISO-IR-179; baltique
Encodage Kamenicky KEYBCS2 ; KEYBCS2
macce Macintosh Europe centrale
maccyr Macintosh cyrillique
ECMA-113 Ecma cyrillique ; ECMA-113
KOI-8_CS_2 Code KOI8-CS2 (`T602')
KOI8-R KOI8-R Cyrillique
KOI8-U KOI8-U Cyrillique
KOI8-UNI KOI8-cyrillique unifié
Séquences de contrôle TeX (La)TeX
UCS-2 Jeu de caractères universel 2 octets ; UCS-2 ; BMP
UCS-4 Jeu de caractères universel 4 octets ; UCS-4 ; ISO-10646
UTF-7 Format de transformation universel 7 bits ; UTF-7
UTF-8 Format de transformation universel 8 bits ; UTF-8
CORK Encodage en liège ; T1
Norme nationale chinoise simplifiée GBK ; GB2312
BIG5 Norme industrielle chinoise traditionnelle ; Gros5
HZ HZ codé GB2312
inconnu Encodage non reconnu
où inconnu n'est pas un encodage réel, il est signalé quand Enca n'est pas en mesure de donner un
réponse fiable.
Surfaces
Enca dispose d'un support expérimental pour les surfaces dites (voir ci-dessous). Il détecte
surfaces suivantes (toutes ne peuvent pas être appliquées à tous les jeux de caractères) :
/CR Terminateurs de ligne CR
/LF Terminaison de ligne LF
/CRLF Terminateurs de ligne CRLF
NA Terminaison de ligne mixte
NA Entouré de/entremêlé de données non textuelles
/21 Ordre des octets inversé par paires (1,2 -> 2,1)
/4321 Ordre des octets inversé par quadruples (1,2,3,4 -> 4,3,2,1)
NA À la fois petits et gros morceaux endian, concaténés
/qp encodé-imprimable entre guillemets
Notez que certaines surfaces ont NA à la place de l'identifiant - elles ne peuvent pas être spécifiées à la commande
ligne, ils ne peuvent être signalés que par Enca. Ceci est intentionnel car ils ne vous informent que
pourquoi le fichier ne peut pas être considéré comme cohérent en surface au lieu de représenter un réel
la surface.
Chaque jeu de caractères a sa surface naturelle (appelée 'implicite' dans le recodage) qui n'est pas signalée,
par exemple, pour le jeu de caractères IBM 852, il s'agit des « terminaisons de ligne CRLF ». Pour les encodages UCS, le big endian est
considérée comme surface naturelle ; les ordres d'octets inhabituels sont construits à partir de 21 et 4321
permutations : 2143 est signalé simplement comme 21, tandis que 3412 est signalé comme une combinaison de 4321
et 21.
L'UTF-8 doublement encodé n'est ni un jeu de caractères ni une surface, c'est juste signalé.
À propos jeux de caractères, encodages et surfaces
Charset est un ensemble d'entités de caractères tandis que l'encodage est sa représentation dans les termes
d'octets et de bits. Dans Enca, le mot codage signifie la même chose que « représentation du texte »,
c'est-à-dire la relation entre la séquence d'entités de caractères constituant le texte et
séquence d'octets (bits) constituant le fichier.
Ainsi, l'encodage est à la fois un jeu de caractères et une surface (terminateurs de ligne, ordre des octets,
combinaison, transformation Base64, etc.). Néanmoins, il s'avère pratique de travailler avec
certaines paires {charset,surface} comme avec les véritables charsets. Alors, comme dans recoder(1), tous les UCS et
Les codages UTF du jeu de caractères universel sont appelés jeux de caractères. S'il vous plaît voir recoder
documentation pour plus de détails sur ce problème.
La seule bonne chose à propos des surfaces est que lorsque vous ne commencez pas à jouer avec elles, ni
Enca ne démarrera pas et il essaiera de se comporter autant que possible comme un inconscient de la surface
programme, même lorsque vous parlez pour recoder.
LANGUE
Enca a besoin de connaître la langue des fichiers d'entrée pour travailler de manière fiable, au moins en cas de
encodage 8 bits normal. Les encodages multi-octets doivent être reconnus pour tout latin, cyrillique
ou la langue grecque.
Vous pouvez (ou devez) utiliser -L option pour dire à Enca la langue. Étant donné que les gens le plus souvent
travailler avec des fichiers dans la même langue pour laquelle ils ont configuré des paramètres régionaux, Enca essaie
essaie de deviner la langue en examinant la valeur de LC_CTYPE et d'autres catégories de paramètres régionaux
(s'il te plait regarde local(7)) et en l'utilisant pour la langue lorsque vous n'en spécifiez aucune. De
Bien sûr, cela peut être complètement faux et vous donnera des réponses absurdes et endommagera votre
fichiers, alors n'oubliez pas d'utiliser le -L option. Vous pouvez aussi utiliser ENCAOPTER sûr, heureux et sain
variable pour définir une langue par défaut (voir la section ENVIRONNEMENT).
Les langues suivantes sont prises en charge par Enca (chaque langue est répertoriée avec
codages 8 bits).
Biélorusse CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855
Bulgare CP1251 ISO-8859-5 IBM855 maccyr ECMA-113
Tchèque ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Estonien ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic
Croate CP1250 ISO-8859-2 IBM852 macce CORK
Hongrois ISO-8859-2 CP1250 IBM852 macce CORK
Lituanien CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Letton CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic
Polonais ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 Baltic CORK
Russe KOI8-R CP1251 ISO-8859-5 IBM866 maccyr
Slovaque CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK
Slovène ISO-8859-2 CP1250 IBM852 macce CORK
Ukrainien CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr
GBK chinois BIG5 HZ
aucun
La langue spéciale aucun peut être raccourci à __, il ne contient pas d'encodages 8 bits, donc seulement
les encodages multi-octets sont détectés.
Vous pouvez également utiliser des noms de paramètres régionaux au lieu de langues :
être biélorusse
bulgare bg
cs tchèque
estonien et
heure croate
hu hongrois
lituanien
letton lv
polonais pl
ru russe
Sk slovaque
slovène sl
Royaume-Uni ukrainien
zh chinois
CARACTERISTIQUES
Plusieurs fonctionnalités d'Enca dépendent de ce qui est disponible sur votre système et de la façon dont il a été
compilé. Vous pouvez obtenir leur liste avec
enca --version
Le signe plus avant le nom d'une fonctionnalité signifie qu'elle est disponible, le signe moins signifie que cette version manque
la particularité.
interface-librecode. Enca a une interface pour la conversion du jeu de caractères de la bibliothèque de recodage GNU
fonctions.
interface iconv. Enca a une interface avec les fonctions de conversion de jeu de caractères iconv UNIX98.
convertisseur-externe. Enca peut utiliser des programmes de conversion externes (si vous disposez de certains
installée).
langue-détection. Enca essaie de deviner la langue (-L) à partir des paramètres régionaux. Vous n'avez pas besoin du
--Langue option, du moins en principe.
alias-locale. Enca est capable de déchiffrer les alias de paramètres régionaux utilisés pour les noms de langue.
jeu de caractères-cible-auto. Enca essaie de détecter votre jeu de caractères préféré à partir des paramètres régionaux. Option
--convertir automatiquement et en appelant Enca comme enconv fonctionne, du moins en principe.
ENCAOPTER. Enca est capable d'analyser correctement cette variable d'environnement avant la ligne de commande
paramètres. Des trucs simples comme ENCAOPT="-L Royaume-Uni" fonctionnera même sans cette fonctionnalité.
ENVIRONNEMENT
La variable ENCAOPTER peut contenir un ensemble d'options Enca par défaut. Son contenu est interprété
avant les arguments de ligne de commande. Malheureusement, cela ne fonctionne pas partout (doit avoir
+ Fonctionnalité ENCAOPT).
LC_CTYPE, LC_COLLER, LC_MESSAGES (peut-être hérité de LC_TOUS or LANGUE) est utilisé pour
deviner votre langue (doit avoir + fonction de détection de langue).
La variable DEFAULT_CHARSET peut être utilisé par enconv comme jeu de caractères cible par défaut.
DIAGNOSTIC
Enca renvoie le code de sortie 0 lorsque tous les fichiers d'entrée ont été traités avec succès (c'est-à-dire tous
les encodages ont été détectés et tous les fichiers ont été convertis dans l'encodage requis, si la conversion
a été demandé). Le code de sortie 1 est renvoyé lorsqu'Enca n'a pas pu deviner l'encodage ou
effectuer la conversion sur n'importe quel fichier d'entrée car ce n'est pas assez intelligent. Le code de sortie 2 est
renvoyé en cas de problèmes graves (par exemple I/O).
SÛRETÉ
Il devrait être possible de laisser Enca travailler sans surveillance, c'est son objectif. Toutefois:
Il n'y a aucune garantie que la détection fonctionne à 100%. Ne pariez pas là-dessus, vous pouvez facilement perdre
données précieuses.
N'utilisez pas enca (le programme), créez un lien vers libenca à la place si vous voulez quelque chose qui ressemble
Sécurité. Vous devez alors effectuer vous-même la conversion éventuelle.
N'utilisez pas de convertisseurs externes. Idéalement, désactivez-les au moment de la compilation.
Soyez conscient de ENCAOPTER et toute l'automagie intégrée devinant diverses choses de
environnement, à savoir les paramètres régionaux.
Utiliser enconv en ligne à l'aide des services onworks.net