Este es el comando catdoc que se puede ejecutar en el proveedor de alojamiento gratuito de OnWorks utilizando una de nuestras múltiples estaciones de trabajo en línea gratuitas, como Ubuntu Online, Fedora Online, emulador en línea de Windows o emulador en línea de MAC OS.
PROGRAMA:
NOMBRE
catdoc: lee el archivo MS-Word y coloca su contenido como texto sin formato en la salida estándar
SINOPSIS
catdoc [-vlu8btawxV] [-m número] [ -s charset] [ -d charset] [ -f formato de salida] presentar
DESCRIPCIÓN
catdoc se comporta como gato(1) pero lee archivos de MS-Word y produce texto legible por humanos
en salida estándar. Opcionalmente puede usar látex(1) secuencias de escape para caracteres que
tienen un significado especial para LaTeX. También hace un esfuerzo para reconocer tablas de MS-Word,
aunque nunca intenta escribir encabezados correctos para el entorno tabular de LaTeX. Adicional
Los formatos de salida, como HTML, se pueden definir fácilmente.
catdoc no intenta extraer información de formato que no sean tablas de MS-Word
documento, por lo que diferentes modos de salida significan principalmente que diferentes caracteres deben ser
formas de escape y diferentes utilizadas para representar caracteres, que faltan en el juego de caracteres de salida. Ver
SUSTITUCIÓN DE CARACTERES a continuación
catdoc utiliza internos Unicode(4) representación de texto, por lo que es capaz de convertir textos
cuando el juego de caracteres en el documento de origen no coincide con el juego de caracteres en el sistema de destino. Ver CARÁCTER
SETS a continuación.
Si no se proporcionan nombres de archivo, catdoc procesa su entrada estándar a menos que sea terminal. Eso
Es poco probable que alguien pueda escribir un documento de Word desde el teclado, así que si catdoc invocado
sin argumentos y stdin no se redirige, imprime un breve mensaje de uso y sale.
El procesamiento de la entrada estándar (incluso entre otros archivos) se puede forzar usando el guión '-' como archivo
nombre.
De forma predeterminada, catdoc envuelve las líneas que tienen más de 72 caracteres y separa los párrafos
por líneas en blanco. Este comportamiento puede ser rechazado por -w cambiar. En wide modo catdoc huellas dactilares
cada una párrafo as one long línea, adecuado for importar into procesadores de texto que realizan
envoltura de palabras.
OPCIONES
-a - atajo para -f ascii. Produce texto ASCII como salida. Separa las columnas de la tabla
con TAB
-b - Procesar archivo de MS-Word roto. Normalmente, catdoc cheques if first 8 bytes de archivo es
Firma Microsoft OLE. Si es así, procesa el archivo; de lo contrario, simplemente lo copia a
stdin. Está destinado a utilizar catdoc como filtro para ver todos los archivos con .doc
extensión.
-dcharset
: especifica el nombre del juego de caracteres de destino. El archivo de juego de caracteres tiene el formato descrito en
CONJUNTOS DE CARACTERES a continuación y debería tener .TXT extensión y residir en catdoc bibliotecas
directorio ( $ {prefijo} / lib / x86_64-linux-gnu / catdoc). By defecto corriente local
charset se usa si el soporte de langinfo está compilado en.
-fformato
- especifica el formato de salida como se describe en SUSTITUCIÓN DE CARACTERES a continuación. catdoc
viene con dos formatos de salida: ascii y tex. Puede agregar el suyo si lo desea.
-l Causas catdoc para enumerar los nombres de los juegos de caracteres disponibles en la salida estándar y salir
con éxito garantizado.
-mnúmero
Especifica el margen derecho del texto (predeterminado 72). -m 0 es equivalente a -w
-scharset
Especifica el juego de caracteres de origen. (uno utilizado en el documento de Word), si el documento de Word no
contener texto UTF-16. Al leer documentos rtf, normalmente no es necesario,
porque los documentos rtf contienen la especificación ansicpg. Pero puede equivocarse si
Word (he visto documentos RTF en ruso, donde se especificó cp1252). En esto
caso de que esta opción tenga prioridad sobre el juego de caracteres, especificado en el documento.
Pero la declaración source_charset en el archivo de configuración tiene menos prioridad que
juego de caracteres en el documento.
-t - atajo para -f Texas
convierte todos los caracteres imprimibles, que tienen un significado especial para Látex(1) en
secuencias de control apropiadas. Separa las columnas de la tabla por &.
-u - declara que el documento de Word contiene una representación de texto UNICODE (UTF-16)
(como algunos documentos de Word-97). Si catdoc no corrige el documento de Word con
juego de caracteres predeterminado, pruebe esta opción.
-8 - declara que el documento de Word es de 8 bits. Por si acaso ese catdoc
reconoce el formato de archivo incorrectamente.
-w desactiva el ajuste de palabras. Por defecto catdoc la salida se divide en líneas ya no
de 72 (o el número, especificado por la opción -m) caracteres y párrafos son
separados por una línea en blanco. Con esta opción, cada párrafo es una línea larga.
-x hace que catdoc muestre un carácter UNICODE desconocido como \ xNNNN, en lugar de question
marcas.
-v hace que catdoc imprima información inútil sobre la estructura del documento de Word para
stdout antes del inicio real del texto.
-V salidas versión catdoc
PERSONAJE CONJUNTOS
Al procesar archivos de MS-Word catdoc utiliza información sobre dos conjuntos de caracteres, normalmente
una experiencia diferente
- entrada y salida. Se almacenan en archivos de texto sin formato en catdoc directorio de la biblioteca.
Los archivos de juego de caracteres deben contener dos números hexadecimales separados por espacios en blanco: 8 bits
código en juego de caracteres y código Unicode de 16 bits. Cualquier cosa, desde la marca de almohadilla hasta el final de la línea, es
ignorado, así como líneas en blanco.
catdoc La distribución incluye algunos de estos conjuntos de caracteres. Juego de caracteres adicional
definiciones, directamente utilizables por catdoc se puede obtener en ftp.unicode.org. Archivos de juego de caracteres
have .TXT sufijo, que no debe especificarse en la línea de comandos ni en los archivos de configuración.
Tenga en cuenta que catdoc se distribuye con juegos de caracteres cirílicos por defecto. Si no eres ruso,
probablemente no lo desee, debe reconfigurar catdoc en tiempo de compilación o en tiempo de ejecución
archivo de configuración.
Cuando se trata de documentos con conjuntos de caracteres distintos a los predeterminados, recuerde que Microsoft
nunca utiliza juegos de caracteres ISO. Mientras las letras están adentro, digamos que cp1252 están en la misma posición que en
ISO-8859-1, algunos signos de puntuación se perderían si especifica ISO-8859-1 como entrada
juego de caracteres. Si usa cp1252, catdoc se ocuparía de esos signos como se describe en CARÁCTER
SUSTITUCIÓN a continuación.
PERSONAJE SUSTITUCIÓN
catdoc convierte el archivo MS-Word en la siguiente representación Unicode interna:
1. Los párrafos están separados por el símbolo de avance de línea ASCII (0x000A)
2. Las celdas de la tabla dentro de la fila están separadas por el símbolo de Separador de campo ASCII
(0x001C)
3. Las filas de la tabla están separadas por un separador de registros ASCII (0x001E)
4. Todos los caracteres imprimibles, incluidos los espacios en blanco, se representan con su
respectivos códigos UNICODE.
Esta representación UNICODE se convierte posteriormente en texto de 8 bits en el carácter de destino
configurar utilizando el siguiente algoritmo de cuatro pasos:
1. Se busca una lista de caracteres especiales para un carácter Unicode determinado.
Si se encuentra, se emite la secuencia apropiada de varios caracteres en lugar de carácter.
2. Si hay un equivalente en el juego de caracteres de destino, se emite.
3. De lo contrario, se busca en la lista de reemplazo y, si hay varios caracteres
sustitución de este carácter UNICODE, es salida.
4. Si todo lo anterior falla, aparece el símbolo "Carácter desconocido" (signo de interrogación).
Las listas de caracteres especiales y las listas de sustitución son independientes del juego de caracteres,
porque los caracteres especiales deben escaparse independientemente de su existencia en el personaje de destino
conjunto (por lo general, son partes de US-ASCII y, por lo tanto, existen en cualquier conjunto de caracteres) y
La lista de reemplazo se busca solo para aquellos caracteres, que no se encuentran en el objetivo.
conjunto de caracteres.
Estas listas se almacenan en catdoc directorio de la biblioteca en archivos con prefijo de nombre de formato.
Estos archivos tienen el siguiente formato:
Cada línea puede ser un comentario (comenzando con una marca de almohadilla) o contener un UNICODE hexadecimal
valor, separado por espacios en blanco de la cadena, que se sustituirá en su lugar. Si
La cadena no contiene espacios en blanco, se puede usar tal cual, de lo contrario, debe incluirse entre
comillas simples o dobles. Secuencias de barra invertida habituales como '\norte','\ t' se puede utilizar en estos
cadena.
TIEMPO DE FUNCIONAMIENTO CONFIGURACIÓN
Al iniciarse, catdoc lee su archivo de configuración de todo el sistema ( catdocrc in catdoc bibliotecas
directorio) y luego el archivo de configuración específico del usuario $ {HOME} /. Catdocrc.
Estos archivos pueden contener las siguientes directivas:
conjunto_fuente_charset = nombre del juego de caracteres
Establece el juego de caracteres de origen predeterminado, que se usaría si no -s opción especificada.
Consulte la configuración de la estación de trabajo de Windows cercana para encontrar la que necesita.
conjunto de caracteres_objetivo = nombre del juego de caracteres
Establece el juego de caracteres de salida predeterminado. Probablemente sepas cuál usas.
ruta_conjunto_caracteres = lista-directorio
Lista de directorios separados por dos puntos, en los que se buscan archivos de juego de caracteres. Esta
le permite instalar juegos de caracteres adicionales en su directorio personal. Si primero
El componente de directorio de la ruta es ~ se reemplaza por el contenido de INICIO entorno
variable. En la plataforma MS-DOS, si el nombre del directorio comienza con% s, se reemplaza
con directorio de archivo ejecutable. Elemento vacío en la lista (es decir, dos consequitve
dos puntos) se considera directorio actual.
mapa_ruta = lista-directorio
Lista de directorios separados por dos puntos, en los que se busca un mapa de caracteres especiales
y mapa de reemplazo. Las mismas reglas de sustitución que en ruta_conjunto_caracteres se aplican.
formato = formato nombre
Formato de salida que se usaría por defecto. catdoc viene con dos formatos -
ascii y Texas pero nada le impide escribir su propio formato (establezca dos mapas
archivos - mapa de caracteres especiales y mapa de reemplazo).
desconocido_char = personaje especificación
establece el carácter de salida en lugar del carácter Unicode desconocido (predeterminado '?')
La especificación de caracteres puede tener una de dos formas: carácter encerrado en un solo
comillas o código hexadecimal.
uso_local =(si | no)
Habilita o deshabilita la selección automática del juego de caracteres de salida (predeterminado si),
basado en la configuración regional del sistema (si está habilitado en el momento de la compilación). Si es automático
La detección está habilitada, que la configuración del juego de caracteres de salida en los archivos de configuración (pero
no en la línea de comando) se ignoran y se usa el conjunto de caracteres de la configuración regional del sistema actual
en lugar de. No hay una elección automática de juego de caracteres de entrada, según el idioma local,
porque la mayoría de los archivos de Word modernos (desde Word 97) son Unicode de todos modos
Utilice catdoc en línea utilizando los servicios de onworks.net