АнглийскийФранцузскийИспанский

Значок OnWorks

catdoc - Интернет в облаке

Запустите catdoc в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда catdoc, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


catdoc - читает файл MS-Word и выводит его содержимое в виде обычного текста на стандартный вывод

СИНТАКСИС


Catdoc [-vlu8btawxV] [-m номер] [ -s кодировок] [ -d кодировок] [ -f Формат вывода] файл

ОПИСАНИЕ


Catdoc ведет себя как кошка(1) но он читает файл MS-Word и выдает читаемый текст
на стандартный вывод. При желании можно использовать латекс(1) escape-последовательности для символов, которые
имеют особое значение для LaTeX. Он также прилагает некоторые усилия для распознавания таблиц MS-Word,
хотя он никогда не пытается писать правильные заголовки для табличной среды LaTeX. Дополнительный
форматы вывода, такие как HTML, можно легко определить.

Catdoc не пытается извлечь информацию о форматировании, кроме таблиц, из MS-Word
документ, поэтому разные режимы вывода в основном означают, что должны быть
экранированные и различные способы, используемые для представления символов, отсутствующих в выходной кодировке. Видеть
ЗАМЕНА ХАРАКТЕРА ниже

Catdoc использует внутренние юникода(4) представление текста, поэтому он может преобразовывать тексты
когда кодировка в исходном документе не соответствует кодировке в целевой системе. СМОТРЕТЬ ПЕРСОНАЖ
НАБОРЫ ниже.

Если имена файлов не указаны, Catdoc обрабатывает свой стандартный ввод, если он не является терминальным. Это
вряд ли кто-то сможет набрать документ Word с клавиатуры, поэтому, если Catdoc вызывается
без аргументов и stdin не перенаправляется, он выводит краткое сообщение об использовании и завершает работу.
Обработка стандартного ввода (даже среди других файлов) может быть инициирована с помощью тире '-' в качестве файла
имя.

По умолчанию Catdoc переносит строки длиной более 72 символов и разделяет абзацы
пустыми строками. От этого поведения можно избавиться -w выключатель. В широкий Режим Catdoc печать
каждый пункт as one длинной линия, подходящее для Импортировать в текстовые процессоры, которые выполняют
перенос слов.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ


-a - ярлык для -f ascii. Выводит текст ASCII. Отделяет столбцы таблицы
с TAB

-b - обработать испорченный файл MS-Word. Как обычно, Catdoc проверки if первый 8 байт файла
Подпись Microsoft OLE. Если это так, он обрабатывает файл, в противном случае он просто копирует его в
stdin. Он предназначен для использования Catdoc как фильтр для просмотра всех файлов с .doc
расширение.

-dкодировок
- указывает имя набора символов назначения. Файл кодировки имеет формат, описанный в
НАБОРЫ ПЕРСОНАЖЕЙ ниже и должны иметь .текст расширение и проживать в Catdoc библиотека
каталог ( $ {префикс} / lib / x86_64-linux-gnu / catdoc). By по умолчанию, текущий местный
charset используется, если поддержка langinfo скомпилирована в.

-fформат
- задает выходной формат, как описано в разделе ЗАМЕНА СИМВОЛОВ ниже. Catdoc
поставляется с двумя выходными форматами - ascii и tex. Вы можете добавить свои, если хотите.

-l Причины Catdoc перечислить имена доступных кодировок на стандартный вывод и выйти
успешно.

-mномер
Задает правое поле для текста (по умолчанию 72). -m 0 эквивалентна -w

-sкодировок
Задает исходную кодировку. (тот, который используется в документе Word), если документ Word не
содержат текст в кодировке UTF-16. При чтении документов RTF в этом, как правило, нет необходимости,
потому что документы rtf содержат спецификацию ansicpg. Но это может быть неправильно установлено
Word (видел документы в формате RTF на русском, где указывалось cp1252). В этом
если эта опция будет иметь приоритет над кодировкой, указанной в документе.
Но оператор source_charset в файле конфигурации имеет меньший приоритет, чем
кодировка в документе.

-t - ярлык для -f текс
преобразует все печатаемые символы, которые имеют особое значение для Латекс(1) в
соответствующие контрольные последовательности. Разделяет столбцы таблицы по &.

-u - объявляет, что документ Word содержит представление текста в формате UNICODE (UTF-16)
(как некоторые документы Word-97). Если catdoc не может исправить документ Word с помощью
кодировка по умолчанию, попробуйте этот вариант.

-8 - заявляет, что документ Word 8-битный. На всякий случай этот catdoc
неправильно распознает формат файла.

-w отключает перенос слов. По умолчанию Catdoc вывод разбивается на строки не длиннее
чем 72 (или число, указанное параметром -m) символов и абзацев
разделены пустой строкой. В этом случае каждый абзац представляет собой одну длинную строку.

-x заставляет catdoc выводить неизвестный символ UNICODE как \ xNNNN вместо вопроса
Метки.

-v заставляет catdoc печатать бесполезную информацию о структуре текстового документа для
stdout перед фактическим началом текста.

-V выводит версию catdoc

ПЕРСОНАЖ НАБОРЫ


При обработке файла MS-Word Catdoc использует информацию о двух наборах символов, обычно
различный
- ввод и вывод. Они хранятся в текстовых файлах в Catdoc каталог библиотеки.
Файлы наборов символов должны содержать два шестнадцатеричных числа, разделенных пробелами - 8-битные.
код в наборе символов и 16-битный код Unicode. Все от решетки до конца строки
игнорируются, а также пустые строки.

Catdoc Распространение включает некоторые из этих наборов символов. Дополнительный набор символов
определения, непосредственно используемые Catdoc можно получить на ftp.unicode.org. Файлы кодировки
встали на сторону .текст суффикс, который не должен указываться в командной строке или файлах конфигурации.

Обратите внимание, что Catdoc по умолчанию распространяется с кириллическими кодировками. Если ты не русский,
вы, вероятно, не хотите этого, следует перенастроить catdoc во время компиляции или во время выполнения
Файл конфигурации.

При работе с документами с кодировками, отличными от кодировки по умолчанию, помните, что Microsoft
никогда не использует кодировки ISO. В то время как буквы, скажем, cp1252 находятся в том же положении, что и в
ISO-8859-1, некоторые знаки препинания будут потеряны, если вы укажете ISO-8859-1 в качестве входных данных.
кодировка. Если вы используете cp1252, catdoc будет обрабатывать эти знаки, как описано в CHARACTER
ЗАМЕНА ниже.

ПЕРСОНАЖ ЗАМЕНА


Catdoc конвертирует файл MS-Word в следующее внутреннее представление Unicode:

1. Абзацы разделяются символом перевода строки ASCII (0x000A).

2. Ячейки таблицы в строке разделяются символом разделителя полей ASCII.
(0x001С)

3. Строки таблицы разделяются разделителем записей ASCII (0x001E).

4. Все печатаемые символы, включая пробелы, представлены с их
соответствующие коды UNICODE.

Это представление UNICODE впоследствии преобразуется в 8-битный текст в целевой символ.
установить, используя следующий четырехэтапный алгоритм:

1. Список специальных символов ищется для данного символа Unicode.
Если он найден, то вместо символа выводится соответствующая многосимвольная последовательность.

2. Если в целевом наборе символов есть эквивалент, он выводится.

3. В противном случае ищется список замены и, если есть многосимвольный
замена этого символа UNICODE, он выводится.

4. Если все вышеперечисленное не помогает, выводится символ «Неизвестный символ» (вопросительный знак).

Списки специальных символов и список подстановки не зависят от набора символов,
потому что специальные символы должны быть экранированы независимо от их существования в целевом персонаже
набор (обычно они являются частями US-ASCII и, следовательно, существуют в любом наборе символов) и
в списке замен ищутся только те символы, которых нет в целевом
набор символов.

Эти списки хранятся в Catdoc каталог библиотеки в файлах с префиксом имени формата.
Эти файлы имеют следующий формат:

Каждая строка может быть либо комментарием (начиная с решетки), либо содержать шестнадцатеричный код UNICODE.
значение, отделенное пробелом от строки, которое будет подставлено вместо него. Если
строка не содержит пробелов, ее можно использовать как есть, в противном случае ее следует заключить в
одинарные или двойные кавычки. Обычные последовательности обратной косой черты, такие как '\ n',«\ Т» можно использовать в этих
строка.

проверка КОНФИГУРАЦИЯ


При запуске catdoc читает свой общесистемный файл конфигурации ( котдоккр in Catdoc библиотека
каталог), а затем пользовательский файл конфигурации $ {HOME} /. Catdocrc.

Эти файлы могут содержать следующие директивы:

исходный_кодовый набор = имя-кодировки
Устанавливает исходную кодировку по умолчанию, которая будет использоваться, если нет -s опция указана.
Проконсультируйтесь с конфигурацией ближайшей рабочей станции Windows, чтобы найти нужную.

target_charset = имя-кодировки
Устанавливает кодировку вывода по умолчанию. Вы, наверное, знаете, какой из них используете.

charset_path = каталог-список
Список каталогов, разделенных двоеточиями, в которых выполняется поиск файлов кодировки. Этот
позволяет вам устанавливать дополнительные кодировки в ваш домашний каталог. Если сначала
компонент каталога пути ~ он заменяется содержимым ГЛАВНАЯ охрана окружающей среды
Переменная. На платформе MS-DOS, если имя каталога начинается с% s, оно заменяется
с каталогом исполняемого файла. Пустой элемент в списке (т.е. два последовательных
двоеточия) считается текущим каталогом.

путь_карты = каталог-список
список каталогов, разделенных двоеточиями, в которых выполняется поиск по карте специальных символов
и замена карты. Те же правила замены, что и в charset_path применяются.

формат = формат имя
Формат вывода, который будет использоваться по умолчанию. Catdoc поставляется с двумя форматами -
ASCII и текс но ничто не мешает написать свой формат (установите две карты
files - карта специальных символов и карта замены).

неизвестный_символ = персонаж Спецификация
устанавливает символ для вывода вместо неизвестного символа Unicode (по умолчанию '?')
Спецификация символа может иметь одну из двух форм - символ, заключенный в одиночный
кавычки или шестнадцатеричный код.

use_locale =(да | нет)
Включает или отключает автоматический выбор выходной кодировки (по умолчанию Да),
на основе настроек локали системы (если включено во время компиляции). Если автоматически
обнаружение включено, чем параметры вывода кодировки в файлах конфигурации (но
не в командной строке) игнорируются, и используется текущая кодировка языкового стандарта системы
вместо. Нет автоматического выбора кодировки ввода в зависимости от языка локали,
потому что большинство современных файлов Word (начиная с Word 97) в любом случае являются Unicode

Используйте catdoc онлайн с помощью сервисов onworks.net


Бесплатные серверы и рабочие станции

Скачать приложения для Windows и Linux

  • 1
    PyQt
    PyQt
    PyQt — это привязки Python для
    Кроссплатформенный Qt от Digia
    каркас разработки приложений. Это
    поддерживает Python v2 и v3 и Qt v4 и
    Qt v5. PyQt доступен...
    Скачать PyQt
  • 2
    Сардинцы
    Сардинцы
    Сарди - это полный рестайлинг и
    оптимизация svg кода. 6 вариантов для
    ваши приложения и 10 видов папок
    для использования в вашем файловом менеджере. Сарди
    значки ...
    Скачать Сарди
  • 3
    Цифровая звуковая рабочая станция LMMS
    Цифровая звуковая рабочая станция LMMS
    LMMS — это бесплатное кроссплатформенное программное обеспечение.
    который позволяет создавать музыку с
    твой компьютер. Если вам нравится этот проект
    рассмотреть возможность участия в проекте
    ч ...
    Скачать цифровую звуковую рабочую станцию ​​LMMS
  • 4
    Ядро реального времени FreeRTOS (RTOS)
    Ядро реального времени FreeRTOS (RTOS)
    FreeRTOS — ведущая на рынке система реального времени.
    операционная система (RTOS) для
    микроконтроллеры и небольшие
    микропроцессоры. Распространяется свободно
    под лицензией MIT с открытым исходным кодом...
    Скачать ядро ​​FreeRTOS реального времени (RTOS)
  • 5
    Авогадро
    Авогадро
    Авогадро — передовая молекулярная
    редактор, предназначенный для кросс-платформенного использования
    в вычислительной химии, молекулярная
    моделирование, биоинформатика, материалы
    наука и...
    Скачать Авогадро
  • 6
    XMLTV
    XMLTV
    XMLTV - это набор программ для обработки
    TV (tvguide) списки и помощь в управлении
    просмотр телевизора, сохранение объявлений в
    Формат на основе XML. Есть утилиты для
    делать...
    Скачать XMLTV
  • Больше »

Команды Linux

Ad