АнглийскийФранцузскийИспанский

Значок OnWorks

pdf2txt - Интернет в облаке

Запустите pdf2txt в бесплатном хостинг-провайдере OnWorks через Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS

Это команда pdf2txt, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.

ПРОГРАММА:

ИМЯ


pdf2txt - извлекает текстовое содержимое файлов PDF

СИНТАКСИС


pdf2txt [вариант...] файл...

ОПИСАНИЕ


pdf2txt извлекает текстовое содержимое из файла PDF. Он извлекает весь текст, который должен быть
отображается программно, т. е. текст, представленный в виде строк ASCII или Unicode. Оно не может
распознавать текст, нарисованный как изображения, для которых требуется оптическое распознавание символов. Это также
извлекает соответствующие местоположения, названия шрифтов, размеры шрифта, направление письма
(по горизонтали или вертикали) для каждой части текста. Вам необходимо указать пароль для
защищенные PDF-документы, когда к ним доступ ограничен. Вы не можете извлечь какой-либо текст из
PDF-документ, для которого нет разрешения на извлечение.

ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ


-o файл
Задает имя выходного файла. По умолчанию извлеченное содержимое печатается в
Standand вывод в текстовом формате.

-p pageno [, pageno, ...]
Задает разделенный запятыми список номеров страниц для извлечения. Номера страниц
начать с одного. По умолчанию он извлекает текст со всех страниц.

-c кодер-декодер
Задает выходной кодек.

-t напишите
Задает выходной формат. В настоящее время поддерживаются следующие форматы:

текст
Текстовый формат. Это значение по умолчанию.

HTML
Формат HTML. Не рекомендуется.

XML
Формат XML. Он предоставляет больше всего информации.

день
Формат «PDF с тегами». Помеченный PDF-файл имеет собственное содержимое, аннотированное HTML-подобным
теги. pdf2txt пытается извлечь свои потоки контента, а не вывести его текст
локации. Используемые здесь теги определены в PDF Справка, Шестой Выпуск[1]
(§10.7 «PDF с тегами»).

-D режим письма
Определяет режим записи текстового вывода:

лр-ТБ
Слева направо, сверху вниз.

тб-рл
Сверху вниз, справа налево.

автоматический
Определить режим записи автоматически

-M символьное поле, -L линейный запас, -W слово-поле
Это параметры, используемые для анализа макета. В реальном PDF-файле текст
части могут быть разделены на несколько частей в середине выполнения, в зависимости от
программное обеспечение для авторинга. Следовательно, при извлечении текста необходимо разбивать фрагменты текста. в
рисунок ниже, два фрагмента текста, расстояние до которых меньше символьное поле is
считаются непрерывными и сгруппированы в один. Кроме того, две линии, расстояние между которыми
ближе чем линейный запас сгруппирован как текстовое поле, которое представляет собой прямоугольную область,
содержит «кластер» частей текста. Кроме того, может потребоваться вставить пробел
символов (пробелов) по мере необходимости, если расстояние между двумя словами больше, чем
слово-поле, поскольку пробел между словами может не отображаться как пробел, но
обозначается расположением каждого слова.

Каждое значение указывается не как фактическая длина, а как пропорция длины к
размер каждого рассматриваемого символа. Значения по умолчанию: символьное поле = 1.0,
линейный запас = 0.3 и W = 0.2, Соответственно.

-n
Подавить анализ макета.

-A
Принудительный анализ макета для всех текстовых строк, включая текст, содержащийся в рисунках.

-V
Включить обнаружение вертикального письма.

-s лестница
Задает масштаб вывода. Этот параметр можно использовать только в формате HTML.

-m n
Задает максимальное количество извлекаемых страниц. По умолчанию все страницы в
документ извлекаются.

-P password
Предоставляет пароль пользователя для доступа к содержимому PDF.

-d
Увеличьте уровень отладки.

ПРИМЕРЫ


Извлеките текст в виде HTML-файла с именем output.html:

$ pdf2txt -o output.html samples / naacl06-shinyama.pdf

Извлеките японский HTML-файл с вертикальным написанием:

$ pdf2txt -c euc-jp -D tb-rl -o output.html samples / jo.pdf

Извлечь текст из зашифрованного файла PDF:

$ pdf2txt -P мой пароль -o output.txt secret.pdf

Используйте pdf2txt онлайн с помощью сервисов onworks.net


Бесплатные серверы и рабочие станции

Скачать приложения для Windows и Linux

  • 1
    UnitedRPMS
    UnitedRPMS
    Присоединяйтесь к нам в Gitter!
    https://gitter.im/unitedrpms-people/Lobby
    Включите репозиторий URPMS в вашем
    система -
    https://github.com/UnitedRPMs/unitedrpms.github.io/bl...
    Скачать объединенные рпмс
  • 2
    Boost C ++ библиотеки
    Boost C ++ библиотеки
    Boost предоставляет бесплатное портативное
    рецензируемые библиотеки C++.
    упор делается на портативные библиотеки, которые
    хорошо работать со стандартной библиотекой C++.
    Смотрите http://www.bo...
    Скачать библиотеки Boost C++
  • 3
    Виртуальный GL
    Виртуальный GL
    VirtualGL перенаправляет 3D-команды из
    Приложение Unix / Linux OpenGL на
    серверный GPU и преобразует
    визуализированные 3D-изображения в видеопоток
    с которым ...
    Скачать VirtualGL
  • 4
    libusb
    libusb
    Библиотека для включения пользовательского пространства
    прикладные программы для связи с
    USB-устройства. Аудитория: Разработчики, Конец
    Пользователи/рабочий стол. Язык программирования: С.
    Категории ...
    Скачать libusb
  • 5
    Сковорода
    Сковорода
    SWIG - это инструмент для разработки программного обеспечения
    который соединяет программы, написанные на C, и
    C ++ с множеством высокоуровневых
    языки программирования. SWIG используется с
    разные...
    Скачать SWIG
  • 6
    Тема WooCommerce Nextjs React
    Тема WooCommerce Nextjs React
    Тема React WooCommerce, созданная с помощью
    Далее JS, Webpack, Babel, Node и
    Экспресс, используя GraphQL и Apollo
    Клиент. Магазин WooCommerce в React (
    содержит: продукты...
    Скачать тему WooCommerce Nextjs React
  • Больше »

Команды Linux

Ad