Это команда pdf2txt, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
pdf2txt - извлекает текстовое содержимое файлов PDF
СИНТАКСИС
pdf2txt [вариант...] файл...
ОПИСАНИЕ
pdf2txt извлекает текстовое содержимое из файла PDF. Он извлекает весь текст, который должен быть
отображается программно, т. е. текст, представленный в виде строк ASCII или Unicode. Оно не может
распознавать текст, нарисованный как изображения, для которых требуется оптическое распознавание символов. Это также
извлекает соответствующие местоположения, названия шрифтов, размеры шрифта, направление письма
(по горизонтали или вертикали) для каждой части текста. Вам необходимо указать пароль для
защищенные PDF-документы, когда к ним доступ ограничен. Вы не можете извлечь какой-либо текст из
PDF-документ, для которого нет разрешения на извлечение.
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
-o файл
Задает имя выходного файла. По умолчанию извлеченное содержимое печатается в
Standand вывод в текстовом формате.
-p pageno [, pageno, ...]
Задает разделенный запятыми список номеров страниц для извлечения. Номера страниц
начать с одного. По умолчанию он извлекает текст со всех страниц.
-c кодер-декодер
Задает выходной кодек.
-t напишите
Задает выходной формат. В настоящее время поддерживаются следующие форматы:
текст
Текстовый формат. Это значение по умолчанию.
HTML
Формат HTML. Не рекомендуется.
XML
Формат XML. Он предоставляет больше всего информации.
день
Формат «PDF с тегами». Помеченный PDF-файл имеет собственное содержимое, аннотированное HTML-подобным
теги. pdf2txt пытается извлечь свои потоки контента, а не вывести его текст
локации. Используемые здесь теги определены в PDF Справка, Шестой Выпуск[1]
(§10.7 «PDF с тегами»).
-D режим письма
Определяет режим записи текстового вывода:
лр-ТБ
Слева направо, сверху вниз.
тб-рл
Сверху вниз, справа налево.
автоматический
Определить режим записи автоматически
-M символьное поле, -L линейный запас, -W слово-поле
Это параметры, используемые для анализа макета. В реальном PDF-файле текст
части могут быть разделены на несколько частей в середине выполнения, в зависимости от
программное обеспечение для авторинга. Следовательно, при извлечении текста необходимо разбивать фрагменты текста. в
рисунок ниже, два фрагмента текста, расстояние до которых меньше символьное поле is
считаются непрерывными и сгруппированы в один. Кроме того, две линии, расстояние между которыми
ближе чем линейный запас сгруппирован как текстовое поле, которое представляет собой прямоугольную область,
содержит «кластер» частей текста. Кроме того, может потребоваться вставить пробел
символов (пробелов) по мере необходимости, если расстояние между двумя словами больше, чем
слово-поле, поскольку пробел между словами может не отображаться как пробел, но
обозначается расположением каждого слова.
Каждое значение указывается не как фактическая длина, а как пропорция длины к
размер каждого рассматриваемого символа. Значения по умолчанию: символьное поле = 1.0,
линейный запас = 0.3 и W = 0.2, Соответственно.
-n
Подавить анализ макета.
-A
Принудительный анализ макета для всех текстовых строк, включая текст, содержащийся в рисунках.
-V
Включить обнаружение вертикального письма.
-s лестница
Задает масштаб вывода. Этот параметр можно использовать только в формате HTML.
-m n
Задает максимальное количество извлекаемых страниц. По умолчанию все страницы в
документ извлекаются.
-P password
Предоставляет пароль пользователя для доступа к содержимому PDF.
-d
Увеличьте уровень отладки.
ПРИМЕРЫ
Извлеките текст в виде HTML-файла с именем output.html:
$ pdf2txt -o output.html samples / naacl06-shinyama.pdf
Извлеките японский HTML-файл с вертикальным написанием:
$ pdf2txt -c euc-jp -D tb-rl -o output.html samples / jo.pdf
Извлечь текст из зашифрованного файла PDF:
$ pdf2txt -P мой пароль -o output.txt secret.pdf
Используйте pdf2txt онлайн с помощью сервисов onworks.net