이것은 Ubuntu Online, Fedora Online, Windows 온라인 에뮬레이터 또는 MAC OS 온라인 에뮬레이터와 같은 여러 무료 온라인 워크스테이션 중 하나를 사용하여 OnWorks 무료 호스팅 공급자에서 실행할 수 있는 명령 pdf2txt입니다.
프로그램:
이름
pdf2txt - PDF 파일의 텍스트 내용 추출
개요
pdf2txt [선택권...] 파일...
기술
pdf2txt PDF 파일에서 텍스트 내용을 추출합니다. 그것은 될 모든 텍스트를 추출합니다
프로그래밍 방식으로 렌더링됩니다. 즉, ASCII 또는 유니코드 문자열로 표시되는 텍스트입니다. 그럴 순 없어
광학 문자 인식이 필요한 이미지로 그려진 텍스트를 인식합니다. 또한
해당 위치, 글꼴 이름, 글꼴 크기, 쓰기 방향을 추출합니다.
(가로 또는 세로) 각 텍스트 부분. 에 대한 비밀번호를 제공해야 합니다.
액세스가 제한된 경우 보호된 PDF 문서. 에서 텍스트를 추출할 수 없습니다.
추출 권한이 없는 PDF 문서.
옵션
-o 파일
출력 파일 이름을 지정합니다. 기본값은 추출된 내용을 다음으로 인쇄하는 것입니다.
텍스트 형식의 표준 출력.
-p 파게노[,파게노,...]
추출할 페이지 번호의 쉼표로 구분된 목록을 지정합니다. 페이지 번호
하나에서 시작합니다. 기본적으로 모든 페이지에서 텍스트를 추출합니다.
-c 코덱
출력 코덱을 지정합니다.
-t 유형
출력 형식을 지정합니다. 현재 지원되는 형식은 다음과 같습니다.
본문
텍스트 형식. 이것이 기본값입니다.
HTML
HTML 형식. 권장되지 않습니다.
XML
XML 형식. 가장 많은 정보를 제공합니다.
태그
"태그가 지정된 PDF" 형식. 태그가 지정된 PDF에는 HTML과 유사한 주석이 달린 자체 콘텐츠가 있습니다.
태그. pdf2txt 텍스트를 추론하는 대신 콘텐츠 스트림을 추출하려고 합니다.
위치. 여기에 사용된 태그는 PDF 참조, 여섯 번째 Edition[1]
(§10.7 "태그가 지정된 PDF").
-D 쓰기 모드
텍스트 출력의 쓰기 모드를 지정합니다.
lr-tb
왼쪽에서 오른쪽으로, 위에서 아래로.
TB-RL
위에서 아래로, 오른쪽에서 왼쪽으로.
자동
자동으로 쓰기 모드 결정
-M 문자 여백, -L 줄 여백, -W 단어 여백
레이아웃 분석에 사용되는 매개변수입니다. 실제 PDF 파일에서 텍스트
부분은 실행 도중에 여러 청크로 분할될 수 있습니다.
저작 소프트웨어. 따라서 텍스트 추출은 텍스트 청크를 연결해야 합니다. 에서
아래 그림에서 거리가 문자 여백 is
연속적인 것으로 간주되어 하나로 그룹화됩니다. 또한 거리가 다음과 같은 두 선
보다 가까운 줄 여백 사각형 영역인 텍스트 상자로 그룹화됩니다.
텍스트 부분의 "클러스터"를 포함합니다. 또한 공백을 삽입해야 할 수도 있습니다.
두 단어 사이의 거리가
단어 여백, 단어 사이의 공백은 공백으로 표시되지 않을 수 있지만
각 단어의 위치로 표시됩니다.
각 값은 실제 길이가 아니라 길이에 대한 비율로 지정됩니다.
문제의 각 문자의 크기. 기본값은 문자 여백 = 1.0,
줄 여백 = 0.3 및 W = 0.2각각.
-n
레이아웃 분석을 억제합니다.
-A
그림에 포함된 텍스트를 포함하여 모든 텍스트 문자열에 대한 레이아웃 분석을 강제 실행합니다.
-V
세로 쓰기 감지를 활성화합니다.
-s 규모
출력 배율을 지정합니다. 이 옵션은 HTML 형식에서만 사용할 수 있습니다.
-m n
추출할 최대 페이지 수를 지정합니다. 기본적으로 a의 모든 페이지는
문서가 추출됩니다.
-P 암호
PDF 콘텐츠에 액세스하기 위한 사용자 암호를 제공합니다.
-d
디버그 수준을 높입니다.
사용 예
파일 이름이 output.html인 HTML 파일로 텍스트를 추출합니다.
$ pdf2txt -o output.html 샘플/naacl06-shinyama.pdf
세로 쓰기로 일본어 HTML 파일 추출:
$ pdf2txt -c euc-jp -D tb-rl -o output.html 샘플/jo.pdf
암호화된 PDF 파일에서 텍스트 추출:
$ pdf2txt -P mypassword -o 출력.txt secret.pdf
onworks.net 서비스를 사용하여 온라인에서 pdf2txt 사용