Đây là lệnh html2text có thể chạy trong nhà cung cấp dịch vụ lưu trữ miễn phí OnWorks bằng cách sử dụng một trong nhiều máy trạm trực tuyến miễn phí của chúng tôi như Ubuntu Online, Fedora Online, trình giả lập trực tuyến Windows hoặc trình giả lập trực tuyến MAC OS
CHƯƠNG TRÌNH:
TÊN
html2text - trình chuyển đổi HTML sang văn bản nâng cao
SYNOPSIS
html2văn bản -Cứu giúp
html2văn bản -phiên bản
html2văn bản [ -sunparse | -kiểm tra ] [ -debug-máy quét ] [ -debug-trình phân tích cú pháp ] [ -rcfile con đường ] [
-Phong cách ( nhỏ gọn | khá )] [ -chiều rộng chiều rộng ] [ -o tập tin đầu ra ] [ -quý tộc ] [ -ascii |
-utf8 ] [ -nometa ] [ tập tin đầu vào ...]
MÔ TẢ
html2văn bản đọc tài liệu HTML từ tập tin đầu vàos, định dạng từng người trong số họ thành một luồng
các ký tự văn bản thuần túy và ghi kết quả vào đầu ra chuẩn (hoặc thành tập tin đầu ra, Nếu
các -o tùy chọn dòng lệnh được sử dụng).
Nếu không tập tin đầu vàos được chỉ định trên dòng lệnh, html2văn bản đọc từ đầu vào chuẩn.
Một dấu gạch ngang như tập tin đầu vào là một cách thay thế để chỉ định đầu vào tiêu chuẩn.
html2văn bản hiểu tất cả các cấu trúc HTML 3.2, nhưng chỉ có thể hiển thị một phần của chúng do
hạn chế của định dạng đầu ra văn bản. Tuy nhiên, chương trình cố gắng cung cấp
thay thế cho các phần tử mà nó không thể hiển thị. html2văn bản phân tích cú pháp đầu vào HTML 4, nhưng
không phải lúc nào cũng thành công như các bộ xử lý HTML khác. Nó cũng chấp nhận cú pháp không chính xác
đầu vào và cố gắng giải thích nó một cách "hợp lý".
Cách html2văn bản định dạng các tài liệu HTML được kiểm soát bởi các thuộc tính định dạng đọc
từ một tệp RC. html2văn bản cố gắng đọc $ HOME / .html2textrc (hoặc tệp được chỉ định bởi
các -rcfile tùy chọn dòng lệnh); nếu tệp đó không thể đọc được, html2văn bản cố gắng đọc
/ etc / html2textrc. Nếu không có tệp RC nào có thể đọc được (hoặc nếu tệp RC không ghi đè tất cả
thuộc tính định dạng), thì mặc định "hợp lý" được giả định. Định dạng tệp RC là
được mô tả trong html2textrc(5) trang hướng dẫn sử dụng.
Phiên bản Debian của html2văn bản cũng có thể thực hiện mã hóa đầu vào và đầu ra (xem
/usr/share/doc/html2text/README.Debian để biết thêm thông tin). html2văn bản cố gắng tìm nạp mã hóa
từ tài liệu HTML. Nếu mã hóa không được chỉ định, bạn có thể sử dụng -ascii và -utf8 tùy chọn.
Đầu ra được chuyển đổi thành bộ ký tự ngôn ngữ của người dùng (LC_CTYPE).
LỰA CHỌN
-nometa
Theo mặc định, phiên bản Debian của html2văn bản sử dụng thẻ 'meta http-equiv' cho đầu vào
giải mã. Tùy chọn này hủy hành vi này.
-ascii Theo mặc định, khi -nometa được cung cấp, html2văn bản sử dụng UTF-8 cho đầu ra.
Chỉ định tùy chọn này, đơn giản ASCII được sử dụng thay thế. Để tìm hiểu cách thức không phải ASCII
các ký tự được hiển thị, hãy tham khảo tệp "ascii.subsilities".
-utf8 Theo mặc định, khi -nometa được cung cấp, html2văn bản sử dụng ISO 8859-1 cho đầu vào.
Chỉ định tùy chọn này, UTF-8 được sử dụng thay thế (cho cả đầu vào và đầu ra). Cái này
tùy chọn ngụ ý -quý tộc.
-kiểm tra Tùy chọn này dành cho mục đích chẩn đoán: Tài liệu HTML chỉ được phân tích cú pháp và không
được xử lý khác. Trong phương thức hoạt động này, html2văn bản sẽ báo cáo về phân tích cú pháp
lỗi và lỗi quét, mà nó không có trong các chế độ hoạt động khác. Lưu ý rằng
lỗi phân tích cú pháp và quét không nghiêm trọng đối với html2văn bản, nhưng có thể gây hiểu sai
mã HTML và / hoặc các phần của tài liệu bị nuốt.
-debug-trình phân tích cú pháp
Hãy liên hệ với html2văn bản báo cáo về việc các mã thông báo được thay đổi, các quy tắc đang được áp dụng, v.v., trong khi
quét tài liệu HTML. Tùy chọn này dành cho mục đích chẩn đoán.
-debug-máy quét
Hãy liên hệ với html2văn bản báo cáo về mỗi mã thông báo từ vựng được quét, trong khi quét HTML
tài liệu. Tùy chọn này dành cho mục đích chẩn đoán.
-Cứu giúp In tóm tắt dòng lệnh và thoát.
-quý tộc Theo mặc định, nguyên bản html2văn bản hiển thị các chữ cái được gạch dưới với các chuỗi như
"underscore-backspace-character" và các chữ cái in đậm như "character-backspace-
ký tự ". Do sự cố với UTF-8, phiên bản Debian của html2văn bản không
tạo ra các không gian ngược, vì vậy tùy chọn này thực sự không có tác dụng gì.
-o tập tin đầu ra
Ghi đầu ra vào tập tin đầu ra thay vì đầu ra tiêu chuẩn. Một dấu gạch ngang như
tập tin đầu ra là một cách thay thế để chỉ định đầu ra tiêu chuẩn.
-rcfile con đường
Cố gắng đọc tệp được chỉ định trong con đường dưới dạng tệp RC.
-Phong cách ( nhỏ gọn | khá )
Phong cách khá thay đổi một số giá trị mặc định của các thông số định dạng
tài liệu trong html2textrc(5). Để tìm hiểu tham số định dạng nào và như thế nào
mặc định được thay đổi, hãy kiểm tra tệp "pretty.style". Nếu tùy chọn này bị bỏ qua,
phong cách nhỏ gọn được giả định là mặc định.
-sunparse
Tùy chọn này dành cho mục đích chẩn đoán: Thay vì định dạng tài liệu được phân tích cú pháp,
tạo mã HTML, được đảm bảo là chính xác về mặt cú pháp. Nếu như html2văn bản
gặp sự cố khi phân tích cú pháp một tài liệu HTML không chính xác về mặt cú pháp, tùy chọn này có thể giúp
bạn hiểu những gì html2văn bản cho rằng mã HTML gốc có nghĩa là.
-phiên bản
In phiên bản chương trình và thoát.
-chiều rộng chiều rộng
Theo mặc định, html2văn bản định dạng các tài liệu HTML cho chiều rộng màn hình là 79
nhân vật. Nếu chuyển hướng đầu ra thành một tệp hoặc nếu thiết bị đầu cuối của bạn có chiều rộng
ngoài 80 ký tự hoặc nếu bạn chỉ muốn biết cách html2văn bản Chương trình khuyến mại
với các bảng lớn và độ rộng đầu cuối khác nhau, bạn có thể muốn chỉ định
khác nhau chiều rộng.
Sử dụng html2text trực tuyến bằng các dịch vụ onworks.net