Это команда tagsoup, которую можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
tagsoup - преобразование неприятного, уродливого HTML в чистый XHTML
СИНТАКСИС
Ява -банка /usr/share/java/tagsoup.jar [ кредита ] [ файлов ]
ОПИСАНИЕ
Преобразуйте произвольный HTML в чистый XHTML, используя адаптированное описание HTML. Выход
будет правильно сформированный XML, но не обязательно действительный XHTML.
--файлы
множественный ввод файлов должны быть преобразованы в соответствующие выходные файлы
--encoding =кодирование
указывает кодировку входных файлов
--output-encoding =кодирование
указывает кодировку вывода (если имя кодировки начинается с `` utf '',
вывод не будет содержать символьных сущностей; в противном случае все символы, отличные от ASCII, будут
представлены как сущности)
--html выводить исправленный HTML, а не XML, опуская объявление XML и любые
объявления пространств имен
--method = html
выводить исправленный HTML, а не XML (закрывающие теги опускаются для пустых элементов и
в элементах скрипта и стиля экранирование символов не выполняется)
--omit-xml-декларация
опустить объявление XML
--лексический
вывод лексических функций (в частности, комментарии и любое объявление DOCTYPE)
--нет подавить пространства имен в выводе
--нобогоны
подавлять неизвестные элементы, отличные от HTML, в выводе
--nodefaults
подавить значения атрибутов по умолчанию
--ноколоны
изменить явные двоеточия в именах элементов и атрибутов на подчеркивания
--norestart
не перезапускайте перезапускаемые элементы
- недостойный
проходить через игнорируемые пробелы (пробелы в содержании только элементов) через SAX
обработчик метода ignorableWhitespace
--любой рассматривать неизвестные элементы, отличные от HTML, как разрешающие любой контент (по умолчанию)
--пустыебогоны
обрабатывать неизвестные элементы, отличные от HTML, как пустые.
--нороотбогоны
не позволять неизвестным элементам, отличным от HTML, быть корневыми элементами
--doctype-system =идентификатор системы
принудительно выводить объявление DOCTYPE с указанным системным идентификатором
--doctype-public =общедоступный идентификатор
принудительно выводить объявление DOCTYPE с указанным общедоступным идентификатором
--standalone = [да | нет]
указать автономный псевдоатрибут в выходном XML-объявлении
--version =версия
указать псевдоатрибут версии в выходном XML-объявлении (не влияет на фактические
версия вывода XML)
--nocdata
обрабатывать элементы CDATA-контента скрипт и стиль как обычные элементы (в основном для
тестирование)
--pyx выводить формат PYX, а не XML (в основном для тестирования)
- пиксин
ввод - HTML в формате PYX (в основном для тестирования)
- повторное использование
повторно использовать один и тот же объект Parser для внутренних целей (только для тестирования)
--Помогите вывести базовую справку
--версия
номер версии вывода
ТегСуп - это синтаксический анализатор и преобразователь для неприятного, уродливого HTML. Его нормальный режим обработки
принимать файлы HTML в командной строке или из стандартного ввода, если они не указаны,
и вывести их как чистый XML на стандартный вывод. Кодировка предполагается
локальная для платформы кодировка на входе и всегда UTF-8 на выходе.
Когда --файлы задана опция, каждый входной файл преобразуется в выходной файл
соответствующее имя с расширением, измененным на xhtml. Если расширение уже есть
xhtml, он изменен на xhtml_.
TagSoup исправит любыми необходимыми средствами нарушения корректности XML. В
в частности, он исправит искаженные имена атрибутов и предоставит отсутствующее значение атрибута
кавычки. Что еще более важно, он предоставляет конечные теги там, где это позволяет HTML.
опущено, а иногда и там, где его нет. Там, где это необходимо, он даже предоставит начальные теги;
например, если документ начинается с тег, TagSoup автоматически добавит к нему префикс
с участием .
Используйте tagsoup в Интернете с помощью сервисов onworks.net