Это средство проверки ссылок команд, которое можно запустить в бесплатном хостинг-провайдере OnWorks, используя одну из наших многочисленных бесплатных онлайн-рабочих станций, таких как Ubuntu Online, Fedora Online, онлайн-эмулятор Windows или онлайн-эмулятор MAC OS.
ПРОГРАММА:
ИМЯ
linkchecker - клиент командной строки для проверки HTML-документов и веб-сайтов на наличие битых ссылок
СИНТАКСИС
Linkchecker [кредита] [файл или URL] ...
ОПИСАНИЕ
Возможности LinkChecker
· Рекурсивная и многопоточная проверка,
· Вывод в цветном или обычном тексте, HTML, SQL, CSV, XML или графике карты сайта в
разные форматы,
· Поддержка HTTP / 1.1, HTTPS, FTP, mailto :, news :, nntp :, Telnet и локальных файлов
ссылки,
· Ограничение проверки ссылок с помощью URL-фильтров,
· Поддержка прокси,
· Авторизация по имени пользователя / паролю для HTTP, FTP и Telnet,
· Поддержка протокола исключения robots.txt,
· Поддержка файлов cookie
· Поддержка HTML5
· Проверка синтаксиса HTML и CSS
· Проверка антивируса
· Командная строка, графический интерфейс и веб-интерфейс
ПРИМЕРЫ
Чаще всего используется рекурсивная проверка данного домена:
Linkchecker http://www.example.com/
Помните, что при этом проверяется весь сайт, который может иметь тысячи URL-адресов. Использовать -r
возможность ограничить глубину рекурсии.
Не проверяйте URL-адреса с помощью / секрет в его имени. Все остальные ссылки проверяются как обычно:
Linkchecker --ignore-url = / секрет mysite.example.com
Проверка локального HTML-файла в Unix:
Linkchecker ../bla.html
Проверка локального HTML-файла в Windows:
Linkchecker c: \ temp \ test.html
Вы можете пропустить http:// часть URL, если домен начинается с www.:
Linkchecker www.example.com
Вы можете пропустить FTP: // часть URL, если домен начинается с фтп.:
Linkchecker -R0 ftp.example.com
Создайте граф карты сайта и преобразуйте его с помощью утилиты graphviz dot:
Linkchecker -точка -v www.example.com | dot -Тпс > карта сайта.ps
ДОПОЛНИТЕЛЬНЫЕ ОПЦИИ
Общие кредита
-fИМЯ ФАЙЛА, --config =ИМЯ ФАЙЛА
Используйте ИМЯ ФАЙЛА как файл конфигурации. По умолчанию LinkChecker использует
~ / .linkchecker / linkcheckerrc.
-h, --Помогите
Помоги мне! Распечатайте информацию об использовании этой программы.
--стдин
Прочтите список URL-адресов, разделенных пробелами, для проверки из стандартного ввода.
-tНОМЕР, --threads =НОМЕР
Сгенерировать не более заданного количества потоков. Количество потоков по умолчанию
100. Чтобы отключить потоки, укажите неположительное число.
-V, --версия
Версия для печати и выход.
--list-плагины
Распечатайте доступные плагины проверки и выйдите.
Результат кредита
-DSTRING, --debug =STRING
Распечатать отладочную информацию для данного регистратора. Доступные регистраторы: командная строка,
контроль, кэш, графический интерфейс пользователя, DNS и ВСЕ. Указание ВСЕ это псевдоним для указания всех
доступные регистраторы. Параметр может быть задан несколько раз для отладки с более чем
один регистратор. Для получения точных результатов многопоточность будет отключена во время отладки.
-FТИП[/КОДИРОВАНИЕ][/ИМЯ ФАЙЛА], --file-output =ТИП[/КОДИРОВАНИЕ][/ИМЯ ФАЙЛА]
Вывод в файл ссылкаchecker-out.ТИП, $ HOME / .linkchecker / черный список для черный список
вывод, или ИМЯ ФАЙЛА если указано. В КОДИРОВАНИЕ определяет кодировку вывода,
по умолчанию используется ваш регион. Допустимые кодировки перечислены в
http://docs.python.org/library/codecs.html# стандартные кодировки.
" ИМЯ ФАЙЛА и КОДИРОВАНИЕ части нет тип вывода будет проигнорирован, иначе если
файл уже существует, он будет перезаписан. Вы можете указать эту опцию подробнее
чем однажды. Допустимые типы вывода файлов: текст, HTML, SQL, CSV, GML, dot, XML,
Карта сайта, нет or черный список. По умолчанию файл не выводится. Различные типы вывода
документированы ниже. Обратите внимание, что вы можете подавить весь вывод консоли с помощью параметра
-o нет.
--нет положения
Не печатать сообщения о статусе чеков.
- без предупреждений
Не регистрируйте предупреждения. По умолчанию предупреждения регистрируются.
-oТИП[/КОДИРОВАНИЕ], --output =ТИП[/КОДИРОВАНИЕ]
Укажите тип вывода как текст, HTML, SQL, CSV, GML, dot, XML, Карта сайта, нет or
черный список. Тип по умолчанию текст. Ниже описаны различные типы вывода.
" КОДИРОВАНИЕ указывает кодировку вывода, по умолчанию используется ваша локаль.
Допустимые кодировки перечислены в http://docs.python.org/library/codecs.html# стандарт-
кодировок.
-q, --тихий
Тихая работа, псевдоним для -o нет. Это полезно только с -F.
-v, --подробный
Зарегистрируйте все проверенные URL-адреса. По умолчанию регистрируются только ошибки и предупреждения.
-WРЕГЭКС, --warning-regex =РЕГЭКС
Определите регулярное выражение, которое выводит предупреждение, если оно соответствует любому содержимому
проверил ссылку. Это относится только к действующим страницам, поэтому мы можем получить их содержимое.
Используйте это для проверки страниц, содержащих ошибки в той или иной форме, например «Эта страница
перемещен "или" Ошибка приложения Oracle ".
Обратите внимание, что в регулярном выражении можно комбинировать несколько значений, например
"(Эта страница перемещена | Ошибка приложения Oracle)".
Смотрите раздел ОЧЕРЕДНАЯ ВЫРАЖЕНИЯ для дополнительной информации.
Контроль кредита
--cookiefile =ИМЯ ФАЙЛА
Прочтите файл с исходными данными cookie. Формат данных cookie поясняется ниже.
--check-extern
Проверьте внешние URL-адреса.
--ignore-url =РЕГЭКС
URL-адреса, соответствующие данному регулярному выражению, будут игнорироваться и не проверяться.
Этот вариант можно давать несколько раз.
Смотрите раздел ОЧЕРЕДНАЯ ВЫРАЖЕНИЯ для дополнительной информации.
-NSTRING, --nntp-server =STRING
Укажите сервер NNTP для Новости: ссылки. По умолчанию - это переменная среды.
NNTP_СЕРВЕР. Если хост не указан, проверяется только синтаксис ссылки.
--no-follow-url =РЕГЭКС
Проверяйте, но не переходите к URL-адресам, соответствующим заданному регулярному выражению.
Этот вариант можно давать несколько раз.
Смотрите раздел ОЧЕРЕДНАЯ ВЫРАЖЕНИЯ для дополнительной информации.
-p, --пароль
Считайте пароль с консоли и используйте его для авторизации HTTP и FTP. Для FTP
пароль по умолчанию анонимный @. Для HTTP нет пароля по умолчанию. Смотрите также
-u.
-rНОМЕР, --recursion-level =НОМЕР
Рекурсивно проверять все ссылки до заданной глубины. Отрицательная глубина позволит
бесконечная рекурсия. Глубина по умолчанию бесконечна.
--timeout =НОМЕР
Установите время ожидания для попыток подключения в секундах. Тайм-аут по умолчанию - 60.
секунд.
-uSTRING, --user =STRING
Попробуйте использовать данное имя пользователя для авторизации HTTP и FTP. Для FTP по умолчанию
имя пользователя анонимный. Для HTTP нет имени пользователя по умолчанию. Смотрите также -p.
--user-agent =STRING
Укажите строку User-Agent для отправки на HTTP-сервер, например
«Mozilla / 4.0». По умолчанию используется LinkChecker / XY, где XY - текущая версия
Проверка ссылок.
КОНФИГУРАЦИЯ FILES
В файлах конфигурации можно указать все указанные выше параметры. Они также могут указать некоторые параметры, которые
не может быть установлен в командной строке. Видеть ссылкаcheckerrc(5) для получения дополнительной информации.
ВЫВОД ВИДЫ
Обратите внимание, что по умолчанию регистрируются только ошибки и предупреждения. Вы должны использовать --подробный
возможность получить полный список URL-адресов, особенно при выводе формата графика карты сайта.
текст Стандартный текстовый регистратор, регистрирующий URL-адреса в режиме ключевое слово: аргумент.
HTML Записывать URL-адреса в виде ключевого слова: аргумент в формате HTML. Дополнительно есть ссылки
на указанные страницы. Недействительные URL-адреса содержат ссылки для проверки синтаксиса HTML и CSS.
прилагается.
CSV Результат проверки журнала в формате CSV с одним URL-адресом в строке.
GML Регистрируйте родительско-дочерние отношения между связанными URL-адресами в виде графа карты сайта GML.
dot Регистрируйте родительско-дочерние отношения между связанными URL-адресами в виде диаграммы карты сайта DOT.
gxml Зарегистрируйте результат проверки в виде графика карты сайта GraphXML.
XML Зарегистрируйте результат проверки в виде машиночитаемого XML.
Карта сайта
Результат проверки журнала в виде XML-карты сайта, протокол которой задокументирован на
http://www.sitemaps.org/protocol.html.
SQL Зарегистрируйте результат проверки как сценарий SQL с командами INSERT. Пример сценария для создания
исходная таблица SQL включена как create.sql.
черный список
Подходит для работы cron. Записывает результат проверки в файл ~ / .linkchecker / черный список
который содержит только записи с недопустимыми URL-адресами и количество раз, когда они
не смогли.
нет Ничего не регистрирует. Подходит для отладки или проверки кода выхода.
ОЧЕРЕДНАЯ ВЫРАЖЕНИЯ
LinkChecker принимает регулярные выражения Python. Видеть http://docs.python.org/
howto / regex.html для введения.
Кроме того, начальный восклицательный знак отменяет регулярное выражение.
ПЕЧЕНЬЕ FILES
Файл cookie содержит данные стандартного HTTP-заголовка (RFC 2616) со следующими возможными
имена:
Хозяин (обязательный)
Устанавливает домен, для которого действительны файлы cookie.
Тропа (опционально)
Указывает путь, для которого используются файлы cookie; путь по умолчанию /.
Сет-печенье (обязательный)
Установите имя / значение cookie. Можно давать более одного раза.
Несколько записей разделяются пустой строкой. В приведенном ниже примере будут отправлены два файла cookie.
ко всем URL-адресам, начинающимся с http://example.com/hello/ и один для всех URL, начинающихся с
https://example.org/:
Хост: example.com
Путь: / привет
Set-cookie: ID = "smee"
Set-cookie: spam = "яйцо"
Хост: example.org
Set-cookie: baggage = "elitist"; comment = "голограмма"
PROXY ПОДДЕРЖКA
Чтобы использовать прокси в Unix или Windows, установите $ http_proxy, $ https_proxy или $ ftp_proxy.
переменные среды в URL-адрес прокси. URL-адрес должен иметь вид
http://[пользователь:pass@]кашель[:порт]. LinkChecker также обнаруживает ручные настройки прокси для
Internet Explorer в системах Windows и gconf или KDE в системах Linux. На Mac используйте
Конфигурация Интернета для выбора прокси. Вы также можете установить список доменов, разделенных запятыми, в
переменные среды $ no_proxy, чтобы игнорировать любые настройки прокси для этих доменов.
Например, установка HTTP-прокси в Unix выглядит так:
экспорт http_proxy = "http://proxy.example.com: 8080 дюйма
Также поддерживается проверка подлинности прокси:
экспорт http_proxy = "http://user1:[электронная почта защищена]: 8081 дюйма
Настройка прокси в командной строке Windows:
установить http_proxy =http://proxy.example.com: 8080
ВЫПОЛНЕННЫЙ ПРОВЕРКИ
Все URL-адреса должны пройти предварительную проверку синтаксиса. Незначительные ошибки при цитировании вызовут
предупреждение, все другие недопустимые синтаксические проблемы являются ошибками. После прохождения проверки синтаксиса
URL поставлен в очередь на проверку соединения. Все типы проверки подключения описаны ниже.
HTTP-ссылки (HTTP:, HTTPS:)
После подключения к данному HTTP-серверу запрашивается указанный путь или запрос. Все
перенаправления выполняются, и если указан пользователь / пароль, он будет использоваться как
авторизация при необходимости. Все окончательные коды состояния HTTP, кроме 2xx, являются
ошибки. Содержимое HTML-страницы проверяется на рекурсию.
Локальные файлы (файл:)
Обычный читаемый файл, который можно открыть, является допустимым. Читаемый каталог также
действительный. Все остальные файлы, например файлы устройств, нечитаемые или несуществующие файлы.
это ошибки. HTML или другое содержимое анализируемого файла проверяется на рекурсию.
Почтовые ссылки (MAILTO:)
Ссылка mailto: в конечном итоге преобразуется в список адресов электронной почты. Если один адрес
терпит неудачу, весь список потерпит неудачу. Для каждого почтового адреса мы проверяем следующее
вещи:
1) Проверьте синтаксис адреса, как до, так и после
знак.
2) Найдите записи MX DNS. Если мы не нашли записи MX,
распечатать ошибку.
3) Проверьте, принимает ли один из почтовых хостов соединение SMTP.
Сначала проверьте хосты с более высоким приоритетом.
Если ни один хост не принимает SMTP, мы выводим предупреждение.
4) Попробуйте проверить адрес с помощью команды VRFY. Если бы мы получили
ответ, выведите подтвержденный адрес в качестве информации.
Ссылки FTP (FTP:)
Для FTP-ссылок мы делаем:
1) подключиться к указанному хосту
2) попробуйте войти в систему с указанным пользователем и паролем. По умолчанию
пользователь - anonymous, пароль по умолчанию - anonymous @.
3) попробуйте перейти в указанный каталог
4) перечислите файл с помощью команды NLST
Ссылки Telnet (`` telnet: '')
Мы пытаемся подключиться и, если указан пользователь / пароль, авторизуемся в
дан telnet сервер.
Ссылки NNTP (`news:`, `snews:`, `nntp`)
Пробуем подключиться к данному серверу NNTP. Если группа новостей или
статья указана, попробуйте запросить ее с сервера.
Неподдерживаемые ссылки (`` javascript: '' и т. Д.)
Неподдерживаемая ссылка выводит только предупреждение. Никаких дополнительных проверок
будет сделано.
Полный список распознанных, но неподдерживаемых ссылок можно найти
в linkcheck / checker / unknownurl.py исходный файл.
Наиболее заметными из них должны быть ссылки JavaScript.
PLUGINS
Есть два типа плагинов: подключаемые и контентные. Плагины подключения запущены
после успешного подключения к хосту URL. Плагины содержимого запускаются, если тип URL
имеет содержимое (например, mailto: URL-адреса не содержат содержимого), и если проверка не запрещена
(например, HTTP robots.txt). Видеть Linkchecker --list-плагины для списка плагинов и их
документация. Все плагины включаются через ссылкаcheckerrc(5) файл конфигурации.
RECURSION
Прежде чем рекурсивно перейти к URL-адресу, он должен выполнить несколько условий. Они есть
проверяется в таком порядке:
1. URL-адрес должен быть действительным.
2. URL-адрес должен поддаваться синтаксическому анализу. В настоящее время сюда входят файлы HTML,
Opera закладки файлов и каталогов. Если тип файла не может
быть определенным (например, у него нет общего HTML-файла
расширение, и содержимое не похоже на HTML), предполагается
быть неразборчивым.
3. Содержимое URL-адреса должно быть доступным. Обычно это так
кроме, например, mailto: или неизвестных типов URL.
4. Максимальный уровень рекурсии не должен быть превышен. Настроен
с - уровень рекурсии вариант и по умолчанию не ограничен.
5. Он не должен соответствовать списку игнорируемых URL-адресов. Это контролируется
--игнорировать-url опцию.
6. Протокол исключения роботов должен разрешать ссылки в URL-адресе.
следуют рекурсивно. Это проверяется поиском
Директива nofollow в данных заголовка HTML.
Обратите внимание, что рекурсия каталога считывает все файлы в этом каталоге, а не только подмножество
" У аборигенов index.htm *.
ПРИМЕЧАНИЯ
URL-адреса в командной строке, начинающиеся с фтп. рассматриваются как ftp: // ftp., URL-адреса, начинающиеся с
www. рассматриваются как http://www.. Вы также можете указать в качестве аргументов локальные файлы.
Если ваша система настроена на автоматическое подключение к Интернету
(например, с diald), он будет подключаться при проверке ссылок, не указывающих на ваш локальный хост.
Использовать --игнорировать-url возможность предотвратить это.
Ссылки Javascript не поддерживаются.
Если ваша платформа не поддерживает многопоточность, LinkChecker автоматически отключает ее.
Вы можете указать несколько пар пользователь / пароль в файле конфигурации.
При проверке Новости: связывает данный хост NNTP не обязательно должен совпадать с хостом
пользователь просматривает ваши страницы.
ОКРУЖАЮЩАЯ СРЕДА
NNTP_СЕРВЕР - указывает сервер NNTP по умолчанию
http_proxy - указывает прокси-сервер HTTP по умолчанию
ftp_proxy - указывает прокси-сервер FTP по умолчанию
нет_прокси - разделенный запятыми список доменов, к которым нельзя связываться через прокси-сервер
LC_MESSAGES, ДЛИННЫЙ, АНГЛИЙСКИЙ ЯЗЫК - указать язык вывода
ВЕРНУТЬ VALUE
Возвращаемое значение - 2, когда
· Произошла программная ошибка.
Возвращаемое значение - 1, когда
· Обнаружены недействительные ссылки или
· Обнаружены предупреждения о ссылках и включены предупреждения
В противном случае возвращаемое значение равно нулю.
ОГРАНИЧЕНИЯ
LinkChecker использует память для проверки каждого URL в очереди. С тысячами URL-адресов в очереди
объем потребляемой памяти может стать довольно большим. Это может замедлить работу программы или
даже вся система.
Используйте Linkchecker онлайн с помощью сервисов onworks.net