Il s'agit de la commande checkbotp qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
Checkbot - Vérificateur de lien WWW
SYNOPSIS
robot de contrôle [--biscuits] [--déboguer] [--déposer nom de fichier] [--Aidez-moi]
[--mailto adresses mail] [--pas de proxy liste des domaines]
[--verbeux]
[--url URL de démarrage]
[--rencontre chaîne de correspondance] [--exclure chaîne d'exclusion]
[--Procuration URL proxy] [--interne-seulement]
[--ignorer ignorer la chaîne]
[--filtre expression régulière de substitution]
[--style URL du fichier de style]
[--Remarque Remarque] [--dormir secondes] [--temps libre temps libre]
[--intervalle secondes] [--ne pas avertir Codes de réponse HTTP]
[--enable-virtuel]
[--Langue code langue]
[--réprimer fichier de suppression]
[URL de démarrage]
DESCRIPTION
Checkbot vérifie les liens dans une partie spécifique du World Wide Web. Il crée du HTML
pages avec diagnostic.
Checkbot utilise LWP pour trouver les URL sur les pages et les vérifier. Il supporte les mêmes schémas que
LWP le fait et trouve les mêmes liens que HTML::LinkExtor trouvera.
Checkbot considère les liens comme « internes » ou « externes ». Les liens internes sont des liens
dans l'espace Web qui doit être vérifié. Si un lien interne pointe vers un site Web
document ce document est récupéré, et ses liens sont extraits et traités. Externe
les liens ne sont vérifiés que pour fonctionner. Checkbot vérifie les liens au fur et à mesure qu'il les trouve, donc internes
et les liens externes sont vérifiés en même temps, même s'ils sont traités différemment.
Les options pour Checkbot sont :
--biscuits
Acceptez les cookies du serveur et proposez-les à nouveau lors de demandes ultérieures. Cela peut être
utile pour les serveurs qui utilisent des cookies pour gérer les sessions. Par défaut, Checkbot ne
accepter tous les cookies.
--déboguer
Activer le mode de débogage. Plus vraiment pris en charge, mais il conservera certains fichiers
autour de cela, sinon serait supprimé.
--déposer
Utiliser le fichier filet prénom comme base pour les noms de fichiers récapitulatifs. La page de résumé sera
obtenir le filet prénom donné, et les pages du serveur sont basées sur le filet prénom sans
extension .html. Par exemple, définir cette option sur "index.html" créera un
page de résumé appelée index.html et pages de serveur appelées index-server1.html et
index-server2.html.
La valeur par défaut de cette option est "checkbot.html".
--Aidez-moi
Affiche un bref message d'aide sur la sortie standard.
--mailto [, ]
Envoyez un courrier au email propos lorsque Checkbot a terminé la vérification. Vous pouvez donner plus que
une adresse séparée par des virgules. L'e-mail de notification comprend un petit résumé de
les résultats. À partir de Checkbot 1.76, l'e-mail n'est envoyé que si des problèmes ont été détectés pendant
la course Checkbot.
--noproxy
Ne pas transmettre de requêtes aux domaines donnés. La liste des domaines doit être une virgule
liste séparée. Par exemple, évitez donc d'utiliser le proxy pour le localhost et
unserveur.xyz, vous pouvez utiliser "--noproxy localhost,unserveur.xyz".
--verbeux
Afficher la sortie détaillée pendant l'exécution. Comprend tous les liens vérifiés, les résultats de la
chèques, etc...
--url
Définissez l'URL de démarrage. Checkbot commence à vérifier à cette URL, puis vérifie de manière récursive
tous les liens trouvés sur cette page. L'URL de démarrage a priorité sur les URL supplémentaires
spécifié sur la ligne de commande.
Si aucun schéma n'est spécifié pour l'URL, le protocole de fichier est utilisé.
--rencontre
Cette option sélectionne les pages que Checkbot considère comme locales. Si la rencontre un magnifique is
contenu dans l'URL, Checkbot considère la page comme locale, la récupère et
vérifiera tous les liens qu'il contient. Sinon la page est considérée comme externe
et il n'est vérifié qu'avec une requête HEAD.
Si non explicite rencontre un magnifique est donnée, les URL de départ (Voir l'option "--url") seront utilisées
comme chaîne de correspondance à la place. Dans ce cas, le nom de la dernière page, le cas échéant, sera coupé.
Par exemple, une URL de démarrage comme "http://some.site/index.html" entraînera un défaut
rencontre un magnifique des "http://some.site/".
Le rencontre un magnifique peut être une expression régulière perl. Par exemple, pour vérifier le principal
la page du serveur et toutes les pages HTML directement en dessous, mais pas les pages HTML dans le
sous-répertoires du serveur, le rencontre un magnifique serait
"www.unserveur.xyz/($|[^/]+.html)".
--exclure
URL correspondant au exclure un magnifique sont considérés comme externes, même s'il leur arrive
correspond à rencontre un magnifique (Voir l'option "--match"). Les URL correspondant à la chaîne --exclude sont
toujours en cours de vérification et sera signalé si des problèmes sont détectés, mais ils ne seront pas
vérifié pour d'autres liens dans le site.
Le exclure un magnifique peut être une expression régulière perl. Par exemple, pour considérer toutes les URL
avec une chaîne de requête externe, utilisez "[=\?]". Cela peut être utile lorsqu'une URL avec une requête
string déverrouille le chemin vers une énorme base de données qui sera vérifiée.
--filtre
Cette option définit un une fonction filtre un magnifique, qui est une expression régulière perl. Ce filtre
est exécuté sur chaque URL trouvée, réécrivant ainsi l'URL avant qu'elle n'entre dans la file d'attente pour être
vérifié. Il peut être utilisé pour supprimer des éléments d'une URL. Cette option peut être utile lorsque
les liens symboliques pointent vers le même répertoire, ou lorsqu'un système de gestion de contenu ajoute
ID de session en URL.
Par exemple, "/ancien/nouveau/" remplacerait les occurrences de "ancien" par "nouveau" dans chaque URL.
--ignorer
URL correspondant au ignorer un magnifique ne sont pas du tout vérifiés, ils sont complètement ignorés par
Checkbot. Cela peut être utile pour ignorer les liens problématiques connus ou pour ignorer les liens menant
dans des bases de données. Les ignorer un magnifique est apparié après le une fonction filtre un magnifique a été appliqué.
Le ignorer un magnifique peut être une expression régulière perl.
Par exemple, "www.server.com\/(one|two)" correspondrait à toutes les URL commençant par
www.server.com/one ou www.server.com/two.
--Procuration
Cet attribut spécifie l'URL d'un serveur proxy. Seules les requêtes HTTP et FTP
sera envoyé à ce serveur proxy.
--interne-seulement
Ignorez la vérification des liens externes à la fin de l'exécution de Checkbot. Correspondance uniquement
les liens sont vérifiés. Notez que certaines redirections peuvent toujours entraîner la création de liens externes
vérifié.
--Remarque
Le noter est inclus textuellement dans le message électronique (Voir l'option "--mailto"). Cela peut être
utile d'inclure l'URL de la page HTML de résumé pour une référence facile, par exemple.
Significatif uniquement en combinaison avec l'option "--mailto".
--dormir
nombre de secondes dormir entre les demandes. La valeur par défaut est 0 seconde, c'est-à-dire ne
dormir du tout entre les demandes. Le réglage de cette option peut être utile pour maintenir la charge sur
le serveur Web en panne pendant l'exécution de Checkbot. Cette option peut également être définie sur un
nombre fractionnaire, c'est-à-dire qu'une valeur de 0.1 dormira un dixième de seconde entre
demandes.
--temps libre
Délai d'expiration par défaut pour les demandes, spécifié en secondes. La valeur par défaut est de 2 minutes.
--intervalle
L'intervalle maximum entre les mises à jour des pages Web de résultats en secondes. La valeur par défaut est 3
heures (10800 secondes). Checkbot commencera l'intervalle à une minute, et progressivement
l'étendre vers l'intervalle maximum.
--style
Lorsque cette option est utilisée, Checkbot intègre cette URL en tant que lien vers un fichier de style sur chaque
page qu'il écrit. Cela permet de personnaliser facilement la mise en page des pages générées par
Bot de contrôle.
--ne pas avertir
N'incluez pas d'avertissements sur les pages de résultats pour les codes de réponse HTTP qui correspondent
l'expression régulière. Par exemple, --dontwarn "(301|404)" n'inclurait pas 301 et
404 codes de réponse.
Checkbot utilise les codes de réponse générés par le serveur, même si ce code de réponse
n'est pas défini dans la RFC 2616 (HTTP/1.1). En plus du code de réponse HTTP normal,
Checkbot définit quelques codes de réponse pour des situations qui ne sont pas techniquement
problème, mais qui pose de toute façon des problèmes dans de nombreux cas. Ces codes sont :
901 Nom d'hôte attendu mais introuvable
Dans ce cas, l'URL prend en charge un nom d'hôte, mais aucun n'a été trouvé
dans l'URL. Cela indique généralement une erreur dans l'URL. Un
l'exception est que cette vérification n'est pas appliquée aux nouvelles : URL.
902 Nom d'hôte non qualifié trouvé
Dans ce cas, le nom d'hôte ne contient pas la partie domaine.
Cela signifie généralement que les pages fonctionnent correctement lorsqu'elles sont affichées dans
le domaine d'origine, mais pas lorsqu'il est vu de l'extérieur.
903 Double barre oblique dans le chemin de l'URL
L'URL contient une double barre oblique. C'est légal, mais certains sites Web
les serveurs ne peuvent pas très bien le gérer et peuvent faire en sorte que Checkbot
fuyez. Voir aussi les commentaires ci-dessous.
904 Schéma inconnu dans l'URL
L'URL commence par un schéma que Checkbot ne connaît pas
À propos. Cela est souvent causé par une erreur de frappe dans le schéma de l'URL,
mais le régime peut aussi être légal. Dans ce cas, veuillez laisser
je sais pour qu'il puisse être ajouté à Checkbot.
--enable-virtuel
Cette option permet de traiter avec des serveurs virtuels. Checkbot suppose alors que tous
les noms d'hôtes des serveurs internes sont uniques, même si leurs adresses IP peuvent être les
même. Normalement, Checkbot utilise l'adresse IP pour distinguer les serveurs. Cela a le
avantage que si un serveur a deux noms (par exemple www et embobine) ses pages n'obtiennent que
vérifié une fois. Lorsque vous souhaitez vérifier plusieurs serveurs virtuels, cela pose des problèmes,
que cette fonctionnalité contourne en utilisant le nom d'hôte pour distinguer le serveur.
--Langue
L'argument de cette option est un code de langue à deux lettres. Checkbot utilisera le langage
négociation pour demander des fichiers dans cette langue. La valeur par défaut est de demander l'anglais
langue (code de langue 'en').
--réprimer
L'argument de cette option est un fichier qui contient des combinaisons de codes d'erreur et
URL pour lesquelles supprimer les avertissements. Cela peut être utilisé pour éviter de signaler des cas connus et
erreurs ou avertissements d'URL non réparables.
Le format du fichier de suppression est un simple format délimité par des espaces, d'abord
répertoriant le code d'erreur suivi de l'URL. Chaque combinaison de code d'erreur et d'URL est
inscrit sur une nouvelle ligne. Des commentaires peuvent être ajoutés au fichier en commençant la ligne par un
"#" personnage.
# 301 Déménagé Définitivement
301 http://www.w3.org/P3P
# 403 Interdit
403 http://www.herring.com/
Pour plus de flexibilité, une expression régulière peut être utilisée à la place d'une URL normale. Les
l'expression régulière doit être entourée de barres obliques. Par exemple, pour supprimer tout
403 erreurs sur wikipédia :
403 /http:\/\/wikipedia.org\/.*/
Options obsolètes qui disparaîtront dans une future version :
--allow-simple-hosts (obsolète)
Cette option désactive les avertissements concernant les URL contenant des noms d'hôte non qualifiés. Cette
est utile pour les sites intranet qui utilisent souvent un simple nom d'hôte ou même
"localhost" dans leurs liens.
L'utilisation de cette option est déconseillée. Veuillez utiliser le mécanisme --dontwarn pour l'erreur 902
à la place.
ASTUCES ET CONSEILS
Problèmes de vérification des liens FTP
Certains utilisateurs peuvent rencontrer des problèmes récurrents lors de la vérification des liens FTP. Dans ces cas
il peut être utile de demander à Net::FTP d'utiliser le mode FTP passif pour vérifier les fichiers. Ceci peut
être fait en définissant la variable d'environnement FTP_PASSIVE à 1. Par exemple, en utilisant le
shell bash : "FTP_PASSIVE=1 checkbot ...". Voir la documentation Net::FTP pour plus d'informations
détails.
Checkbot en fuite
Dans certains cas, Checkbot prend littéralement une éternité à terminer. Il y a deux causes communes
pour ce problème.
Premièrement, il peut y avoir une application de base de données dans le site Web qui génère un
nouvelle page basée sur des liens sur une autre page. Puisque Checkbot essaie de voyager à travers tous
liens cela créera un nombre infini de pages. Ce genre d'effet d'emballement est
généralement prévisible. Cela peut être évité en utilisant l'option --exclude.
Deuxièmement, un problème de configuration du serveur peut provoquer une boucle dans la génération d'URL pour les pages
ça n'existe pas vraiment. Cela se traduira par des URL de la forme
http://some.server/images/images/images/logo.png, avec toujours plus d'"images" incluses.
Checkbot ne peut pas vérifier cela car le serveur aurait dû indiquer que le
les pages demandées n'existent pas. Il n'y a pas de moyen facile de résoudre ce problème autre que de réparer le
serveur Web incriminé ou les liens rompus.
Problèmes avec les liens https://
Le message d'erreur
Impossible de localiser la méthode d'objet "new" via le package "LWP::Protocol::https::Socket"
signifie généralement que l'installation actuelle de LWP ne prend pas en charge la vérification de SSL
liens (c'est-à-dire des liens commençant par https://). Ce problème peut être résolu en installant
le module Crypt::SSLeay.
EXEMPLES
L'utilisation la plus simple de Checkbot est de vérifier un ensemble de pages sur un serveur. Pour vérifier mon
pages de checkbot que j'utiliserais :
robot-vérificateur http://degraaff.org/checkbot/
Les exécutions de Checkbot peuvent prendre un certain temps, Checkbot peut donc envoyer un e-mail de notification lorsque l'exécution est
terminé:
robot de contrôle --mailto [email protected] http://degraaff.org/checkbot/
Il est possible de vérifier un ensemble de fichiers locaux sans utiliser de serveur Web. Cela ne fonctionne que
pour les fichiers statiques mais peut être utile dans certains cas.
fichier checkbot:///var/www/documents/
CONDITIONS PRÉALABLES
Ce script utilise les modules "LWP".
CORREQUIS
Ce script peut envoyer du courrier lorsque "Mail::Send" est présent.
Utilisez checkbotp en ligne en utilisant les services onworks.net