EnglischFranzösischSpanisch

OnWorks-Favicon

linkchecker - Online in der Cloud

Führen Sie Linkchecker im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehls-Linkchecker, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


Linkchecker – Befehlszeilen-Client zum Überprüfen von HTML-Dokumenten und Websites auf defekte Links

ZUSAMMENFASSUNG


Link-Checker [Optionen] [Datei-oder-URL] ...

BESCHREIBUNG


LinkChecker-Funktionen

· rekursive und Multithread-Prüfung,

· Ausgabe in farbigem oder normalem Text, HTML, SQL, CSV, XML oder einem Sitemap-Diagramm in
verschiedene Formate,

· Unterstützung für HTTP/1.1, HTTPS, FTP, mailto:, news:, nntp:, Telnet und lokale Datei
Links,

· Einschränkung der Linkprüfung mit URL-Filtern,

· Proxy-Unterstützung,

· Benutzername/Passwort-Autorisierung für HTTP, FTP und Telnet,

· Unterstützung für das robots.txt-Ausschlussprotokoll,

· Unterstützung für Cookies

· Unterstützung für HTML5

· HTML- und CSS-Syntaxprüfung

· Antivirenprüfung

· eine Befehlszeile, eine GUI und eine Webschnittstelle

Beispiele:


Die häufigste Verwendung prüft die angegebene Domäne rekursiv:
Link-Checker http://www.example.com/
Beachten Sie, dass dadurch die gesamte Website überprüft wird, die Tausende von URLs enthalten kann. Benutzen Sie die -r
Option zur Einschränkung der Rekursionstiefe.
Überprüfen Sie keine URLs mit /Geheimnis in seinem Namen. Alle anderen Links werden wie gewohnt geprüft:
Link-Checker --ignore-url=/secret mysite.example.com
Überprüfen einer lokalen HTML-Datei unter Unix:
Link-Checker ../bla.html
Überprüfen einer lokalen HTML-Datei unter Windows:
Link-Checker c:\temp\test.html
Sie können das überspringen http:// URL-Teil, wenn die Domain mit beginnt www.:
Link-Checker www.example.com
Sie können das überspringen ftp: // URL-Teil, wenn die Domain mit beginnt ftp.:
Link-Checker -r0 ftp.beispiel.com
Erstellen Sie ein Sitemap-Diagramm und konvertieren Sie es mit dem Dienstprogramm graphviz dot:
Link-Checker -odot -v www.example.com | Punkt -Tps > sitemap.ps

OPTIONAL


Allgemein Optionen
-fDATEINAME, --config=DATEINAME
Verwenden Sie die DATEINAME als Konfigurationsdatei. Als Standard verwendet LinkChecker
~/.linkchecker/linkcheckerrc.

-h, --help
Hilf mir! Nutzungsinformationen für dieses Programm drucken.

--stdin
Lies die Liste der durch Leerzeichen getrennten URLs, die von stdin überprüft werden sollen.

-tNUMBER, --threads=NUMBER
Generieren Sie nicht mehr als die angegebene Anzahl an Threads. Die Standardanzahl der Threads beträgt
100. Um das Threading zu deaktivieren, geben Sie eine nicht positive Zahl an.

-V, --Version
Version drucken und beenden.

--list-plugins
Verfügbare Check-Plugins drucken und beenden.

Ausgang Optionen
-DSTRING, --debug=STRING
Gibt die Debugging-Ausgabe für den angegebenen Logger aus. Verfügbare Logger sind Befehlszeile,
Überprüfung, Cache-Speicher, gui, dns und alle. Angabe alle ist ein Alias ​​zur Angabe aller
verfügbare Logger. Die Option kann mehrmals angegeben werden, um mit mehr als zu debuggen
ein Logger. Für genaue Ergebnisse wird das Threading während Debug-Läufen deaktiviert.

-FTYP[/CODIERUNG][/DATEINAME], --file-output=TYP[/CODIERUNG][/DATEINAME]
Ausgabe in eine Datei Linkchecker-out.TYP, $HOME/.linkchecker/blacklist für schwarze Liste
Ausgabe, bzw DATEINAME falls angegeben. Der CODIERUNG Gibt die Ausgabekodierung an, die
Der Standardwert ist der Ihres Gebietsschemas. Gültige Kodierungen finden Sie unter
http://docs.python.org/library/codecs.html#standard-kodierungen.
Die DATEINAME und CODIERUNG Teile des keine Der Ausgabetyp wird ignoriert, andernfalls wenn
Die Datei existiert bereits, sie wird überschrieben. Sie können diese Option weiter spezifizieren
als einmal. Gültige Dateiausgabetypen sind Text, html, SQL, csv, Gml, Punkt, xml,
Sitemap, keine or schwarze Liste. Standardmäßig ist keine Dateiausgabe vorgesehen. Die verschiedenen Ausgabearten
sind nachfolgend dokumentiert. Beachten Sie, dass Sie mit der Option alle Konsolenausgaben unterdrücken können
-o keine.

--kein Status
Drucken Sie keine Scheckstatusmeldungen aus.

--keine Warnungen
Protokollieren Sie keine Warnungen. Standardmäßig werden Warnungen protokolliert.

-oTYP[/CODIERUNG], --ausgabe=TYP[/CODIERUNG]
Geben Sie den Ausgabetyp an als Text, html, SQL, csv, Gml, Punkt, xml, Sitemap, keine or
schwarze Liste. Der Standardtyp ist Text. Die verschiedenen Ausgabetypen sind unten dokumentiert.
Die CODIERUNG Gibt die Ausgabekodierung an. Die Standardeinstellung ist die Ihres Gebietsschemas.
Gültige Kodierungen finden Sie unter http://docs.python.org/library/codecs.html#Standard-
Kodierungen.

-q, --ruhig
Leiser Betrieb, ein Pseudonym für -o keine. Dies ist nur sinnvoll mit -F.

-v, - ausführlich
Protokollieren Sie alle überprüften URLs. Standardmäßig werden nur Fehler und Warnungen protokolliert.

-WREGEX, --warning-regex=REGEX
Definieren Sie einen regulären Ausdruck, der eine Warnung ausgibt, wenn er mit einem Inhalt von übereinstimmt
überprüfter Link. Dies gilt nur für gültige Seiten, sodass wir deren Inhalte abrufen können.
Verwenden Sie diese Option, um nach Seiten zu suchen, die einen Fehler enthalten, zum Beispiel „Diese Seite
wurde verschoben“ oder „Oracle-Anwendungsfehler“.
Beachten Sie, dass im regulären Ausdruck beispielsweise mehrere Werte kombiniert werden können
„(Diese Seite wurde verschoben | Oracle-Anwendungsfehler)“.
Siehe Sektion REGULAR AUSDRÜCKE for more info

Überprüfung Optionen
--cookiefile=DATEINAME
Lesen Sie eine Datei mit anfänglichen Cookie-Daten. Das Cookie-Datenformat wird im Folgenden erläutert.

--check-extern
Überprüfen Sie externe URLs.

--ignore-url=REGEX
URLs, die dem angegebenen regulären Ausdruck entsprechen, werden ignoriert und nicht überprüft.
Diese Option kann mehrfach angegeben werden.
Siehe Sektion REGULAR AUSDRÜCKE for more info

-NSTRING, --nntp-server=STRING
Geben Sie einen NNTP-Server an Nachrichten: Links. Standard ist die Umgebungsvariable
NNTP_SERVER. Wenn kein Host angegeben ist, wird nur die Syntax des Links überprüft.

--no-follow-url=REGEX
Überprüfen Sie die URLs, führen Sie jedoch keine Rekursion in URLs durch, die dem angegebenen regulären Ausdruck entsprechen.
Diese Option kann mehrfach angegeben werden.
Siehe Sektion REGULAR AUSDRÜCKE for more info

-p, --Passwort
Lesen Sie ein Passwort von der Konsole und verwenden Sie es für die HTTP- und FTP-Autorisierung. Für FTP
das Standardpasswort ist anonym@. Für HTTP gibt es kein Standardpasswort. Siehe auch
-u.

-rNUMBER, --recursion-level=NUMBER
Überprüfen Sie rekursiv alle Links bis zur angegebenen Tiefe. Eine negative Tiefe wird aktiviert
unendliche Rekursion. Die Standardtiefe ist unendlich.

--timeout=NUMBER
Legen Sie das Zeitlimit für Verbindungsversuche in Sekunden fest. Der Standard-Timeout beträgt 60
Sekunden.

-uSTRING, --user=STRING
Probieren Sie den angegebenen Benutzernamen für die HTTP- und FTP-Autorisierung aus. Für FTP die Standardeinstellung
Benutzername ist anonym. Für HTTP gibt es keinen Standardbenutzernamen. Siehe auch -p.

--user-agent=STRING
Geben Sie beispielsweise die User-Agent-Zeichenfolge an, die an den HTTP-Server gesendet werden soll
„Mozilla/4.0“. Der Standardwert ist „LinkChecker/XY“, wobei XY die aktuelle Version von ist
LinkChecker.

CONFIGURATION DATEIEN


Konfigurationsdateien können alle oben genannten Optionen angeben. Sie können auch einige Optionen angeben
kann nicht in der Befehlszeile festgelegt werden. Sehen linkcheckerrc(5) für weitere Informationen.

AUSGABE TYPES


Beachten Sie, dass standardmäßig nur Fehler und Warnungen protokolliert werden. Sie sollten das verwenden - ausführlich
Option zum Abrufen der vollständigen URL-Liste, insbesondere bei der Ausgabe im Sitemap-Grafikformat.

Text Standard-Textlogger, der URLs im Keyword-Argument-Stil protokolliert.

html Protokollieren Sie URLs im Schlüsselwort: Argumentmodus, formatiert als HTML. Enthält zusätzlich Links
zu den verwiesenen Seiten. Ungültige URLs verfügen über Links zur HTML- und CSS-Syntaxprüfung
angehängt.

csv Ergebnis der Protokollprüfung im CSV-Format mit einer URL pro Zeile.

Gml Protokollieren Sie Eltern-Kind-Beziehungen zwischen verknüpften URLs als GML-Sitemap-Diagramm.

Punkt Protokollieren Sie Eltern-Kind-Beziehungen zwischen verknüpften URLs als DOT-Sitemap-Diagramm.

gxml Ergebnis der Protokollprüfung als GraphXML-Sitemap-Diagramm.

xml Prüfergebnis als maschinenlesbares XML protokollieren.

Sitemap
Ergebnis der Protokollprüfung als XML-Sitemap, deren Protokoll unter dokumentiert ist
http://www.sitemaps.org/protocol.html.

SQL Prüfergebnis als SQL-Skript mit INSERT-Befehlen protokollieren. Ein Beispielskript zum Erstellen
Die anfängliche SQL-Tabelle ist als create.sql enthalten.

schwarze Liste
Geeignet für Cron-Jobs. Protokolliert das Prüfergebnis in einer Datei ~/.linkchecker/blacklist
die nur Einträge mit ungültigen URLs und deren Häufigkeit enthält
gescheitert.

keine Protokolliert nichts. Geeignet zum Debuggen oder Überprüfen des Exit-Codes.

REGULAR AUSDRÜCKE


LinkChecker akzeptiert reguläre Python-Ausdrücke. Sehen http://docs.python.org/
howto/regex.html für eine Einführung an.

Eine Ergänzung besteht darin, dass ein führendes Ausrufezeichen den regulären Ausdruck negiert.

COOKIE DATEIEN


Eine Cookie-Datei enthält Standard-HTTP-Header-Daten (RFC 2616) mit den folgenden Möglichkeiten
Namen:

Gastgeber (erforderlich)
Legt die Domäne fest, für die die Cookies gültig sind.

Path (optional)
Gibt den Pfad an, für den die Cookies wertvoll sind. Der Standardpfad ist /.

Set-Keks (erforderlich)
Legen Sie den Namen/Wert des Cookies fest. Kann mehr als einmal gegeben werden.

Mehrere Einträge werden durch eine Leerzeile getrennt. Im folgenden Beispiel werden zwei Cookies gesendet
zu allen URLs beginnend mit http://example.com/hello/ und eine für alle URLs, die mit beginnen
https://example.org/:

Host: example.com
Pfad: /hello
Set-Cookie: ID="smee"
Set-cookie: spam="egg"

Host: example.org
Set-cookie: baggage="elitist"; comment="Hologramm"

PROXY SUPPORT


Um einen Proxy unter Unix oder Windows zu verwenden, legen Sie $http_proxy, $https_proxy oder $ftp_proxy fest
Umgebungsvariablen zur Proxy-URL hinzufügen. Die URL sollte die Form haben
http://[Benutzer:passieren@]Gastgeber[:port ]. LinkChecker erkennt auch manuelle Proxy-Einstellungen von
Internet Explorer unter Windows-Systemen und gconf oder KDE auf Linux-Systemen. Auf einem Mac verwenden
die Internetkonfiguration, um einen Proxy auszuwählen. Sie können auch eine durch Kommas getrennte Domänenliste festlegen
die Umgebungsvariablen $no_proxy, um alle Proxy-Einstellungen für diese Domänen zu ignorieren.
Das Einrichten eines HTTP-Proxys unter Unix sieht beispielsweise so aus:

exportieren Sie http_proxy="http://proxy.example.com:8080"

Auch die Proxy-Authentifizierung wird unterstützt:

exportieren Sie http_proxy="http://user1:[E-Mail geschützt] :8081"

Festlegen eines Proxys an der Windows-Eingabeaufforderung:

setze http_proxy=http://proxy.example.com: 8080

AUSGEFÜHRT KONTROLLEN


Alle URLs müssen einen vorläufigen Syntaxtest bestehen. Kleinere Zitierfehler führen zu einem
Warnung, alle anderen Probleme mit der ungültigen Syntax sind Fehler. Nachdem die Syntaxprüfung bestanden wurde, wird die
Die URL wird zur Verbindungsprüfung in die Warteschlange gestellt. Im Folgenden werden alle Arten der Verbindungsprüfung beschrieben.

HTTP-Links (http:, https:)
Nach der Verbindung zum angegebenen HTTP-Server wird der angegebene Pfad oder die angegebene Abfrage angefordert. Alle
Weiterleitungen werden befolgt, und wenn Benutzer/Passwort angegeben werden, wird es als verwendet
Genehmigung bei Bedarf. Alle endgültigen HTTP-Statuscodes außer 2xx sind
Fehler. HTML-Seiteninhalte werden auf Rekursion überprüft.

Lokale Dateien (Datei:)
Gültig ist eine reguläre, lesbare Datei, die geöffnet werden kann. Ein lesbares Verzeichnis ist ebenfalls vorhanden
gültig. Alle anderen Dateien, zum Beispiel Gerätedateien, nicht lesbare oder nicht vorhandene Dateien
sind Fehler. HTML- oder andere analysierbare Dateiinhalte werden auf Rekursion überprüft.

Mail-Links (mailto:)
Ein mailto:-Link führt schließlich zu einer Liste von E-Mail-Adressen. Wenn eine Adresse
fehlschlägt, schlägt die gesamte Liste fehl. Für jede E-Mail-Adresse prüfen wir Folgendes
Dinge:
1) Überprüfen Sie die Adresssyntax, sowohl im Vorher- als auch im Nachherteil
das Schild.
2) Suchen Sie nach den MX-DNS-Einträgen. Wenn wir keinen MX-Eintrag gefunden haben,
einen Fehler ausgeben.
3) Prüfen Sie, ob einer der Mail-Hosts eine SMTP-Verbindung akzeptiert.
Überprüfen Sie zuerst Hosts mit höherer Priorität.
Wenn kein Host SMTP akzeptiert, drucken wir eine Warnung.
4) Versuchen Sie, die Adresse mit dem VRFY-Befehl zu überprüfen. Wenn wir es bekommen
Um eine Antwort zu erhalten, drucken Sie die verifizierte Adresse als Info aus.

FTP-Links (FTP:)

Für FTP-Links machen wir:

1) Stellen Sie eine Verbindung zum angegebenen Host her
2) Versuchen Sie, sich mit dem angegebenen Benutzer und Passwort anzumelden. Der Standard
Der Benutzer ist „anonym“, das Standardpasswort ist „anonymous@“.
3) Versuchen Sie, in das angegebene Verzeichnis zu wechseln
4) Listen Sie die Datei mit dem NLST-Befehl auf

Telnet-Links („telnet:“)

Wir versuchen, eine Verbindung herzustellen, und wenn Benutzer/Passwort angegeben sind, melden Sie sich an
angegebenen Telnet-Server.

NNTP-Links („news:“, „snews:“, „nntp“)

Wir versuchen, eine Verbindung zum angegebenen NNTP-Server herzustellen. Wenn eine Newsgroup bzw
Wenn der Artikel angegeben ist, versuchen Sie, ihn vom Server anzufordern.

Nicht unterstützte Links („javascript:“ usw.)

Bei einem nicht unterstützten Link wird lediglich eine Warnung ausgegeben. Keine weitere Überprüfung
wird gemacht.

Die vollständige Liste der erkannten, aber nicht unterstützten Links finden Sie hier
begann linkcheck/checker/unknownurl.py Quelldatei.
Die bekanntesten davon dürften JavaScript-Links sein.

PLUGINS


Es gibt zwei Plugin-Typen: Verbindungs- und Inhalts-Plugins. Verbindungs-Plugins werden ausgeführt
nach erfolgreicher Verbindung zum URL-Host. Inhalts-Plugins werden ausgeführt, wenn der URL-Typ
Inhalt hat (mailto: URLs haben zum Beispiel keinen Inhalt) und ob die Prüfung nicht verboten ist
(d. h. per HTTP robots.txt). Sehen Link-Checker --list-plugins für eine Liste der Plugins und ihrer
Dokumentation. Alle Plugins werden über das aktiviert linkcheckerrc(5) Konfigurationsdatei.

Rekursion


Bevor rekursiv in eine URL abgestiegen wird, muss diese mehrere Bedingungen erfüllen. Sie sind
in dieser Reihenfolge geprüft:

1. Eine URL muss gültig sein.

2. Eine URL muss analysierbar sein. Hierzu gehören derzeit HTML-Dateien,
Opera setzt Lesezeichen für Dateien und Verzeichnisse. Wenn ein Dateityp dies nicht kann
bestimmt werden (es gibt beispielsweise keine gemeinsame HTML-Datei).
Erweiterung und der Inhalt sieht nicht wie HTML aus), wird davon ausgegangen
nicht analysierbar sein.

3. Der URL-Inhalt muss abrufbar sein. Dies ist normalerweise der Fall
außer beispielsweise mailto: oder unbekannte URL-Typen.

4. Die maximale Rekursionsstufe darf nicht überschritten werden. Es ist konfiguriert
an. Nach der Installation können Sie HEIC-Dateien mit der --recursion-level Option und ist standardmäßig unbegrenzt.

5. Es darf nicht mit der Liste der ignorierten URLs übereinstimmen. Dies wird mit gesteuert
--ignore-url .

6. Das Robots Exclusion Protocol muss Links in der URL zulassen
rekursiv befolgt. Dies wird überprüft, indem nach a gesucht wird
„nofollow“-Direktive in den HTML-Header-Daten.

Beachten Sie, dass die Verzeichnisrekursion alle Dateien in diesem Verzeichnis liest, nicht nur eine Teilmenge
Gefällt mir index.htm*.

ANMERKUNG


URLs in der Befehlszeile, beginnend mit ftp. werden behandelt wie ftp://ftp., URLs beginnend mit
www. werden behandelt wie http://www.. Sie können auch lokale Dateien als Argumente angeben.

Wenn Ihr System so konfiguriert ist, dass es automatisch eine Verbindung zum Internet herstellt
(z. B. mit diald), wird eine Verbindung hergestellt, wenn Links überprüft werden, die nicht auf Ihren lokalen Host verweisen.
Verwenden Sie das --ignore-url Möglichkeit, dies zu verhindern.

Javascript-Links werden nicht unterstützt.

Wenn Ihre Plattform Threading nicht unterstützt, deaktiviert LinkChecker es automatisch.

Sie können in einer Konfigurationsdatei mehrere Benutzer-/Passwortpaare angeben.

Bei der Überprüfung Nachrichten: Links muss der angegebene NNTP-Host nicht mit dem Host von identisch sein
der Benutzer, der Ihre Seiten durchsucht.


NNTP_SERVER – Gibt den Standard-NNTP-Server an
HTTP-Proxy – Gibt den Standard-HTTP-Proxyserver an
ftp_proxy – Gibt den Standard-FTP-Proxyserver an
kein Vertreter – Durch Kommas getrennte Liste von Domänen, die nicht über einen Proxyserver kontaktiert werden sollen
LC_MESSAGES, SPRACHE, SPRACHE - Geben Sie die Ausgabesprache an

RÜCKKEHR BEWERTUNG


Der Rückgabewert ist 2, wenn

· Es ist ein Programmfehler aufgetreten.

Der Rückgabewert ist 1, wenn

· Es wurden ungültige Links gefunden oder

· Linkwarnungen wurden gefunden und Warnungen sind aktiviert

Andernfalls ist der Rückgabewert Null.

EINSCHRÄNKUNGEN


LinkChecker verbraucht Speicher für jede zu überprüfende URL in der Warteschlange. Mit Tausenden von URLs in der Warteschlange
Die Menge des verbrauchten Speichers kann ziemlich groß werden. Dies könnte das Programm verlangsamen bzw
sogar das ganze System.

Verwenden Sie Linkchecker online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad