Wget

Wget

Copyright © Shutterstock/Monstar Studio

Was ist Wget?

Wget ist ein Computerprogramm, das Inhalte von Webservern abrufen kann. Es ist Teil des GNU Projekt (eines der erfolgreichsten Projekte für sogenannte Freie Software). Es ermöglicht, Inhalte über HTTP, HTTPS und FTP runterzuladen. Der Name ist von den Begriffen “World Wide Web” (weltweites Netz) und “get” (holen) abgeleitet.

Wget ist ein sogenanntes Kommandozeilenprogramm – es wird also nicht über eine grafische Benutzeroberfläche genutzt, sondern über eine textbasierte Benutzeroberfläche. Mit dem Programm GWget besteht allerdings ebenfalls die Möglichkeit, eine grafische Benutzeroberfläche zu nutzen.

Typischer Aufruf

> wget http://eine-url.de/ein/pfad

“>” stellt dabei das Kommandozeilen-Prompt dar (nach welchem Eingaben eingetippt werden). “http://eine-url.de/ein/pfad” stellt das Argument für Wget dar (also den zu verarbeitenden Input). In diesem Fall handelt es sich um eine simple URL, die aufgerufen werden soll.

Das Kommandozeilenprogramm ist vor allem nützlich, um in Scripten für Kommandozeilen Inhalte automatisch aus dem Internet zu laden. Es kann daher genutzt werden, um viele internetbasierte Prozesse zu automatisieren.

Unerreichbare Links finden

Wget kann genutzt werden, um eine Webseite nach veralteten und dadurch unerreichbaren links zu durchsuchen. Dies ist nützlich, um die eigene Webseite auf Korrektheit zu überprüfen und man kann es ebenfalls für die Generierung von eingehenden Backlinks zur eigenen Website nutzen.

Im letzten Fall wird statt der eigenen, eine themenrelevante fremde Webseite nach veralteten Links durchsucht. Wenn ein entsprechender Link gefunden wird, suchen Sie auf Ihrer Website nach einer Webseite mit dem selben Thema, welche als Ersatz für den unerreichbaren Link dienen kann. Wenn eine solche Seite nicht vorhanden ist, haben Sie die Option, diese neu zu erstellen.

Anschließend kontaktieren Sie den Betreiber der untersuchten Website und melden ihm oder ihr den unerreichbaren Link. Gleichzeitig schlagen Sie Ihren eigenen Artikel als Ersatz vor. Wenn der Websitenbetreiber den unerreichbaren Link mit einem Link zu Ihrer Webseite ersetzt, haben Sie einen neuen eingehenden Link generiert, was einer der wichtigsten Faktoren für SEO (Suchmaschinenoptimierung) ist.

Anleitung

Im Folgenden finden Sie eine Anleitung, mit der Sie mit der Hilfe von Wget unerreichbare Links finden:

Wie weiter oben erwähnt, kann eine URL mit folgendem Befehl abgerufen werden:

wget https://eine-url.de/

Um allen Links auf der abgerufenen Webseite rekursiv zu folgen – also ebenfalls Links zu folgen, welche auf allen weiteren abgerufenen Webseiten gefunden wurden – müssen wir die Option ” -r” hinzufügen. Um Link endlos tief innerhalb der Website zu folgen, fügen wir die Option “-l inf” hinzu.

Als Nächstes geben wir an, dass wir ebenfalls alle zur Darstellung nötigen Dokumente herunterladen möchten – Dokumente wie Bilder, CSS-Dateien und JavaScript-Dateien. Wir erreichen dies durch die Option -page-requisites.

Mit der Option “-N” weisen wir Wget an, nur Dokumente herunterzuladen, die sich nach dem letzten Aufruf geändert haben (wodurch wir bei großen Webseiten viel Zeit sparen können). Um Fehlermeldungen analysieren zu können und somit unerreichbare Links zu finden, lassen wir durch die Option “-o logfile.log” eine Logdatei erstellen.

Unser letztendlicher Befehl sieht wie folgt aus:

wget -r -l inf -N -page-requisites -o logfile.log https://eine-url.de/

Nachdem Sie den Befehl über eine Kommandozeile aufgerufen haben, können Sie unerreichbare Links wie folgt finden:

Wget markiert Fehler beim Aufrufen mit dem Wort “error” in unserer Logdatei. Wir können diese Einträge mit dem Kommandozeilenprogramm “grep” ausfindig machen:

grep -B1 -i “error” logfile.log

Mit diesem Befehl erhalten Sie eine Liste mit allen fehlgeschlagenen Aufrufen von Dokumenten.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte