Wget

wget

Copyright ┬ę Shutterstock/Monstar Studio

Was ist Wget?

Wget ist ein Computerprogramm, das Inhalte von Webservern abrufen kann. Es ist Teil des GNU Projekt (eines der erfolgreichsten Projekte f├╝r sogenannte Freie Software). Es erm├Âglicht, Inhalte ├╝ber HTTP, HTTPS und FTP runterzuladen. Der Name ist von den Begriffen “World Wide Web” (weltweites Netz) und “get” (holen) abgeleitet.

Wget ist ein sogenanntes Kommandozeilenprogramm – es wird also nicht ├╝ber eine grafische Benutzeroberfl├Ąche genutzt, sondern ├╝ber eine textbasierte Benutzeroberfl├Ąche. Mit dem Programm GWget besteht allerdings ebenfalls die M├Âglichkeit, eine grafische Benutzeroberfl├Ąche zu nutzen.

Typischer Aufruf

> wget http://eine-url.de/ein/pfad

“>” stellt dabei das Kommandozeilen-Prompt dar (nach welchem Eingaben eingetippt werden). “http://eine-url.de/ein/pfad” stellt das Argument f├╝r Wget dar (also den zu verarbeitenden Input). In diesem Fall handelt es sich um eine simple URL, die aufgerufen werden soll.

Das Kommandozeilenprogramm ist vor allem n├╝tzlich, um in Scripten f├╝r Kommandozeilen Inhalte automatisch aus dem Internet zu laden. Es kann daher genutzt werden, um viele internetbasierte Prozesse zu automatisieren.

Unerreichbare Links finden

Wget kann genutzt werden, um eine Webseite nach veralteten und dadurch unerreichbaren links zu durchsuchen. Dies ist n├╝tzlich, um die eigene Webseite auf Korrektheit zu ├╝berpr├╝fen und man kann es ebenfalls f├╝r die Generierung von eingehenden Backlinks zur eigenen Website nutzen.

Im letzten Fall wird statt der eigenen, eine themenrelevante fremde Webseite nach veralteten Links durchsucht. Wenn ein entsprechender Link gefunden wird, suchen Sie auf Ihrer Website nach einer Webseite mit dem selben Thema, welche als Ersatz für den unerreichbaren Link dienen kann. Wenn eine solche Seite nicht vorhanden ist, haben Sie die Option, diese neu zu erstellen.

Anschlie├čend kontaktieren Sie den Betreiber der untersuchten Website und melden ihm oder ihr den unerreichbaren Link. Gleichzeitig schlagen Sie Ihren eigenen Artikel als Ersatz vor. Wenn der Websitenbetreiber den unerreichbaren Link mit einem Link zu Ihrer Webseite ersetzt, haben Sie einen neuen eingehenden Link generiert, was einer der wichtigsten Faktoren f├╝r SEO (Suchmaschinenoptimierung) ist.

Anleitung

Im Folgenden finden Sie eine Anleitung, mit der Sie mit der Hilfe von Wget unerreichbare Links finden:

Wie weiter oben erw├Ąhnt, kann eine URL mit folgendem Befehl abgerufen werden:

wget https://eine-url.de/

Um allen Links auf der abgerufenen Webseite rekursiv zu folgen – also ebenfalls Links zu folgen, welche auf allen weiteren abgerufenen Webseiten gefunden wurden – m├╝ssen wir die Option ” -r” hinzuf├╝gen. Um Link endlos tief innerhalb der Website zu folgen, f├╝gen wir die Option “-l inf” hinzu.

Als N├Ąchstes geben wir an, dass wir ebenfalls alle zur Darstellung n├Âtigen Dokumente herunterladen m├Âchten – Dokumente wie Bilder, CSS-Dateien und JavaScript-Dateien. Wir erreichen dies durch die Option -page-requisites.

Mit der Option “-N” weisen wir Wget an, nur Dokumente herunterzuladen, die sich nach dem letzten Aufruf ge├Ąndert haben (wodurch wir bei gro├čen Webseiten viel Zeit sparen k├Ânnen). Um Fehlermeldungen analysieren zu k├Ânnen und somit unerreichbare Links zu finden, lassen wir durch die Option “-o logfile.log” eine Logdatei erstellen.

Unser letztendlicher Befehl sieht wie folgt aus:

wget -r -l inf -N -page-requisites -o logfile.log https://eine-url.de/

Nachdem Sie den Befehl ├╝ber eine Kommandozeile aufgerufen haben, k├Ânnen Sie unerreichbare Links wie folgt finden:

Wget markiert Fehler beim Aufrufen mit dem Wort “error” in unserer Logdatei. Wir k├Ânnen diese Eintr├Ąge mit dem Kommandozeilenprogramm “grep” ausfindig machen:

grep -B1 -i “error” logfile.log

Mit diesem Befehl erhalten Sie eine Liste mit allen fehlgeschlagenen Aufrufen von Dokumenten.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte