Scraping

Scraping

Copyright ┬ę Shutterstock/ Libor Piska

Was ist Scraping?

Scraping ist eine Bezeichnung f├╝r verschiedene Methoden, mit denen Informationen aus dem Internet gesammelt werden. Im Allgemeinen wird f├╝r das Scraping, auf Deutsch “kratzen” oder “abkratzen”, eine spezielle Software verwendet, mit der bestimmte Informationen von verschiedenen Webseiten ausgelesen werden k├Ânnen. Eine andere Bezeichnung f├╝r das Scraping von Webseiten ist Web Scraping.

Das Kopieren einer Kontaktliste aus einem Webverzeichnis ist ein Beispiel f├╝r Scraping. Das Kopieren und Einf├╝gen von Details von einer Webseite in eine Excel Tabelle funktioniert jedoch nur f├╝r eine kleine Datenmenge und erfordert bei manueller Durchf├╝hrung viel Zeit. Um gr├Â├čere Datenmengen zu sammeln, ist eine Automatisierung mittels eines Scrapers erforderlich. Ein Scraper ist ein Programm, das auf Webseiten zugreift, Daten aus dem Inhalt extrahiert, den Inhalt herunterl├Ądt und dann die Daten in einer Datei oder einer Datenbank speichert.

Anwendungsbereiche f├╝r Scraping

Preis├╝berwachung

Scraper k├Ânnen Daten ├╝ber bestimmte Produkte von E-Commerce Websites wie Amazon, Walmart, eBay und jedem beliebigen Online Shop sammeln. Es gibt eine Reihe Preisvergleichs- und Wettbewerbs├╝berwachungsdienste, die auf Scraping aufbauen.

Vertrieb und Marketing

Scraper k├Ânnen f├╝r Business Directory Websites erstellt werden, um Kontaktdaten zu extrahieren. Eine Kombination aus Scrapern mit unterschiedlichen Funktionen kann die Daten mit E-Mails, Telefonnummern und Social Media Profilen f├╝r Verkaufs- oder Marketingkampagnen anreichern.

Content Aggregatoren

Fast alle Content Aggregatoren verwenden Scraping. News Aggregatoren scrapen regelm├Ą├čig Nachrichten Websites, um ihren Nutzern aktualisierte Nachrichten zur Verf├╝gung zu stellen. Job Aggregatoren nutzen Scraper f├╝r Jobb├Ârsen und Unternehmens Websites , um die neuesten Stellenangebote zu suchen.

Sales Intelligence

Verschiedene Tools geben Details zu einem Lead basierend auf nur einer E-Mail-Adresse an. Sie sind auf mehrere Arten von Scrapern angewiesen, die das Web durchsuchen, um ihnen weitere Informationen zu liefern.

SEO ├ťberwachung

SEO Tools wie Moz, SEMRush oder a-hrefs scrapen Google und andere Suchmaschinen t├Ąglich, um zu ermitteln, wie Webseiten f├╝r die wichtigen Suchbegriffe ranken. Sie extrahieren zudem Backlinks und f├╝hren SEO Audits durch.

Training Datasets f├╝r maschinelles Lernen

Nicht alle Daten im Web sind als strukturierter Datensatz verf├╝gbar. Viele Datenwissenschaftler sind auf Daten angewiesen, die durch Scraper gesammelt werden, um ihre maschinellen Lernmodelle zu trainieren.

Daten f├╝r die Forschung

Forscher und Journalisten verbringen viel Zeit damit, Daten manuell von Webseiten zu sammeln und zu bereinigen. Heutzutage verwenden viele von ihnen Scraper, um die meisten dieser manuellen Arbeiten zu automatisieren.

Wie funktioniert ein Scraper?

Ein Scraper ist ein Softwareprogramm oder -skript, mit dem in der Regel textbasierte und als HTML formatierte Inhalte mehrerer Webseiten heruntergeladen und anschlie├čend extrahiert werden. Scraper beinhalten mehrere Module, die verschiedene Funktionen ausf├╝hren. Die Komponenten eines Scrapers sind

  • “fokussiertes” Web Crawler Modul
  • Extraktor oder ein Parser Modul
  • Datentransformations- und Reinigungsmodul und
  • Datenserialisierungs- und Speichermodul

Ein Scraper navigiert zur Zielwebsite, indem HTTP oder HTTPS Anforderungen an URLs gesendet werden, die einem bestimmten Muster oder einer bestimmten Paginierungs Logik folgen. Der Crawler l├Ądt die Antwortobjekte als HTML Inhalt herunter und ├╝bergibt diese Daten an den Extraktor. Der abgerufene HTML Code wird mithilfe eines Parsers verarbeitet, der die erforderlichen Daten aus dem HTML Code in eine semi-strukturierte Form extrahiert. Dabei werden je nach Aufgabe regul├Ąre Ausdr├╝cke, eine HTML Analyse, DOM Parsing und eine automatische Extraktion mit k├╝nstlicher Intelligenz eingesetzt.

Die mit einem Parser extrahierten Daten haben nicht immer das Format, das f├╝r die sofortige Verwendung geeignet ist. Die meisten der extrahierten Datasets ben├Âtigen eine Art von “S├Ąuberung” oder “Transformation“. Regul├Ąre Ausdr├╝cke, String Manipulation und Suchmethoden werden verwendet, um diese Reinigung und Transformation durchzuf├╝hren. Extraktion und Transformation werden normalerweise zusammen in einem einzigen Modul durchgef├╝hrt, wenn der Scraper keine Daten von einer gro├čen Anzahl vonseiten extrahiert.

Sobald die Daten bereinigt sind, m├╝ssen diese gem├Ą├č den ben├Âtigten Datenmodellen serialisiert werden. Dies ist das letzte Modul eines Scraper, das Daten in einem Standardformat ausgibt und die Daten in Datenbanken wie Oracle, SQL oder MongoDB als JSON / CSV Dateien speichert oder zur Speicherung an Data Warehouses ├╝bergibt.

Screen Scraping

Screen Scraping ist eine weitere Form des Scrapings und wird als dessen Ursprung angesehen. Als Screen Scraping wird das Sammeln von Bildschirmdaten aus einer Anwendung und deren ├ťbersetzung f├╝r eine andere Anwendung bezeichnet. Dabei handelt es sich in der Regel um eine legitime Nutzung, die auch als Terminal Emulation bezeichnet wird. Diese Technik wird beispielsweise eingesetzt, wenn eine Legacy Anwendung weiter genutzt werden soll oder muss, es aber wegen fehlender Verf├╝gbarkeit von Quellcode, Programmierern oder Dokumentation nicht m├Âglich ist, die Anwendung neu zu schreiben oder zu aktualisieren.

In einem solchen Fall besteht die einzige M├Âglichkeit, die Anwendung weiter zu verwenden, darin, eine Software zu schreiben, um die Anwendung f├╝r eine aktuellere Benutzeroberfl├Ąche zu ├╝bersetzen. Die Software erfasst die Bildschirmeingabe des Nutzers, gibt sie an die urspr├╝ngliche Anwendung zur Verarbeitung und sendet die Daten von der Anwendung an den Nutzer zur├╝ck, um sie auf dem Bildschirm des Nutzers anzuzeigen. Zum Beispiel, wenn eine Anwendung auf einem IBM Mainframe l├Ąuft, der Nutzer aber einen PC verwendet.

Der Ruf des Web Scraping hat sich in den letzten Jahren deutlich verschlechtert, und zwar aus guten Gr├╝nden. Es wird zunehmend f├╝r gesch├Ąftliche Zwecke eingesetzt, um sich einen Wettbewerbsvorteil zu verschaffen. Es steht oft ein finanzielles Motiv dahinter. Dies geschieht meist unter v├Âlliger Missachtung der Urheberrechtsgesetze und der Nutzungsbedingungen der betroffenen Webseiten.

Zudem f├╝hren Scraper viel mehr Anfragen pro Sekunde durch als normale User. Dies kann zu unerwarteten Belastungen der Webseiten f├╝hren. Schlie├člich k├Ânnten durch Scraper verbotene Operationen auf Webseiten durchgef├╝hrt werden. Wie beispielsweise die Umgehung der Sicherheitsma├čnahmen, sodass Daten automatisch heruntergeladen werden, die sonst nicht zug├Ąnglich w├Ąren.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte