Data Crunching

Inhaltsverzeichnis

Was ist Data Crunching?

Das Data Crunching beschreibt eine informationstechnische Methode zur automatisierten Verarbeitung großer Mengen von Daten. Das Data Crunching kommt insbesondere im Zusammenhang mit Big Data zum Einsatz. Das Verfahren basiert auf der Vorbereitung und Modellierung eines Systems oder Anwendung. Die Aufbereitung, Sortierung und Strukturierung von Daten dient dazu, auf Grundlage dieser Daten bestimmte Algorithmen und Programme auszuführen. Die bereits aufbereiteten und verarbeiteten Daten werden als Crunched Data bezeichnet.

Überblick und Allgemeines

Ziel dieser Form der automatisierten Datenverarbeitung und -aufbereitung ist die Gewinnung von Erkenntnissen über die Dinge, die mit den Daten ausgedrückt und abgebildet werden. Data Crunching spielt in der Verarbeitung von Big Data im Bereich der Business Intelligence eine herausragende Rolle. Hier gilt es, auf Basis großer Datenmengen sinnvolle geschäftliche Entscheidungen zu treffen.

Der Prozess des Data Crunchings kennt weitreichende Anwendungsbereiche, die von Naturwissenschaften wie Physik, Chemie und Biologie über medizinische Anwendungen bis hin zum Finanzwesen reichen. Data Crunching wird auf Basis verschiedener Werkzeuge oder Programmiersprachen angewandt. Früher waren dies im Wesentlichen Excel und Shell-Programmierung. Heutige Tools umfassen Programmiersprachen wie Python oder Java.

Eng verwandt mit dem Data Crunching sind die Begriffe Data Wrangling sowie Data Munging. Ein wesentlicher Unterschied besteht jedoch darin, dass das Wrangling und das Munging auf manuelle oder halbautomatische Datenverarbeitung setzen.

Funktionsweise

Im Rahmen des Data Crunchings werden Daten auf eine Art und Weise verarbeitet, dass sie von verschiedenen Systemen weiterverarbeitet werden können. Damit steht das Verfahren als wichtiger Bestandteil vor dem eigentlichen Prozess der Datenanalyse. Crunching geht der Analyse voraus und stellt keine eigenständige explorative Datenanalyse oder Datenvisualisierung dar. Diese Aufgaben übernehmen verschiedene Programme. Als vorgeschalteter Prozess kann das Data Crunching, ebenso wie die folgende Datenanalyse, iterativ sein. Dies bedeutet in der Praxis, dass Programmabläufe wiederholt werden, wenn das Crunching neue Daten oder fehlerhafte Daten hervorbringt. Am Ende des Prozesses steht ein präziser und akkurater Datensatz, der keine Fehler mehr beinhaltet und problemlos weiterverarbeitet werden kann.

Umsetzung und Anwendungsfälle

Die Mehrheit der Data-Crunching-Prozesse wird in einer typischen Abfolge von Schritten ausgeführt.

In einem ersten Schritt wird das Rohdaten-Material eingelesen.
Im Folgenden überträgt man die Rohdaten in ein gewünschtes Format.
Im dritten Schritt werden die Daten in dem gewählten Format ausgegeben.
Anschließend lassen sie sich weiterverarbeiten und analysieren. Der Prozess lässt sich demnach in drei Abschnitte untergliedern.

Diese Schritte bergen den Vorteil, dass sich die Daten auf dem Weg ihrer Übertragung und Transformation auch für andere Anwendungs-Szenarien nutzbar machen lassen.

Ein wichtiger Anwendungsfall des Verfahrens ist die Extraktion von Rohdatenmaterial, das damit für eine spätere Auswertung vorbereitet wird. Ein weiterer typischer Einsatzbereich des Verfahrens findet sich in der Übertragung eines Formates in ein anderes. So lässt sich etwa Plain Text in verschiedene Datensatz-Formate überführen und damit von anderen Programmen nutzbar machen.

Das Verfahren kommt weiterhin zum Einsatz, um vererbte Daten in einem Programmcode weiterzuverarbeiten. Ebenso ist diese Form der Datenverarbeitung wichtig, wenn es um die Korrektur von fehlerhaften Datensätzen (ganz gleich, ob Rechtschreib- oder Programmierfehler) geht.

Stellenwert des Data Crunchings im Online Marketing

Im Online Marketing kommt es in mehreren Bereichen zu Herausforderungen, die Data Crunching erfordern. Auch Webdesign und Webanalyse profitieren von den Prozessen der automatisierten Datenverarbeitung. Speziell Online-Shops mit hohem Kundenaufkommen haben mit großen Datensätzen zu tun. Häufig müssen diese aus relationalen Datenbanken in andere Formate transformiert werden, um korrekt dargestellt zu werden. Gerade große Datenmengen erfordern zeitsparende Methoden wie das Data Crunching. Das Verfahren erspart den Verantwortlichen, die Abläufe manuell vorzunehmen. Die Prozesse erfordern eine passende technische Infrastruktur, damit man die Rechenleistung für die anspruchsvollen Verfahren der Datenaufbereitung nutzen kann. Hierbei kommen Systeme zum Einsatz, die durch ein Prinzip der Arbeitsteilung die Rechnerlast auf mehrere Ressourcen aufteilt.

Sie haben noch Fragen?

Kontaktieren Sie uns