Data Crunching

Data Crunching

Copyright ┬ę Shutterstock/ kentoh

Was ist Data Crunching?

Das Data Crunching beschreibt eine informationstechnische Methode zur automatisierten Verarbeitung gro├čer Mengen von Daten. Das Data Crunching kommt insbesondere im Zusammenhang mit Big Data zum Einsatz. Das Verfahren basiert auf der Vorbereitung und Modellierung eines Systems oder Anwendung. Die Aufbereitung, Sortierung und Strukturierung von Daten dient dazu, auf Grundlage dieser Daten bestimmte Algorithmen und Programme auszuf├╝hren. Die bereits aufbereiteten und verarbeiteten Daten werden als Crunched Data bezeichnet.

├ťberblick und Allgemeines

Ziel dieser Form der automatisierten Datenverarbeitung und -aufbereitung ist die Gewinnung von Erkenntnissen ├╝ber die Dinge, die mit den Daten ausgedr├╝ckt und abgebildet werden. Data Crunching spielt in der Verarbeitung von Big Data im Bereich der Business Intelligence eine herausragende Rolle. Hier gilt es, auf Basis gro├čer Datenmengen sinnvolle gesch├Ąftliche Entscheidungen zu treffen.

Der Prozess des Data Crunchings kennt weitreichende Anwendungsbereiche, die von Naturwissenschaften wie Physik, Chemie und Biologie ├╝ber medizinische Anwendungen bis hin zum Finanzwesen reichen. Data Crunching wird auf Basis verschiedener Werkzeuge oder Programmiersprachen angewandt. Fr├╝her waren dies im Wesentlichen Excel und Shell-Programmierung. Heutige Tools umfassen Programmiersprachen wie Python oder Java.

Eng verwandt mit dem Data Crunching sind die Begriffe Data Wrangling sowie Data Munging. Ein wesentlicher Unterschied besteht jedoch darin, dass das Wrangling und das Munging auf manuelle oder halbautomatische Datenverarbeitung setzen.

Funktionsweise

Im Rahmen des Data Crunchings werden Daten auf eine Art und Weise verarbeitet, dass sie von verschiedenen Systemen weiterverarbeitet werden k├Ânnen. Damit steht das Verfahren als wichtiger Bestandteil vor dem eigentlichen Prozess der Datenanalyse. Crunching geht der Analyse voraus und stellt keine eigenst├Ąndige explorative Datenanalyse oder Datenvisualisierung dar. Diese Aufgaben ├╝bernehmen verschiedene Programme. Als vorgeschalteter Prozess kann das Data Crunching, ebenso wie die folgende Datenanalyse, iterativ sein. Dies bedeutet in der Praxis, dass Programmabl├Ąufe wiederholt werden, wenn das Crunching neue Daten oder fehlerhafte Daten hervorbringt. Am Ende des Prozesses steht ein pr├Ąziser und akkurater Datensatz, der keine Fehler mehr beinhaltet und problemlos weiterverarbeitet werden kann.

Umsetzung und Anwendungsf├Ąlle

Die Mehrheit der Data-Crunching-Prozesse wird in einer typischen Abfolge von Schritten ausgef├╝hrt.

  • In einem ersten Schritt wird das Rohdaten-Material eingelesen.
  • Im Folgenden ├╝bertr├Ągt man die Rohdaten in ein gew├╝nschtes Format.
  • Im dritten Schritt werden die Daten in dem gew├Ąhlten Format ausgegeben.
  • Anschlie├čend lassen sie sich weiterverarbeiten und analysieren. Der Prozess l├Ąsst sich demnach in drei Abschnitte untergliedern.

Diese Schritte bergen den Vorteil, dass sich die Daten auf dem Weg ihrer ├ťbertragung und Transformation auch f├╝r andere Anwendungs-Szenarien nutzbar machen lassen.

Ein wichtiger Anwendungsfall des Verfahrens ist die Extraktion von Rohdatenmaterial, das damit f├╝r eine sp├Ątere Auswertung vorbereitet wird. Ein weiterer typischer Einsatzbereich des Verfahrens findet sich in der ├ťbertragung eines Formates in ein anderes. So l├Ąsst sich etwa Plain Text in verschiedene Datensatz-Formate ├╝berf├╝hren und damit von anderen Programmen nutzbar machen.

Das Verfahren kommt weiterhin zum Einsatz, um vererbte Daten in einem Programmcode weiterzuverarbeiten. Ebenso ist diese Form der Datenverarbeitung wichtig, wenn es um die Korrektur von fehlerhaften Datens├Ątzen (ganz gleich, ob Rechtschreib- oder Programmierfehler) geht.

Stellenwert des Data Crunchings im Online Marketing

Im Online Marketing kommt es in mehreren Bereichen zu Herausforderungen, die Data Crunching erfordern. Auch Webdesign und Webanalyse profitieren von den Prozessen der automatisierten Datenverarbeitung. Speziell Online-Shops mit hohem Kundenaufkommen haben mit gro├čen Datens├Ątzen zu tun. H├Ąufig m├╝ssen diese aus relationalen Datenbanken in andere Formate transformiert werden, um korrekt dargestellt zu werden. Gerade gro├če Datenmengen erfordern zeitsparende Methoden wie das Data Crunching. Das Verfahren erspart den Verantwortlichen, die Abl├Ąufe manuell vorzunehmen. Die Prozesse erfordern eine passende technische Infrastruktur, damit man die Rechenleistung f├╝r die anspruchsvollen Verfahren der Datenaufbereitung nutzen kann. Hierbei kommen Systeme zum Einsatz, die durch ein Prinzip der Arbeitsteilung die Rechnerlast auf mehrere Ressourcen aufteilt.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte