Big Data

Inhaltsverzeichnis

Was bedeutet Big Data?

Mit dem Ausdruck Big Data, der aus den englischen Wörtern für “groß” und “Daten” zusammengesetzt ist, werden allgemein große Mengen an semi-strukturierten und unstrukturierten digitalen Daten beschrieben, die die Leistungskapazität herkömmlicher IT-Systeme übersteigen.

Im Deutschen wird auch die Bezeichnung Massendaten verwendet. Auch wenn es keine exakte Grenze der Datenmenge gibt, ab der von Big Data gesprochen wird, so lässt sich der Umfang in der Regel nicht mehr in Gigabyte oder Terabyte messen. Allein durch die zunehmende Digitalisierung, die Internetnutzung, die Verbreitung von sozialen Netzwerken und mobilen Endgeräten, dem Cloud Computing oder dem Internet of Things vervielfacht sich die erschaffene digitale Datenmenge zunehmend schneller.

Neben den Onlinediensten des WWW ergeben sich auch in den Bereichen Mobil- und Telekommunikation, Energieversorgung, Finanz- und Bankwirtschaft, im Gesundheitswesen, aus Fahrassistenzsystemen und Kundenkarten sowie aus dem Einsatz von Überwachungskameras große Datenmengen.

Risiken und Ziel der Datensammlung und -auswertung

Aus diesem Zusammenführen von Informationen aus unterschiedlichsten Datenquellen ergeben sich neben den Chancen auch Risiken. Vor allem beim Schutz der Daten der Nutzer und im Persönlichkeitsrecht wirft Big Data neue Fragen auf. Daneben gilt es zu klären, wie die Nutzer einer Verwendung ihrer Daten zustimmen oder widersprechen können. Über die Datensammlung in unterschiedlichen Lebensbereichen und die Vernetzung von verschiedenen Datenquellen zielt Big Data darauf ab, einen Datenbestand aufzubauen, der möglichst breit gefächert und allumfassend ist. Ziel dieses Datenpools ist ein Wissensgewinn durch das Erkennen von Verbindungen und Wechselbeziehungen in den einzelnen Datensätzen.

Fünf Dimensionen von Big Data

Die Größe eines Datenbestands spiegelt sich in fünf Dimensionen wider.

Volume

Die erste Dimension “Volume” bezieht sich auf das Volumen an Daten, das beständig neu entsteht.

Variety

Die zweite Dimension “Variety” stellt auf die Vielzahl an Datenquellen und Datentypen ab. An Datenformaten sind für Big Data-Sammlungen nicht nur textbasierte Datensätze interessant, sondern auch Audio-, Video- und Bilddaten.

Velocity

“Velocity” als dritte Dimension drückt aus, wie schnell eine neue Datenmenge entsteht, erhoben, ausgewertet und weiterverarbeitet wird. Moderne IT-Systeme erledigen diese Aufgaben in Sekundenbruchteilen, mitunter nahezu in Echtzeit.

Value

Die vierte Dimension “Value” beschreibt den unternehmerischen Mehrwert, den Firmen mit Extrakten aus dem Gesamtdatenbestand erzielen. Die hohen Investitionen in den Aufbau von enormen Datenpools mit entsprechend leistungsfähigen Speicher- und Analysesystemen wurden mit dem Ziel durchgeführt, einen unternehmerischen Nutzen aus ihnen zu ziehen.

Veracity

Als fünfte Dimension beschäftigt sich “Veracity”, auch als “Validity” bezeichnet, mit der Qualität und Glaubwürdigkeit der gesammelten Daten. Nur akkurat erhobene, korrekt gespeicherte und mit nachvollziehbaren Algorithmen analysierte Daten liefern einen Mehrwert.

Herausforderungen an IT-Systeme für komplexe Massendaten

Klassische Methoden der Datenverarbeitung stoßen bei der Bewältigung von Big Data aus unterschiedlichen Gründen an ihre Grenzen. So können die vorliegenden Daten zu umfangreich sein, um in herkömmlichen Datenbanken abgebildet zu werden. Herkömmliche Arbeitsspeicher reichen für einen Zugriff auf Datenbestände in der Größenordnung von Big Data-Volumen nicht aus. Ein zu komplexes Datengeflecht verhindert die manuelle Datenanalyse über Standardsoftwarelösungen. Auch wenn die Daten einer permanenten Änderung unterliegen oder nur in einer kaum strukturierten Form vorliegen, lassen sie sich mit klassischen IT-Verfahren nicht auswerten.

Die Herausforderung im Umgang mit diesen umfangreichen Datenvolumen liegt gleichermaßen in der Datensammlung und -erfassung, der Speicherung der erhobenen Informationen, der Datenanalyse und der Durchsuchbarkeit des Datenbestands. Auch die Datenbereitstellung, der Transfer von gespeicherten Informationen, die Visualisierung der Datensätze, die Filterung über Abfragen und die Aktualisierung der Dateneinträge bringen aufgrund der umfangreichen Datenmenge andere Schwierigkeiten mit sich als Datenbestände, die für eine Bearbeitung mit herkömmlicher Datenverarbeitungstechnik geeignet sind.

Im Umgang mit Big Data sind kosteneffektive, innovative IT-Umgebungen nötig, die die Informationsverarbeitung im Rahmen von Data Crunching weitgehend automatisiert bewältigen. Die IT-Systeme müssen die einzelnen, unstrukturierten Rohdaten klassifizieren, einordnen und zu aggregierten Auswertungen zusammenfassen. In den nun strukturierten und aufbereiteten Daten können über Data Mining-Verfahren Zusammenhänge in den Datenstrukturen erkannt werden.

Einsatzfelder von Big Data

Aus Big Data gewonnene Erkenntnisse kommen sowohl in der Wissenschaft wie auch in der Wirtschaft zum Einsatz. Sie werden in der Trend- und Umfeldforschung, der Dependenzanalyse sowie der Untersuchung des Kunden- und Nutzerverhaltens eingesetzt. Auch in der Steuerung von Produktionssystemen oder in der Rasterfahndung spielt Big Data eine Rolle. In Unternehmen bietet Big Data vor allem für den Bereich Marketing neue Potenziale.

Neue Potenziale im Marketing Bereich

Sowohl die Ausrichtung von Werbekampagnen auf bestimmte Zielgruppen über Targeting-Maßnahmen wie auch die individualisierte Kundenansprache im Data-Driven-Advertising wird durch die Analyse großer Datenbestände unterstützt. Im Online-Marketing helfen diese über Big Data personalisierten Strategien, die Conversion Rate zu steigern.

Sie haben noch Fragen?

Kontaktieren Sie uns