Clusteranalyse

Clusteranalyse

┬ę Copyright Shutterstock/ Jirsak

Was ist eine Clusteranalyse?

Als statistische Vorgehensweise geh├Ârt die Clusteranalyse zu den Gruppen-Analyseverfahren. Die Gruppenbildung basiert auf gr├Â├čeren Datenbest├Ąnden, die aufgrund bestimmter Merkmalsgleichheit zusammengefasst, analysiert und miteinander verglichen werden. Diese Gruppeneinheiten werden als Cluster bezeichnet. Die Clusteranalyse dient der Erstellung gleichartiger und vergleichbarer Gruppen aus einer heterogenen Gesamtheit. Im Online-Marketing dienen Clustermethoden beispielsweise der Zielgruppenanalyse.

Ziele und Herausforderungen

Vorrangiges Ziel ist die Erstellung von Gruppen aus einer Menge von heterogenen Objekten. Diese als Cluster bezeichneten Untersuchungseinheiten sollen homogen sein, das hei├čt im Hinblick auf bestimmte Merkmale gleichartig. Gleichzeitig sollen sie sich von andersartigen Clustern eindeutig unterscheiden lassen. Hervorstechend an diesem Verfahren ist die M├Âglichkeit, mehr als ein Merkmal als Basis f├╝r die Clusterbildung heranzuziehen. Damit bezieht sich die Analyse der ├ähnlichkeit und Nicht-├ähnlichkeit auf gleich mehrere Dimensionen.

Dies stellt Statistiker vor die Herausforderung, die Merkmals├Ąhnlichkeit exakt zu messen. Damit Cluster homogen erstellt werden k├Ânnen, sind mehrdimensionale Verfahren erforderlich, die Kombinationen aus Merkmalen erfassen und vergleichen k├Ânnen. Eine etablierte Vorgehensweise ist die hierarchische Clusteranalyse. Seine Voraussetzungen sind geringer als die der komplexeren Analysemethoden wie der Faktorenanalyse oder der Varianzanalyse. Zwar hat das Ergebnis einen geringeren Informationsgehalt, doch l├Ąsst sich die hierarchische Clusteranalyse in nahezu jeder Situation einsetzen.

Voraussetzungen einer Clusteranalyse

Das statistische Verfahren setzt mehrere Bedingungen sowie vorangehende Arbeitsschritte voraus. Zun├Ąchst sind die zu analysierenden Variablen beziehungsweise Merkmale exakt zu definieren. Nur klar festgelegte Merkmale lassen sich trennscharf miteinander vergleichen.

Wichtig ist es auch, auf Variablen zu verzichten, die einander zu ├Ąhnlich sind. Diese k├Ânnen das Gesamtergebnis zugunsten eines bestimmten Werts verf├Ąlschen.

Aus dem gleichen Grund werden in der Regel standardisierte Daten eingesetzt. Der Standard dient ebenso der Vergleichbarkeit. Ebenso gilt es, Ausrei├čer-Werte zu entfernen, das hei├čt solche Werte von der Analyse auszuschlie├čen, die als Einzelf├Ąlle Extremwerte darstellen.

Methodik der Clusteranalyse

Die hierarchische Clusteranalyse setzt auf das hierarchische Agglomerieren von Daten. Dieses mehrere Arbeitsschritte umfassende Verfahren setzt auf mehrfache Wiederholung in einer Art Schleife.

In einem ersten Schritt geht es um ein die einzelne Betrachtung jedes Objekts als Cluster. Dabei werden diejenigen beiden Objekte beziehungsweise Cluster mit der geringsten dazwischenliegenden Distanz miteinander verbunden. Durch diese Verbindung wird die Gesamtanzahl der vorhandenen Cluster um den Faktor Eins reduziert. Im n├Ąchsten Schritt werden unter den noch vorhandenen Clustern wiederum diejenigen beiden, zwischen denen der geringste Abstand liegt, vereinigt. Zu Beginn des Prozesses sind die Cluster noch Einzelobjekte. Anschlie├čend werden auch die Distanzen zwischen den zu Clustern vereinigten Objekten und den Einzelobjekten gemessen. Die Schleife wird so lange fortgesetzt, bis sich s├Ąmtliche Objekte in einem einzigen, gro├čen Cluster vereinigen.

Die verschiedenen Cluster-Methoden

Zur Distanzbestimmung kommen f├╝nf Clustermethoden zum Einsatz. Das Linkage zwischen Gruppen konstruiert Paare aus Objekten auf eine Art und Weise, dass sie aus jedem der beiden Cluster jeweils ein Objekt beinhalten. Die Distanz dieser Paare wird ermittelt und anschlie├čend das arithmetische Mittel gebildet. Dieses gilt als die Distanz zwischen den Clustern.

Beim Linkage innerhalb der Gruppen werden s├Ąmtliche Paare erstellt, die sich aus den Objekten beider Cluster konstruieren lassen. Dies bezieht sich auch auf solche Paare, deren Objekte im selben Cluster liegen. Auch diese Distanz wird durch das arithmetische der einzelnen Distanzen ermittelt.

Die N├Ąchster-Nachbar-Methode sieht vor, dass dasjenige Paar aus den Objekten beider Cluster gesucht wird, das die k├╝rzeste Entfernung zueinander (also die n├Ąchste Nachbarschaft) aufweist. Diese Entfernung wird gewertet als Distanz zwischen den Clustern. Analog dazu sieht die Entferntester-Nachbar-Methode vor, dasjenige Paar aus den Objekten beider Cluster zu suchen, das die gr├Â├čte Distanz aufweist.

Beim Zentroid-Clustering werden im ersten Schritt die arithmetischen Mittel s├Ąmtlicher Objekte in einem Cluster bestimmt. Im Anschluss erfolgt die Ermittlung der Distanz zwischen den beiden Clustern durch den Vergleich der auf diese Weise ermittelten Zahlen.

Die Ward-Methode basiert auf der Ermittlung der Variablenmittelwerte der neuen Cluster. Im Anschluss werden die Abst├Ąnde s├Ąmtlicher einzelner Objekte aufsummiert zu Cluster-Mittelwerten. Schlie├člich werden die Objekte zusammengefasst, bei denen es sich um den geringsten Zuwachs der Gesamtsumme aus den Distanzen handelt.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenloser SEO-Check der OSG


Weitere Inhalte