Clusteranalyse

Inhaltsverzeichnis

Was ist eine Clusteranalyse?

Als statistische Vorgehensweise gehört die Clusteranalyse zu den Gruppen-Analyseverfahren. Die Gruppenbildung basiert auf größeren Datenbeständen, die aufgrund bestimmter Merkmalsgleichheit zusammengefasst, analysiert und miteinander verglichen werden. Diese Gruppeneinheiten werden als Cluster bezeichnet. Die Clusteranalyse dient der Erstellung gleichartiger und vergleichbarer Gruppen aus einer heterogenen Gesamtheit. Im Online-Marketing dienen Clustermethoden beispielsweise der Zielgruppenanalyse.

Ziele und Herausforderungen

Vorrangiges Ziel ist die Erstellung von Gruppen aus einer Menge von heterogenen Objekten. Diese als Cluster bezeichneten Untersuchungseinheiten sollen homogen sein, das heißt im Hinblick auf bestimmte Merkmale gleichartig. Gleichzeitig sollen sie sich von andersartigen Clustern eindeutig unterscheiden lassen. Hervorstechend an diesem Verfahren ist die Möglichkeit, mehr als ein Merkmal als Basis für die Clusterbildung heranzuziehen. Damit bezieht sich die Analyse der Ähnlichkeit und Nicht-Ähnlichkeit auf gleich mehrere Dimensionen.

Dies stellt Statistiker vor die Herausforderung, die Merkmalsähnlichkeit exakt zu messen. Damit Cluster homogen erstellt werden können, sind mehrdimensionale Verfahren erforderlich, die Kombinationen aus Merkmalen erfassen und vergleichen können. Eine etablierte Vorgehensweise ist die hierarchische Clusteranalyse. Seine Voraussetzungen sind geringer als die der komplexeren Analysemethoden wie der Faktorenanalyse oder der Varianzanalyse. Zwar hat das Ergebnis einen geringeren Informationsgehalt, doch lässt sich die hierarchische Clusteranalyse in nahezu jeder Situation einsetzen.

Voraussetzungen einer Clusteranalyse

Das statistische Verfahren setzt mehrere Bedingungen sowie vorangehende Arbeitsschritte voraus. Zunächst sind die zu analysierenden Variablen beziehungsweise Merkmale exakt zu definieren. Nur klar festgelegte Merkmale lassen sich trennscharf miteinander vergleichen.

Wichtig ist es auch, auf Variablen zu verzichten, die einander zu ähnlich sind. Diese können das Gesamtergebnis zugunsten eines bestimmten Werts verfälschen.

Aus dem gleichen Grund werden in der Regel standardisierte Daten eingesetzt. Der Standard dient ebenso der Vergleichbarkeit. Ebenso gilt es, Ausreißer-Werte zu entfernen, das heißt solche Werte von der Analyse auszuschließen, die als Einzelfälle Extremwerte darstellen.

Methodik der Clusteranalyse

Die hierarchische Clusteranalyse setzt auf das hierarchische Agglomerieren von Daten. Dieses mehrere Arbeitsschritte umfassende Verfahren setzt auf mehrfache Wiederholung in einer Art Schleife.

In einem ersten Schritt geht es um ein die einzelne Betrachtung jedes Objekts als Cluster. Dabei werden diejenigen beiden Objekte beziehungsweise Cluster mit der geringsten dazwischenliegenden Distanz miteinander verbunden. Durch diese Verbindung wird die Gesamtanzahl der vorhandenen Cluster um den Faktor Eins reduziert.

Im nächsten Schritt werden unter den noch vorhandenen Clustern wiederum diejenigen beiden, zwischen denen der geringste Abstand liegt, vereinigt. Zu Beginn des Prozesses sind die Cluster noch Einzelobjekte. Anschließend werden auch die Distanzen zwischen den zu Clustern vereinigten Objekten und den Einzelobjekten gemessen. Die Schleife wird so lange fortgesetzt, bis sich sämtliche Objekte in einem einzigen, großen Cluster vereinigen.

Die verschiedenen Cluster-Methoden

Zur Distanzbestimmung kommen fünf Clustermethoden zum Einsatz. Das Linkage zwischen Gruppen konstruiert Paare aus Objekten auf eine Art und Weise, dass sie aus jedem der beiden Cluster jeweils ein Objekt beinhalten. Die Distanz dieser Paare wird ermittelt und anschließend das arithmetische Mittel gebildet. Dieses gilt als die Distanz zwischen den Clustern.

Beim Linkage innerhalb der Gruppen werden sämtliche Paare erstellt, die sich aus den Objekten beider Cluster konstruieren lassen. Dies bezieht sich auch auf solche Paare, deren Objekte im selben Cluster liegen. Auch diese Distanz wird durch das arithmetische der einzelnen Distanzen ermittelt.

Die Nächster-Nachbar-Methode sieht vor, dass dasjenige Paar aus den Objekten beider Cluster gesucht wird, das die kürzeste Entfernung zueinander (also die nächste Nachbarschaft) aufweist. Diese Entfernung wird gewertet als Distanz zwischen den Clustern. Analog dazu sieht die Entferntester-Nachbar-Methode vor, dasjenige Paar aus den Objekten beider Cluster zu suchen, das die größte Distanz aufweist.

Beim Zentroid-Clustering werden im ersten Schritt die arithmetischen Mittel sämtlicher Objekte in einem Cluster bestimmt. Im Anschluss erfolgt die Ermittlung der Distanz zwischen den beiden Clustern durch den Vergleich der auf diese Weise ermittelten Zahlen.

Die Ward-Methode basiert auf der Ermittlung der Variablenmittelwerte der neuen Cluster. Im Anschluss werden die Abstände sämtlicher einzelner Objekte aufsummiert zu Cluster-Mittelwerten. Schließlich werden die Objekte zusammengefasst, bei denen es sich um den geringsten Zuwachs der Gesamtsumme aus den Distanzen handelt.

Sie haben noch Fragen?

Kontaktieren Sie uns