zum Hauptinhalt springen
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Cluster-Analyse


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Cluster-Analyse

Wenn wir unsere Daten analysieren, beschäftigen wir uns oft mit verschiedenen demografischen Gruppen und werden die Befragten nach Einkommen, Region, Alter und mehr segmentieren. Aber manchmal können diese Labels reduktiv sein. Denn wenn Sie wissen, dass viele männliche Teilnehmer haben, können Sie nicht sagen, welche Art von Werbekampagne sie sehen möchten. Ist Ihr Publikum in erster Linie Millenials? Fußballväter? Beide? Wie fassen Sie persönliche Merkmale in Begriffe zusammen, die für Marketingzwecke aufgeschlüsselt werden können?

Die Clusteranalyse ist ein Mittel, um die Gruppen zu ermitteln, die natürlich im Datenset Ihrer Umfrage vorkommen. Dazu wird analysiert, welche demografischen, verhaltensorientierten und/oder glaubwürdigsten Eigenschaften am ehesten korreliert sind.

Cluster-Drucktaste links im Dropdown-Menü "Erweitert"

Tipp: Sie können bis zu 750 Karten in Ihrem Arbeitsbereich haben. Wenn Sie dieses Limit erreichen, wird ein Fehler angezeigt, wenn Sie versuchen, eine neue Karte anzulegen. Sie werden darauf hingewiesen, dass Ihre ältesten Karten gelöscht werden.

Umfrage für Cluster-Analyse vorbereiten

Um eine Cluster-Analyse durchzuführen, müssen Sie die korrekten Daten in Ihrer Umfrage sammeln.

  • Stellen Sie die richtigen Fragen: 
    • Demografie: Fragen Sie nach grundlegenden beschreibenden Informationen wie Alter, Einkommensklasse, Rasse oder Geschlecht.
    • Verhalten: Fragen Sie, wie Kunden mit Ihrer Marke und Ihren Produkten interagieren, oder nach Verhaltensweisen, die sich auf ihr Kaufverhalten beziehen können. Sie können beispielsweise fragen, wie oft der Kunde einkauft.
    • Operative Daten: Hierbei handelt es sich um Informationen wie die auf Ihrer Website aufgewendete Zeit oder die Beschäftigungsdauer eines Mitarbeiters in Ihrem Unternehmen.
      Tipp: Interessieren Sie sich für die Nachverfolgung der auf einer Seite aufgewendeten Zeit?  Dann könnten Sie an unserer Website-Feedback-Funktion interessiert sein. Wenden Sie sich an Ihren Vertriebsbeauftragten, wenn Sie mehr erfahren möchten.
    • Einstellungen und Überzeugungen: Befragen Sie Ihre Teilnehmer zu ihren Grundwerten, ihren Einstellungen und Überzeugungen. Dies kann religiöse oder politische Überzeugungen umfassen, aber Sie können auch nach Überzeugungen fragen, die für die Arbeitsweise Ihres Unternehmens direkt relevant sind. Sie können sie beispielsweise bitten, zu bewerten, wie wichtig es ist, dass Support-Interaktionen persönlich erfolgen.
  • Fragenformate: Formatieren Sie Fragen zu Verhaltensweisen und Überzeugungen als Skalen. Der Bereich auf einer Skala kann uns dabei helfen zu verstehen, welche Skalenwerte korreliert sind und somit ungefähr im selben Cluster liegen. Ja/Nein-Fragen und Fragen mit Einzelauswahl sind für die Clusteranalyse nicht so nützlich.
    Beispiel: Wenn Sie fragen: „Was für ein Käufer sind Sie?“ und die Optionen „Prefer Shopping at malls“, „Prefer Shopping online“ und „Prefer Shopping at boutiques“ anbieten, möchte der Clustering-Algorithmus die Teilnehmer in drei Gruppen aufteilen, eine für jede Antwort. Wenn Sie diese stattdessen als eine Reihe von Fragen gestellt haben (z. B. „Einkaufen Sie gerne in den Malls?“) Mit den Antworten 1 bis 7 kann der Clustering-Algorithmus besser erkennen, was die verschiedenen Käufer voneinander trennt.
    Tipp: Multiple-Choice-Fragen sind die besten, um skalare Daten zu sammeln.
  • Variablentypen: Wenn Sie für die Analyse in Stats iQ bereit sind, müssen Sie Ihre Variablen als Kategorien oder Zahlen formatieren. Datumsangaben sind nicht mit der Clusteranalyse kompatibel.
Tipp: Berücksichtigen Sie beim Anlegen Ihrer Variablen diejenigen, die Sie bereits kennen, als stark korreliert. Auf diese Weise können Sie die Obergrenze von 10 Variablen bei der Clusteranalyse beibehalten.
Achtung: Die maximale Stichprobengröße der Cluster-Analyse beträgt 20.000 Antworten.

Cluster-Analyse durchführen

Tipp: Sie können nur eine Clusteranalyse für jeweils 10 Variablen durchführen. Wenn Sie mehr einschließen möchten, versuchen Sie, Variablen zu finden, die stark miteinander korreliert sind, und erstellen Sie über die Drucktaste Variable erstellen oder bereinigen einen Durchschnitt davon.

Cluster-Drucktaste links im Dropdown-Menü "Erweitert"

  1. Stellen Sie sicher, dass die Variablentypen Ihrer Fragen entweder auf numerisch oder kategorisch gesetzt sind.
  2. Wählen Sie links die Variablen aus, die Sie analysieren möchten.
  3. Klicken Sie auf Cluster.

Cluster-Analyseergebnisse

Stärke- und Statiktabelle

Die Tabelle listet die Stichprobengröße (wie viele Teilnehmer zu dieser Analyse beigetragen haben), die Anzahl der Cluster und die Silhouettenbewertung auf. Die Silhouettennote wird im Satz oben in Phrasen wie „sehr stark“ interpretiert.

Teilnehmer sind sehr stark in 2 Gruppen geclustert; Stichprobengröße 126; Anzahl Cluster 2; Silhouetten-Score 0,7

Tipp: Weitere Informationen zur Silhouettenbewertung in dieser Tabelle finden Sie im Abschnitt Clusteranalyse interpretieren.

Die Clusteranalyse versucht, die entsprechende Anzahl von Clustern automatisch auszuwählen, indem sie die Engpässe des Clusters bei verschiedenen Zahlen bewertet, aber höhere Clusterzahlen benachteiligt, damit sie schwieriger arbeiten können. Die richtige Zahl zu wählen, ist mehr Kunst als Wissenschaft, und Sie sollten mit verschiedenen Zahlen experimentieren, um zu sehen, was am besten funktioniert.

In einigen Fällen kann der Algorithmus eine bestimmte Anzahl von Clustern nicht erzeugen und fällt auf eine kleinere Anzahl zurück.

Cluster-Übersicht

Ihre Cluster werden im Abschnitt Cluster-Übersicht aufgeführt. Sie werden basierend auf den Fragen beschrieben, die Mitglieder des Clusters am ähnlichsten beantwortet haben.

Cluster 1 und Cluster 2 werden beschrieben.

Beispiel: Cluster 1 in diesem Screenshot enthält Personen, die:
sind

  • Verheiratet
  • Master-Abschluss haben
  • Nur wenige Personen (unmittelbare Familienmitglieder, Kinder) in ihrem Zuhause haben
  • Jung

Klicken Sie auf den Namen eines Clusters, um ihn umzubenennen.

Tipp: Die Umbenennung Ihrer Cluster ist wichtig, damit Ihre Ergebnisse in einem realen oder Marketingkontext sinnvoller sind.

Umbenennung von Cluster 1 in hochgebildete Millenialeltern

Cluster-Ergebnistabelle

In der Tabelle Cluster-Ergebnisse werden die Hauptvariablen des Clusters hervorgehoben. Für kategorische Variablen werden die gebräuchlichste Option und der Prozentsatz der Befragten im Cluster, die diese Antwort bereitgestellt haben, angegeben. Bei Zahlenvariablen sehen Sie eine durchschnittliche Antwort.

Beispiel: In diesem Screenshot ist der Bildungsgrad kategorisch, sodass wir einen Breakout zu den Prozentsätzen der Befragten mit Doktorabschluss vs. sehen. Weniger als die Ausbildung eines Gymnasiums vs. Masterabschluss.

Das Alter ist hier numerisch, sodass das Durchschnittsalter für jedes Cluster angezeigt wird (32,4 für Cluster 1, 50,3 für Cluster 2).

Cluster-Ergebnistabelle

Weitere Informationen zum Anlegen von Variablen aus Clustern finden Sie im Abschnitt Variable aus Clustern anlegen.

Bedeutung der Variablen

Die Tabelle Wichtigkeit der Variablen zeigt die Stärke der Beziehung zwischen jeder Variable und den Clustern an. Eine stärkere Beziehung zeigt an, dass die Variable beim Anlegen der Cluster wichtiger war.

Um dies zu berechnen, führen wir Regressionen für jede Variable aus. Beispielsweise würden wir das Alter für das Cluster-Ergebnis, die Arbeitsstunden für das Cluster-Ergebnis usw. ausführen.

Die R-Quadratwerte, die sich aus diesen Regressionen ergeben, werden dann so skaliert, dass das höchste R-Quadrat auf 1 gesetzt wird.

Beispiel: Angenommen, Q7 hatte ein R-Quadrat von 0,5, das höchste in der Gruppe. Wir müssen das verdoppeln, um es auf 1 zu setzen. Das heißt, wenn Q13 ein R-Quadrat von 0,4 hätte, würde es im Diagramm unten als 0,8 angezeigt.

Variable Wichtigkeit blaues horizontales Balkendiagramm

Neue Variablen aus Ergebnissen anlegen

Sobald Sie unter Ihren Teilnehmern Cluster festgelegt haben, können Sie diese Kategorien in neue Variablen umwandeln, die Sie in Stats iQ analysieren können.

Stellen Sie zunächst sicher, dass Sie Ihre Cluster umbenennen, indem Sie in ihre Namen klicken.

Umbenennung von Cluster 1 in hochgebildete Millenialeltern

Tipp: Der Umbenennungsschritt ist nicht erforderlich, aber er macht Ihre Daten sauberer und verständlicher für Sie und Ihre Kollegen.

Wenn Ihre Cluster Namen haben, die für Sie sinnvoll sind, klicken Sie unter der Tabelle Clusterergebnisse auf Variable aus Clustern erstellen. Dadurch wird Ihrer Liste der Variablen auf der linken Seite automatisch eine kategorische Variable hinzugefügt.

Variable aus Clusterdrucktaste in Weiß unter Cluster-Ergebnistabelle anlegen

Tipp: Diese Variable ist nur in Stats iQ verfügbar. Sie wird an keiner anderen Stelle in Ihren Qualtrics-Daten angezeigt.

Technische Hinweise

Die Cluster-Analyse in Stats iQ verwendet die Latent-Class-Analyse (LCA), um vom Benutzer bereitgestellte Daten in seine zugrunde liegenden Cluster zu partitionieren. Im Gegensatz zu anderen Clustering-Algorithmen ermöglicht der Stats iQ LCA-Algorithmus das Clustering gemischter Datentypen (numerisch, kategorisch und binär).

Analyse der gemischten Latent-Klasse

Die Latent-Class-Analyse (LCA) ist ein wahrscheinlichkeitsbasiertes Clustering-Modell. Jeder Cluster wird durch eine Sammlung von Wahrscheinlichkeitsdichtefunktionen definiert, die basierend auf dem Wert der Variablen eines Datenpunkts die Wahrscheinlichkeit zurückgibt, dass ein bestimmter Datenpunkt zu diesem Cluster gehört.

Beispiel: Ihre Familie lässt sich in ein paar Generationen aufteilen, wie die aktuellen Kinder, die Eltern und die Großeltern. Ein LCA-Modell würde diese 3 Cluster darstellen, wobei jedes Cluster durch eine einzelne Wahrscheinlichkeitsfunktion basierend auf dem Alter definiert wird:

Cluster Wahrscheinlichkeitsfunktion Mittelwert  Wahrscheinlichkeitsfunktion Standardabweichung
Aktuell 25 7
Eltern 48 5
Großeltern 75 3

Um jemandem, der 30 ist, ein Cluster zuzuweisen, verwenden Sie diese Wahrscheinlichkeitsdichtefunktionen, um zu berechnen, dass eine Wahrscheinlichkeit von 44 % besteht, dass sie sich in Aktuell befinden, <1 % Wahrscheinlichkeit, dass sie zu Eltern gehören, und <1 % Wahrscheinlichkeit, dass sie sich in Großeltern befinden. Diese Person wird dem wahrscheinlichsten Cluster Aktuell zugeordnet.

Ein LCA-Modell kann auf mehrere Variablen angewendet werden, indem die Wahrscheinlichkeit multipliziert wird, dass ein Datenpunkt basierend auf jeder Variablen zu einem Cluster gehört. Das Modell kann auf verschiedene Variablentypen angewendet werden, indem verschiedene Wahrscheinlichkeitsdichtefunktionen verwendet werden:

Typ Transformation Wahrscheinlichkeitsdichte
Kategorisch Dummy verschlüsselt (N-1) Bernoulli
Binär Bernoulli
Numerisch Normal

Anzahl Klassen ermitteln

Um die optimale Anzahl von Klassen zu ermitteln, verwendet Stats iQ einen BIC-Score.

Modellanpassung bewerten

Um das Ziel „Güte“ eines Modells zu bewerten, verwendet Stats iQ eine wahrscheinlichkeitsbasierte Silhouettenbewertung. Ein Silhouetten-Score ist ein Maß dafür, wie gut sich jeder Datenpunkt in seinem Cluster befindet. Ein Silhouetten-Score misst die Ähnlichkeit eines bestimmten Punkts mit allen anderen Punkten in seinem Cluster und vergleicht diese mit der Ähnlichkeit mit allen Punkten im nächsten benachbarten Cluster. Um die Ähnlichkeit zwischen zwei Datenpunkten zu messen, berechnet Stats iQ die Gower Distanz (eine Entfernungsmetrik, die für binäre, kategorische und numerische Daten verwendet wird) zwischen den Punkten.

Häufig gestellte Fragen

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.