zum Hauptinhalt springen
Qualtrics Home page

Probieren Sie Qualtrics
kostenlos aus

Kostenloses Konto

Topic Modelling – Bewährtes Verfahren in der Textanalyse

Lesezeit: 9 Minuten
Topic Modelling, ferner bekannt als Textkategorisierung oder Taxonomie, ist eine der gängigsten Techniken zur Datenstrukturierung in der Textanalyse. Dabei beziehen sich die Termini „Themen“ beziehungsweise „Kategorien“ auf eine Gruppe ähnlicher Konzepte oder Themenbereiche. Das Verfahren ermöglicht statistische Modelle (Topics) zur Darstellung häufiger gemeinsamer Vorkommnisse von Wörtern.


Lesen Sie hier, was Topic Modelling ist, welche Schlüsselfaktoren für die Bearbeitung größerer Textsammlungen entscheidend sind und wie sich Topics in der mehrsprachigen Textanalyse kategorisieren lassen.

Was ist Topic Modelling?

Topic Modelling ist ein Prozess, der verschiedene Themen zu einer einzigen verständlichen Struktur zusammenführt. Grundsätzlich besteht ein Topic Model aus mehreren Ebenen. Es lässt sich aber auch ein einstufiges Topic Model verwenden, das keine Gruppierungen oder hierarchischen Strukturen beinhaltet.

Diese Art der Gruppierung von Themen in solide Konzepte, die ein Unternehmen als wertvoll erachtet, wird als Taxonomie bezeichnet. Ein Beispiel ist das übergeordnete Thema „Mitarbeiterattribute“, das verschiedene untergeordnete Themen wie „Mitarbeitereinstellung“ oder „Mitarbeitereffizienz“ enthält.

Topic Modelling ist im Experience Management von entscheidender Bedeutung, da es  sich zur  Berichterstattung an relevante Stakeholder und zur Weiterleitung von Feedback an die jeweiligen Teams und Abteilungen verwenden lässt.

Ein Hotelier beispielsweise stuft die Kategorie „Employee Experience“ aus Ausbildungssicht als wichtig ein, während die „Room Experience“ für den Housekeeping Manager von besonderem Interesse ist.

Topic Modelling ist unerlässlich für Arbeitgeber, um korrekte Erkenntnisse zu bestimmten Personen im gesamten Unternehmen zu erhalten.

eBook: In neun Schritten zur erfolgreichen Marktforschung

Schlüsselfaktoren von Topic Modelling in der Textanalyse

Drei wichtige Merkmale sind für das Topic Modelling in der Textanalyse auschlaggebend:

Anzahl der Ebenen

Ein Themenmodell kann viele Stufen oder hierarchische Ebenen haben. Im Experience Management empfiehlt es sich jedoch, das Modell auf zwei Ebenen zu beschränken. Alles, was sich darüber erstreckt, ist für den Arbeitsalltag des Führungspersonals zu komplex und beschwerlich zu navigieren. Zudem ist es ist auf lange Sicht sehr mühsam, ein Modell mit mehreren Ebenen aufzubauen und zu warten.

Unterschiedliche Themen

Topic Modelling ermöglicht, mehrere Themen für denselben Satz oder dieselbe Antwort festzulegen. Das bedeutet, dass Themen sich gegenseitig nicht zwingend ausschließen.

Beispiel: „Der Verlust meines Gepäcks löste bei mir extremen Frust aus.“

Diese Aussage lässt sich sowohl in das Thema „Gepäckverlust“, als auch in das Thema „Emotionale Reaktion – Frustration“ einordnen.

Mehrsprachigkeit

Topic Modelling muss sich für die im Unternehmen angewandten Sprachen nutzen lassen. Das bedeutet, dass das Modell in der Lage sein sollte, mehrsprachige Wortlaute unter den jeweiligen Themen zu erfassen.

Beispiel: Ein Kunde in Berlin sagt auf Deutsch, dass es eine „lange Schlange in der Filiale zum Abheben von Bargeld mit einem Scheck“ gibt, während ein Kunde in Paris den gleichen Inhalt mit einer Aussage auf Französisch wiedergibt. Topic Modelling sollte in der Lage sein, beide Rückmeldungen unter dem Thema „Branch Experience – Wartezeit“ abzuspeichern.

Themen für die Textanalyse kategorisieren

Grundsätzlich gibt es zwei Möglichkeiten des Topic Modelling in einem Experience-Management-Programm:

  • Bottom-up – der zugrunde liegende Datensatz informiert über die Themen, die erstellt werden.
  • Top-down – Themen werden unabhängig vom Datensatz vorgegeben.

Bottom-up-Themenmodellierung in der Textanalyse

Bei dieser Form von Topic Modelling gibt es drei Methoden, um Themen basierend auf einem vorhandenen Dataset zu erstellen.

  • Lernalgorithmen – dies ist ein übliches Merkmal guter Textanalysesoftware und verwendet häufig einen Referenzdatensatz, um Themen zu finden. Die Referenzdatensätze werden normalerweise aus öffentlich zugänglichen Textdaten wie Forschungsartikeln, Medieninhalten oder Blogs erstellt. Diese Vorgehensweise ist zwar aus sprachlicher Sicht nützlich, aber weniger hilfreich, wenn damit Themen für ein VOC-Programm oder ein Employee-Experience-Programm formuliert werden. Obwohl dies eine nützliche Methode ist, sind Lernalgorithmen allein für die Entwicklung eines Topic Models nicht zu empfehlen.
  • Statistiken – umfassende statistische Auswertungen wie eine Clusteranalyse können verwendet werden, um die wichtigsten Keywords oder Kombinationen basierend auf ihrem Vorkommen oder ihrer Häufigkeit vorzuschlagen. Obwohl dieser Ansatz veraltet ist, ist seine Anwendung bei der Analyse von Experience Data sinnvoll. Dies gilt insbesondere in Bezug auf bestimmte Berührungspunkte in der Kundenerfahrung, die sowohl spezifisch sind als auch tendenziell ein größeres Datenvolumen aufweisen.
  • Manuelle Abfrage – eine einfache und gleichermaßen effektive Methode der Bottom-up-Themenmodellierung besteht darin, Themen manuell basierend auf der Wortzahl der verschiedenen Wörter zu formulieren, die im Datensatz verwendet werden. Diese Methode gilt häufig als arbeitsintensiv, ineffizient und überholt. Es gibt jedoch die Möglichkeit, einfache Techniken zu verwenden, um den Prozess der manuellen Abfrage zu beschleunigen und ihn für den spezifischen Datensatz relevant zu machen.

Top-Down-Themenmodellierung in der Textanalyse

Top-Down-Themenmodellierung ist ein deutlich präskriptiveres Verfahren zum Erstellen eines Topic Models. Die zwei hauptsächlich genutzten Methoden sind die Folgenden:

  • Branchenmodelle – Taxonomie und Textanalysesoftware ermöglichen Branchenmodelle, die auf Kundenerfahrungen mit ähnlichem Anwendungsfall basieren. Sie sind in der Praxis ein guter Einstieg in das Topic Modelling. Dennoch sollte sich nicht zu sehr auf ein vorgefertigtes Modell verlassen werden, denn Unternehmen derselben Branche betreiben Geschäfte auf unterschiedliche Art., Zusätzlich verwenden ihre Kunden oft eine differierende Terminologie, um Produkte, Dienstleistungen oder Werbeaktionen zu bezeichnen.
  • Manuelle Abfragen basierend auf Nutzererfahrung – dieser manuelle Ansatz ist dem der Bottom-up-Themenmodellierung sehr ähnlich, mit der Ausnahme, dass er eher präskriptiv ist und auf der Erfahrung des Nutzers, der das Modell erstellt hat, basiert. Passende Beispiele: Ein Nutzer dupliziert Themen aus einem früheren Taxonomiemodell oder ein erfahrener Manager kategorisiert Themen, von denen er weiß, dass sich seine Kunden auf diese beziehen werden.

Topic Modelling in der Textanalyse: Best Practices

Jeder Ansatz im Topic Modelling birgt Vor- und Nachteile. Für ein effektives Verfahren zur Exploration größerer Textsammlungen empfiehlt sich die Kombination mehrerer Methoden.

Schritt 1: Top-Down-Ansatz mit einem vorgefertigten Modell

Angenommen, das Modell muss eine Analyse zu allen Themen in den Daten bereitstellen, istder schnellste Weg zur Analyse unterschiedlicher Themen in der vorhandenen Datenmenge jener über ein vorgefertigtes Modell. Es gibt dabei zwei unterschiedliche Möglichkeiten vorzugehen:

  • Branchenmodelle – die Textanalysesoftware sollte Ihnen die Möglichkeit bieten, vorgefertigte horizontale/vertikale Modelle zur Auswahl innerhalb Ihres Projektbereichs zu verwenden.
  • Konfigurierte Modelle – es wird ein Modell verwendet, das in der Vergangenheit für einen ähnlichen Fall an anderer Stelle in der Organisation konfiguriert wurde. Konfigurierte Modelle bieten der Textsoftware die Möglichkeit, Modelle aus anderen Projekten zu verwenden z. B. über das Exportieren eines Models aus einem Projekt und Importieren der Datei in das andere, das eine Analyse benötigt.

Schritt 2: Bottom-Up-Verfahren zur automatischen Themenerkennung

Die meisten Textanalysesoftwares sollten in der Lage sein, Themen im Datensatz zu erkennen oder automatisch Themen aus dem Datensatz, basierend auf der verwendeten Lern- oder Clusterfähigkeit, zu entnehmen. Sich ausschließlich auf Themenempfehlungen zu verlassen, ist nicht zu empfehlen. Gleichwohl stärkt die automatische Themenerkennung das Modell. Nach Erhalt der Themenempfehlungen ist es wichtig, die automatisch generierten Topics zu überprüfen und diejenigen, die als interessant erscheinen, zum bestehenden Modell hinzuzufügen.

Schritt 3: Detailgenauigkeit verbessern

Das vorgefertigte Modell sowie die automatisch generierten Themen müssen jetzt detailgenau optimiert werden. Es ist ratsam, alle Themen zu begutachten und zu überprüfen, ob die passenden Antworten erfasst und gekennzeichnet wurden. Für den ersten Durchgang empfiehlt sich, mindestens 15 bis 20 wörtliche Antworten pro Thema zu überprüfen, um ein gutes Maß an Genauigkeit zu erreichen.

Schritt 4: Optimierung des Topic Models

Der letzte und wohl wichtigste Schritt besteht darin, Fehler im Modell zu beseitigen und es manuell zu optimieren, um den Gesamtprozentsatz der Äußerungen zu erhöhen, die mindestens eine Themenzuordnung aufweisen. Dies geschieht beispielsweise, indem vorhandene Themen im Modell verbessert oder weitere Themen zum Erfassen von Wortlauten erstellt werden.

Summary of Sports Topic Modelling Report

Mit Qualtrics und Topic Modelling die besten Insights erhalten

In der freien Texteingabe sind oft nützliche praxisorientierte Informationen versteckt. Die Textanalyse und das dazu gehörigen Verfahren des Topic Modelling sind allerdings aufwendig, gar unmöglich in Anbetracht großer Datenmengen. Das Textanalyse-Tool Qualtrics Text iQ hilft Ihnen bei der Auswertung all Ihrer Texteingaben und trägt gleichzeitig dazu bei, mehr über Ihre Kunden und Mitarbeiter zu erfahren.

eBook: In neun Schritten zur erfolgreichen Marktforschung