Themenmodellierung

Themenmodellierung ist eine Methode des maschinellen Lernens, die verwendet wird, um Themen in einem Textkorpus zu identifizieren und zu klassifizieren.[1] Sie verwendet statistische Methoden, um die Häufigkeit von Wörtern in Bezug auf bestimmte Themen zu analysieren und Muster zu erkennen. Das Ergebnis ist eine Darstellung des Textkorpus in Form von Themen, die als Gruppe von Wörtern definiert sind, die häufig zusammen auftreten. Es wird oft in der Textanalyse, der Informationssuche und der Dokumentenklassifizierung verwendet.

Im Allgemeinen können Themenmodelle in zwei Klassen eingeteilt werden: probabilistische und nicht-probabilistische Modelle.[2] Nicht-probabilistische Modelle funktionieren über einen algebraischen Matrixfaktorisierungsansatz und sind die älteren Modelle der beiden Klassen. Die probabilistischen Modelle wurden entwickelt, um die Ergebnisse der nicht-probabilistschen Modelle zu verbessern, indem durch Verwendung generativer Modellansätze ein Wahrscheinlichkeitssinn hinzugefügt wurde.[1]

  1. a b David M. Blei: Probabilistic topic models. In: Communications of the ACM. Band 55, Nr. 4, 1. April 2012, ISSN 0001-0782, S. 77–84, doi:10.1145/2133806.2133826.
  2. Pooja Kherwa, Poonam Bansal: Topic Modeling: A Comprehensive Review. In: EAI Endorsed Transactions on Scalable Information Systems. Band "7", Nr. 24, 24. Juli 2019, ISSN 2032-9407, doi:10.4108/eai.13-7-2018.159623 (eudl.eu [abgerufen am 23. Januar 2023]).

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search