N-Gramm

Ein N-Gramm, manchmal auch Q-Gramm genannt,[1] ist das Ergebnis der Zerlegung eines Textes in Fragmente.

Der Text wird dabei zerlegt, und jeweils  aufeinanderfolgende Fragmente werden als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Korpuslinguistik, speziell auch in der Computerlinguistik, Quantitativen Linguistik und Computerforensik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt[2] und in Datensätzen zusammengefasst.

Drei Datensätze von N-Grammen aus Google Books mit den Stichtagen Juli 2009, Juli 2012 und Februar 2020 wurden mit einer Weboberfläche und grafischer Auswertung in Form von Diagrammen versehen und unter dem Namen Google Books Ngram Viewer ins Netz gestellt.

  1. Stefan-Patrick Selbach: Hybride bitparallele Volltextsuche. (PDF, 3,5 MB) In: Dissertation. Universität Würzburg, Fakultät für Mathematik und Informatik, 2011, S. 20, abgerufen am 8. Oktober 2021.
  2. Dan Jurafsky Stanford University and James H. Martin University of Colorado Boulder: Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. In: 3. Language Modeling with N-Grams. Abgerufen am 3. April 2020 (englisch).

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search