N-grammi

N-grammi on kielitieteessä käytetty käsite. Se on n merkin, morfeemin tai sanan mittainen jakso. Tavallisesti käytettyjä n-grammeja ovat muun muassa kahden merkin tai sanan mittaiset digrammit (n=2) ja kolmen merkin tai sanan mittaiset trigrammit (n=3). [1]

N-grammimallit ovat tapa rakentaa tilastollisia kielimalleja, joissa käytetään indeksointiyksiköinä vakiomittaisia peräkkäisiä merkkijonoja tai sanoja.[2] Kieliteknologiassa n-grammeihin perustuvia kielimalleja on hyödynnetty muun muassa automaattisessa puheentunnistuksessa, sanan sanaluokan tai merkityksen määrittämisessä, oikeinkirjoituksen tarkistuksessa ja tiedonhaussa.

  1. Anni, Järvelin & Sanna, Kumpulainen & Ari, Pirkola & Eero, Sormunen: Sumeat käännösmenetelmät läheisten sukulaiskielten välisessä tiedonhaussa [Fuzzy transla-tion techniques in cross-language information retrieval between closely related languages]. Informaatiotutkimus, 2006, 25. vsk, nro 4, s. 86–96. Artikkelin verkkoversio. Viitattu 2.10.2010.
  2. Vatanen, Tommi: Kielentunnistus lyhyista tekstilohkoista N-grammi-malleihin perustuvalla luokittimella. Kandidaatinty¨o. Espoo: Teknillinen korkeakoulu, Elektroniikan, tietoliikenteen ja automaation tiedekunta, 2009. Teoksen verkkoversio (viitattu 13.6.2020).

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search