N-gram

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Un n-gram este o subsecvență de n elemente ale unei secvențe date. Conform aplicației, elementele în cauză pot fi foneme , silabe , litere , cuvinte etc. Un n-gram de lungime 1 se numește „unigramă”, de lungime 2 „ digraf ”, de lungime 3 „ trigramă ” și, de la lungimea 4 în continuare, „n-gram”. Unele modele de limbaj construite din n-grame sunt lanțuri Markov de ordinul n-1.

Exemple

Iată câteva exemple de trigrame de cuvinte și numărările aferente obținute din corpusul Google n-gram.

  • ceramică de colecție de colecție (55)
  • articole de colecție din ceramică fină (130)
  • ceramică colectată de (52)
  • ceramică ceramică de colecție (50)
  • ceramică de colecție de gătit (45)

Bibliografie

  • Christopher D. Manning, Hinrich Schütze, Fundamentele procesării statisticului limbajului natural , presa MIT: 1999. ISBN 0-262-13360-1 .
  • Ted Dunning, Identificarea statistică a limbii . Memorandumul laboratorului de cercetare în calcul (1994) MCCS-94-273.
  • Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter și Chris Fields. Un algoritm de control al calității pentru proiectele de secvențiere ADN. Cercetarea acizilor nucleici, 21 (16): 3829-3838, 1993.
  • Frederick J. Damerau, Markov Models and Linguistic Theory . Mouton. Haga, 1971.

Elemente conexe