N-gram
Salt la navigare Salt la căutare
Un n-gram este o subsecvență de n elemente ale unei secvențe date. Conform aplicației, elementele în cauză pot fi foneme , silabe , litere , cuvinte etc. Un n-gram de lungime 1 se numește „unigramă”, de lungime 2 „ digraf ”, de lungime 3 „ trigramă ” și, de la lungimea 4 în continuare, „n-gram”. Unele modele de limbaj construite din n-grame sunt lanțuri Markov de ordinul n-1.
Exemple
Iată câteva exemple de trigrame de cuvinte și numărările aferente obținute din corpusul Google n-gram.
- ceramică de colecție de colecție (55)
- articole de colecție din ceramică fină (130)
- ceramică colectată de (52)
- ceramică ceramică de colecție (50)
- ceramică de colecție de gătit (45)
Bibliografie
- Christopher D. Manning, Hinrich Schütze, Fundamentele procesării statisticului limbajului natural , presa MIT: 1999. ISBN 0-262-13360-1 .
- Ted Dunning, Identificarea statistică a limbii . Memorandumul laboratorului de cercetare în calcul (1994) MCCS-94-273.
- Owen White, Ted Dunning, Granger Sutton, Mark Adams, J.Craig Venter și Chris Fields. Un algoritm de control al calității pentru proiectele de secvențiere ADN. Cercetarea acizilor nucleici, 21 (16): 3829-3838, 1993.
- Frederick J. Damerau, Markov Models and Linguistic Theory . Mouton. Haga, 1971.