Șablon de sac de cuvinte

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Un model pentru cuvântul pungă (engleză: model Bag-of-words, acronim: BOW) este o metodă utilizată în „ Recuperarea informațiilor și procesarea limbajului natural” pentru a reprezenta documente care ignoră ordinea cuvintelor. În acest model, fiecare document este considerat ca conținând cuvinte, asemănător unui sac; aceasta permite o gestionare bazată pe listă a acestora, în care fiecare pungă conține anumite cuvinte dintr-o listă. În Computer Vision se aplică clasificării imaginilor, tratând imaginea ca o caracteristică a cuvintelor. În special, în recunoașterea obiectelor , o imagine poate fi tratată ca un document, iar caracteristicile detectate în anumite puncte ale imaginii sunt considerate „cuvinte” vizuale. În clasificarea documentelor, cuvântul sac este un vector împrăștiat al numărului de apariții de cuvinte, care nu este altceva decât o histogramă împrăștiată pe vocabular. În Computer Vision, o pungă vizuală de cuvinte este un vector împrăștiat de apariții de vocabular ale caracteristicilor imaginii locale.

Cerere

În filtrarea spamului Baysian, un mesaj de e-mail este modelat ca o colecție dezordonată de cuvinte selectate de una sau două distribuții de probabilitate: un reprezentant al spamului și un reprezentant al e-mailului legitim. În timp ce unele cuvinte vor fi găsite în ambele „pungi”, altele vor fi găsite numai în punga de spam și altele numai în punga „nu de spam”.

Elemente conexe

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT