Șablon de sac de cuvinte
Un model pentru cuvântul pungă (engleză: model Bag-of-words, acronim: BOW) este o metodă utilizată în „ Recuperarea informațiilor și procesarea limbajului natural” pentru a reprezenta documente care ignoră ordinea cuvintelor. În acest model, fiecare document este considerat ca conținând cuvinte, asemănător unui sac; aceasta permite o gestionare bazată pe listă a acestora, în care fiecare pungă conține anumite cuvinte dintr-o listă. În Computer Vision se aplică clasificării imaginilor, tratând imaginea ca o caracteristică a cuvintelor. În special, în recunoașterea obiectelor , o imagine poate fi tratată ca un document, iar caracteristicile detectate în anumite puncte ale imaginii sunt considerate „cuvinte” vizuale. În clasificarea documentelor, cuvântul sac este un vector împrăștiat al numărului de apariții de cuvinte, care nu este altceva decât o histogramă împrăștiată pe vocabular. În Computer Vision, o pungă vizuală de cuvinte este un vector împrăștiat de apariții de vocabular ale caracteristicilor imaginii locale.
Cerere
În filtrarea spamului Baysian, un mesaj de e-mail este modelat ca o colecție dezordonată de cuvinte selectate de una sau două distribuții de probabilitate: un reprezentant al spamului și un reprezentant al e-mailului legitim. În timp ce unele cuvinte vor fi găsite în ambele „pungi”, altele vor fi găsite numai în punga de spam și altele numai în punga „nu de spam”.
Elemente conexe
linkuri externe
- ( EN ) O demonstrație a clasificatorilor de saci de două cuvinte de L. Fei-Fei, R. Fergus și A. Torralba.