Categorizarea textului

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Clasificarea text (în limba engleză clasificarea text sau clasificare de text, prescurtat ca TC) este, în inteligență artificială , o activitate care se ocupă cu clasificarea textelor digitale exprimate într - un limbaj natural prin atribuirea în mod automat colecții de documente la una sau mai multe clase care aparțin unei predefinite " set de clase ".

Pentru a realiza acest lucru, se folosesc de obicei abordări de învățare automată supravegheate , unde este necesar să se antreneze sistemul prin auto-învățare prin exemple (numite și instanțe) din care să se genereze un model general pentru clasificarea automată. Cu toate acestea, există alte abordări, cum ar fi nesupravegheate sau semi-supravegheate, dar de obicei cu rezultate mai slabe.

Aplicații

O aplicație tipică pentru această tehnică este interpretarea e-mailurilor , cu scopul de a semnaliza posibilele e-mailuri nedorite ( spam ).

Elemente conexe