Categorizarea textului
Clasificarea text (în limba engleză clasificarea text sau clasificare de text, prescurtat ca TC) este, în inteligență artificială , o activitate care se ocupă cu clasificarea textelor digitale exprimate într - un limbaj natural prin atribuirea în mod automat colecții de documente la una sau mai multe clase care aparțin unei predefinite " set de clase ".
Pentru a realiza acest lucru, se folosesc de obicei abordări de învățare automată supravegheate , unde este necesar să se antreneze sistemul prin auto-învățare prin exemple (numite și instanțe) din care să se genereze un model general pentru clasificarea automată. Cu toate acestea, există alte abordări, cum ar fi nesupravegheate sau semi-supravegheate, dar de obicei cu rezultate mai slabe.
Aplicații
O aplicație tipică pentru această tehnică este interpretarea e-mailurilor , cu scopul de a semnaliza posibilele e-mailuri nedorite ( spam ).