Model de subiect

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În învățarea automată și procesarea limbajului natural , un model de subiect este un tip de model statistic pentru descoperirea „subiectelor” abstracte care apar într-o colecție de documente. Acestea sunt frecvent utilizate pentru descoperirea structurilor semantice ascunse într-un text sau într-o colecție de texte. Intuitiv, întrucât un document se referă la un anumit subiect, ne-am aștepta ca anumite cuvinte să apară în document mai mult sau mai puțin frecvent: „câine” și „os” vor apărea mai des în documentele câinilor, vor apărea „pisică” și „miau” în documentele despre pisici și „the” și „is” vor apărea aproximativ la fel în ambele. Un document acoperă de obicei mai multe subiecte în proporții diferite; prin urmare, într-un document care vorbește despre 10% din pisici și 90% din câini, probabil ar exista de aproximativ 9 ori mai multe cuvinte pentru câini decât cuvinte pentru pisici. Acești algoritmi caută grupuri de cuvinte similare. Un model de subiect surprinde această perspectivă asupra unui cadru matematic, permițându-vă să examinați o serie de documente și să aflați, pe baza statisticilor cuvintelor din fiecare, care ar putea fi argumentele și care este echilibrul argumentelor din fiecare document.

Modelele de subiecte sunt considerate probabiliste, deoarece se referă la algoritmi statistici pentru descoperirea structurilor latente. Modele de subiecte au fost folosite pentru a detecta structuri instructive în date precum informații genetice, imagini și rețele. De asemenea, au aplicații în alte domenii, cum ar fi bioinformatica [1] și viziunea computerizată [2] .

Animarea procesului de descoperire a subiectului. Fiecare coloană este un text, fiecare linie un cuvânt. Fiecare celulă reprezintă frecvența unui cuvânt dintr-un text. Celulele întunecate reprezintă frecvențe înalte. Modelele de subiecte grupează cuvinte similare și documente similare în același timp.

Model de subiect pentru științele vieții

Modelele de subiecte sunt utilizate și în alte contexte. De exemplu, utilizările modelelor de subiecte au apărut în biologie și bioinformatică [3] . În acest caz, argumentele care trebuie deduse sunt variabile biologice, cum ar fi funcțiile sau procesele celulare. Recent s-a propus să se utilizeze modele de subiecte pentru a studia datele de secvențiere a ARN ale probelor tumorale. [4]

Notă

  1. ^ David Blei, Modele de subiect probabilistic , în Comunicări ale ACM , vol. 55, nr. 4, aprilie 2012, pp. 77–84, DOI : 10.1145 / 2133806.2133826 .
  2. ^ Cao, Liangliang și Li Fei-Fei. „ Model de subiect latent coerent spațial pentru segmentarea și clasificarea simultană a obiectelor și scenelor .” 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007.
  3. ^ Liu, L. și Tang, L., O prezentare generală a modelării subiectelor și a aplicațiilor sale actuale în bioinformatică , în SpringerPlus , vol. 5, 2016, p. 1608, DOI : 10.1186 / s40064-016-3252-8 , PMID 27652181 .
  4. ^ (EN) Filippo Valle, Matteo Osella și Michele Caselle, A Topic Modeling Analysis of TCGA Breast and Lung Cancer Data transcriptomic data , in Cancers, vol. 12, 21 octombrie 2020, p. 3799, DOI : 10.3390 / cancer12123799 . Adus la 16 decembrie 2020 .