Start rece

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Pornirea la rece ( pornirea la rece) este o problemă cu care se confruntă algoritmii computerizați ai sistemelor de informații care se bazează pe modelarea datelor , cum ar fi sistemele de recomandare , care apare atunci când sistemul nu este capabil să facă inferențe utilizatorilor sau articolelor (cărți, filme, produse ...) despre care nu a adunat încă suficiente informații.

Sisteme implicate

Pornirea la rece este o problemă bine cunoscută și face obiectul unor cercetări semnificative în domeniul sistemelor de recomandare . Sistemele de recomandare sunt o familie specifică de sisteme de filtrare a informațiilor al căror scop este de a prezenta utilizatorului articolele ( comerț electronic , filme , muzică , cărți , știri , imagini , pagini de internet ) care sunt cel mai probabil de interes pentru utilizator. toți cei prezenți în catalog. De obicei, un sistem de recomandare compară profilul utilizatorului cu datele de referință. Aceste date pot fi fie atribute ale articolului ( filtrare bazată pe conținut ), fie legate de interacțiunile și activitățile anterioare ale utilizatorului ( filtrare colaborativă ). În funcție de natura sistemului, utilizatorul poate fi asociat cu diferite tipuri de interacțiuni: vot, articole preferate, achiziții, aprecieri , numărul de vizite pe pagină etc.

Există trei cazuri de pornire la rece [1] :

  • Nouă comunitate : se referă la lansarea sistemului de recomandări, unde, deși poate exista un catalog de articole, nu sunt prezenți utilizatori, iar lipsa interacțiunilor face foarte dificilă furnizarea de recomandări în mod fiabil.
  • Element nou : Un articol nou este adăugat în catalog și, deși poate avea informații asociate despre conținutul său, nu a fost supus niciunei interacțiuni cu utilizatorul.
  • Utilizator nou : un utilizator nou se înregistrează în sistem și nu a furnizat încă nicio interacțiune, deci nu este posibil să oferiți recomandări personalizate.

Comunitate nouă

Pornirea la rece în cazul unei noi comunități (sau bootstrap de sistem) se referă la momentul pornirii sistemului, în care, în esență, nu sunt prezente interacțiuni sau utilizatori și sistemul de recomandare nu are nicio informație pe care să se bazeze. Acest caz combină dezavantajele atât ale articolelor noi, cât și ale noilor utilizatori, deoarece ambele vor fi libere de interacțiuni. Datorită acestui fapt, este posibil ca unele dintre tehnicile dezvoltate pentru a se adresa utilizatorilor sau articolelor noi să nu fie aplicabile în acest caz.

Articol nou

În cazul unui articol nou, pornirea la rece se referă la adăugarea unui articol în catalog, unde a obținut o interacțiune redusă sau deloc. Aceasta este în principal o problemă în cazul filtrării colaborative , deoarece această familie de algoritmi determină relevanța unui articol pe baza interacțiunilor sale. Dacă nu este disponibilă nicio interacțiune, atunci un algoritm de colaborare pur nu va putea recomanda articolul nimănui; în cazul în care sunt disponibile doar unele interacțiuni, deși un algoritm de colaborare îl va putea recomanda, calitatea acestor recomandări va fi foarte slabă [2] . Acest lucru evidențiază o altă problemă care nu mai este strict articolele noi, ci toate articolele mai puțin populare. În unele cazuri (de exemplu, recomandări de filme) se întâmplă ca un grup limitat de articole să primească un număr foarte mare de interacțiuni, iar majoritatea celorlalte primesc doar o mică fracțiune: în literatură acest dezechilibru în numărul de interacțiuni se numește prejudecată de popularitate [3 ] .

Numărul de interacțiuni asociate fiecărui element din setul de date Movielens . Puține articole au colectat multe interacțiuni, peste 5000, în timp ce majoritatea altora au mai puțin de 100.

În acest context, tendința de popularitate este importantă, deoarece, deși un articol a fost în catalog de luni de zile, este posibil să fi primit încă doar câteva interacțiuni: acest lucru creează un cerc vicios în care articolele mai puțin populare vor fi recomandate prost (prin urmare, pentru a greși utilizatori) și, prin urmare, vor avea mult mai puțină expunere decât articolele populare, ceea ce le face dificilă primirea de noi interacțiuni [4] . Deși se așteaptă ca unele articole să fie mai puțin populare decât altele, pornirea la rece se referă în mod specific la cazurile în care sistemul de recomandare nu are suficiente date pentru a recomanda în mod fiabil astfel de articole [5] .

Sistemele de recomandare , pe de altă parte, sunt teoretic mult mai puțin predispuse la problema noilor articole. Deoarece algoritmii bazate pe conținut aleg articolele pe care să le recomande pe baza atributelor lor, chiar dacă articolul nu a primit nicio interacțiune, atributele sale vor permite o recomandare [6] . Acest lucru presupune în mod natural că articolele noi sunt descrise prin atributele lor, ceea ce nu este întotdeauna cazul: atributele editoriale (de ex. Regizor, actori, titlu, an) vor fi întotdeauna cunoscute atunci când articolul este adăugat la catalog, totuși, alte tipuri de atribute pot fi să nu fie, cum ar fi cele extrase din recenzii sau etichete furnizate de utilizator [7] . Algoritmii bazați pe conținut care se bazează pe atribute furnizate de utilizator vor fi încă supuși pornirii la rece, deoarece dacă nu au avut loc (sau puține) interacțiuni, nu vor fi introduse (sau puține) recenzii sau etichete.

Utilizator nou

Acest caz de pornire la rece se referă la momentul în care un utilizator nou se înscrie pe sistem și pentru o anumită perioadă de timp, sistemul de recomandare trebuie să ofere recomandări fără a se putea baza pe interacțiunile anterioare ale utilizatorului, deoarece niciuna nu a avut încă loc [1] . Această problemă este deosebit de sensibilă, în cazul în care sistemul de recomandare este o parte importantă a serviciului oferit, întrucât un utilizator care primește recomandări de calitate slabă ar putea decide rapid să nu mai folosească sistemul înainte de a fi capabil să adune interacțiunile de care are nevoie pentru a modela. utilizator și să producă recomandări fiabile. Principala strategie care este adoptată pentru a gestiona cazul noului utilizator este de a le cere să ofere câteva preferințe inițiale pentru a-și construi profilul de utilizator și care vor fi folosite ca referință. Trebuie identificat un punct de întâlnire între durata procesului de înregistrare, care, dacă este prea lungă, ar putea descuraja utilizatorul inducând prea mulți să renunțe și cantitatea de informații de care algoritmul de recomandare are nevoie înainte de a putea funcționa corect [8] .

În mod similar cu cazul noului articol, nu toți algoritmii sunt afectați în mod egal. Algoritmii de recomandare de la articol la articol vor fi supuși acestui lucru, deoarece se bazează pe profil pentru a evalua cât de relevante sunt preferințele altor utilizatori în comparație cu actualul. Algoritmii de filtrare colaborativă sunt cei mai afectați, deoarece, fără interacțiuni, nu pot produce nicio inferență asupra preferințelor utilizatorilor și, prin urmare, nu pot produce recomandări. Algoritmii utilizator-utilizator [9], pe de altă parte, se comportă diferit: un algoritm utilizator-utilizator care se bazează pe atributele utilizatorului (de ex. Vârstă, sex, origine) pentru a identifica utilizatori similari și a recomanda articolele cu care au interacționat în un mod pozitiv, prin urmare va fi robust în comparație cu utilizatorii noi și puțin afectat de pornirea la rece. Este util să ne amintim că toate aceste informații trebuie colectate în timpul procesului de înregistrare, fie prin solicitarea în mod explicit a acestora de la utilizator, fie prin exploatarea datelor deja disponibile în alte surse, de exemplu profilurile sale pe rețelele de socializare [10] .

Strategii de atenuare

Datorită numărului mare de algoritmi de recomandare disponibili, precum și a variabilității mari a caracteristicilor serviciului și a interacțiunilor, au fost dezvoltate mai multe strategii pentru a atenua problema pornirii la rece. De obicei, ne bazăm pe algoritmi hibrizi de recomandare, pentru a combina două sau mai multe categorii de algoritmi pentru a atenua dezavantajele celuilalt. [11] [12] [13]

Toate cele trei categorii de pornire la rece (comunitate nouă, nou, articol, utilizator nou) sunt unite de lipsa interacțiunilor și, prin urmare, în unele cazuri pot fi abordate cu strategii similare.

O strategie obișnuită utilizată pentru gestionarea articolelor noi este asocierea unui filtru colaborativ , pentru elementele deja cunoscute, cu un filtrare bazată pe conținut , pentru elementele noi. Cei doi algoritmi pot fi combinați în mai multe moduri, cu toate acestea, cea mai puternică limitare a acestor tehnici este legată de calitatea slabă a recomandărilor produse de algoritmul bazat pe conținut, unde este dificil să se obțină o descriere exactă a articolului. În cazul noilor utilizatori, dacă informațiile demografice nu sunt disponibile (de exemplu, vârsta, sexul, profesia, statutul) sau calitatea acestora este slabă, o alegere obișnuită este înlocuirea algoritmului de conținut prin recomandări nepersonalizate. Aceasta înseamnă, de exemplu, recomandarea celor mai populare articole la nivel global sau pe țări, limbi ...

Îmbogățirea profilului

Una dintre strategiile posibile pentru a gestiona elemente sau utilizatori noi este să încerce să dobândească rapid date referitoare la preferințele lor. Există diferite modalități de a face acest lucru, în funcție de cantitatea de date necesare, aceste tehnici sunt denumite elicitare de preferință în literatura de specialitate. [14] [15] Colectarea interacțiunilor se poate face fie în mod explicit (de exemplu, prin întrebarea utilizatorului), fie implicit (de exemplu, prin observarea comportamentului lor). În ambele cazuri, acest lucru implică faptul că utilizatorul va trebui să petreacă ceva timp folosind sistemul de recomandare, care încă nu este fiabil pentru el, pentru a-i furniza informațiile necesare. [16]

Deși astfel de strategii sunt simple și eficiente pentru colectarea datelor, ele fac procesul de înregistrare mai consumator de timp și mai laborios pentru utilizator. În plus, calitatea datelor obținute poate să nu fie optimă, deoarece utilizatorul poate indica evaluări pentru filmele pe care le-a văzut cu luni sau ani în urmă sau le poate furniza aproape aleatoriu pentru a finaliza înregistrarea rapid.

Construirea profilului utilizatorului poate fi automatizată și prin integrarea informațiilor din alte activități, cum ar fi platformele sociale sau navigarea pe internet. De exemplu, un utilizator care a căutat informații despre un anumit muzician pe un portal va putea primi automat recomandări referitoare la acel artist atunci când vizitează un serviciu care oferă muzică. [17]

O variantă a abordării anterioare este de a atribui în mod automat evaluări articolelor noi pe baza evaluărilor pe care comunitatea de utilizatori le-a atribuit unor articole similare. Similitudinea va fi determinată pe baza atributelor de conținut ale articolului.

De asemenea, este posibil să creați profilul inițial al utilizatorului pe baza informațiilor despre personalitate . [18] [19] a utilizatorului, care poate fi identificat și reprezentat prin modele precum modelul cu cinci factori (FFM).

O altă posibilă tehnică este aplicarea învățării active . Scopul principal al învățării active este de a ghida utilizatorul astfel încât acesta să exprime preferințe / interacțiuni cât mai informative pentru sistemul de recomandare. Acest lucru necesită analizarea datelor disponibile și estimarea utilității datelor care nu sunt încă disponibile (de exemplu, evaluări, interacțiuni). [20] De exemplu, să presupunem că vrem să împărțim un anumit nor de puncte în două clustere. Odată ce am identificat două puncte aparținând fiecărui grup diferit, care este cel mai informativ punct pe care îl putem verifica? Dacă am alege un punct apropiat de cele pe care le cunoaștem, am descoperi probabil că acesta aparține aceluiași cluster. În schimb, alegând un punct la jumătatea distanței dintre cele două am putea fi capabili să identificăm unde se află granița dintre cele două clustere, putând clasifica un număr mare de alte puncte fără a fi nevoie să le observăm.

Pornirea la rece este o problemă care este prezentă și în cazul agenților inteligenți . Deoarece acești agenți învață de obicei preferințele utilizatorului prin observarea comportamentului lor, ar fi nevoie de timp pentru ca agentul să poată personaliza. În acel moment, eficiența sa ar fi în continuare limitată la cazurile și activitățile pe care a fost deja capabil să le observe prin intermediul utilizatorului. [21] Problema pornirii la rece poate fi atenuată prin introducerea unei forme de colaborare între agenți în legătură cu diferiți utilizatori. În acest fel, situațiile noi pot fi gestionate prin partajarea a ceea ce au învățat alți agenți prin intermediul utilizatorilor lor.

Cartografierea caracteristicilor

Recent au fost propuse mai multe strategii care se bazează pe învățarea automată cu scopul de a contopi conținutul și informațiile de colaborare într-un singur model. De exemplu, una dintre aceste abordări se numește atribut al mapării caracteristicilor [22] dezvoltat pentru algoritmi de factorizare a matricei. [23] Ideea de bază este următoarea. Un sistem de recomandare care utilizează factorizarea matricială reprezintă interacțiunile utilizator-articol sub forma produsului a două matrice dreptunghiulare al căror conținut este învățat prin învățarea automată. Fiecare utilizator va fi asociat cu un rând din prima matrice și fiecare articol cu ​​o coloană din a doua matrice. Rândul sau coloana asociată unui utilizator sau articol se numește factori latenți . [24] Când se adaugă un element nou, acesta nu este asociat cu niciun factor latent și lipsa interacțiunilor nu permite învățarea lor așa cum sa făcut pentru celelalte articole deja cunoscute. Dacă fiecare articol este asociat cu unele caracteristici (de exemplu, autor, an, editor, actori, titlu) este posibil să se definească o funcție care, având în vedere caracteristicile articolului, estimează factorii latenți ai acestuia. Funcția poate lua mai multe forme și va fi instruită cu privire la datele despre articole deja cunoscute. Aceeași idee poate fi aplicată și în cazul noilor utilizatori, întrucât dacă au furnizat unele informații (de exemplu, vârstă, naționalitate, sex), atunci pot fi de asemenea evaluați factorii lor latenți.

Greutăți ale caracteristicilor hibride

O altă abordare care are similitudini cu maparea caracteristicilor se referă la crearea unui algoritm hibrid de filtrare bazat pe conținut , în care caracteristicile elementului sau ale utilizatorului sunt ponderate în funcție de percepția lor asupra importanței pe care o au în alegere. Atunci când utilizatorul trebuie să aleagă un film sau un obiect de interes, diferite caracteristici (de exemplu, actori, țara de origine, regizor, titlu) vor avea o importanță diferită. De exemplu, luați în considerare filmele James Bond, actorul principal s-a schimbat de multe ori de-a lungul anilor, în timp ce alții nu s-au schimbat, cum ar fi Lois Maxwell . Din acest motiv, prezența sa va fi probabil o caracteristică mai importantă în identificarea acelui tip de film decât prezența unuia dintre diferiții actori principali. [25] [26] Deși există multe tehnici pentru calcularea greutăților caracteristicilor în sistemele de recomandare , multe dintre aceste metode au fost dezvoltate pentru regăsirea informațiilor, cum ar fi tf - idf , Okapi BM25, doar câteva au fost concepute special pentru sistemele de recomandare. [27]

Tehnicile pentru identificarea ponderilor caracteristicilor hibride utilizate în mediul de pornire la rece, în special, au fost dezvoltate special pentru sistemele de recomandare. Unii dintre ei învață greutăți ale caracteristicilor bazate direct pe interacțiunile utilizatorilor, cum ar fi FBSM. [26] Alții se bazează pe un model de colaborare intermediar, instruit pe elementele deja cunoscute, și învață ponderile caracteristicilor pentru a aproxima modelul de colaborare cât mai bine posibil, în timp ce utilizează un algoritm de conținut. [25]

Multe dintre aceste metode hibride pot fi considerate ca fiind cazuri speciale de mașini de factorizare. [28] [29]

Notă

  1. ^ a b Jesús Bobadilla, Fernando Ortega, Antonio Hernando și Jesús Bernal, O abordare de filtrare colaborativă pentru a atenua noua problemă a pornirii la rece a utilizatorului , în Knowledge-Based Systems , vol. 26, februarie 2012, pp. 225-238, DOI : 10.1016 / j.knosys.2011.07.021 .
  2. ^ Blerina Lika, Kostas Kolomvatsos și Stathes Hadjiefthymiades, Facing the cold start problem in recommender systems , în Expert Systems with Applications , vol. 41, nr. 4, martie 2014, pp. 2065-2073, DOI : 10.1016 / j.eswa.2013.09.005 .
  3. ^ Lei Hou, Xue Pan și Kecheng Liu, Balancing the bias popularity of similitudini ale obiectelor pentru recomandări personalizate , în The European Physical Journal B , vol. 91, nr. 3, 7 martie 2018, DOI : 10.1140 / epjb / e2018-80374-8 .
  4. ^ Himan Abdollahpouri, Robin Burke and Bamshad Mobasher, Controlling Popularity Bias in Learning-to-Rank Recomandare , ACM, 27 august 2017, pp. 42-46, DOI : 10.1145 / 3109859.3109912 .
  5. ^ Yoon-Joo Park și Alexander Tuzhilin, Coada lungă a sistemelor de recomandare și cum să-l influențăm , ACM, 23 octombrie 2008, pp. 11-18, DOI : 10.1145 / 1454008.1454012 .
  6. ^ (EN) Michael J. Pazzani și Daniel Billsus, Sisteme de recomandare bazate pe conținut , în The Adaptive Web, Springer Berlin Heidelberg, 2007, pp. 325-341, DOI : 10.1007 / 978-3-540-72079-9_10 .
  7. ^ Li Chen, Guanliang Chen și Feng Wang, Recomandă sisteme bazate pe recenziile utilizatorilor: stadiul tehnicii , în User Modeling and User-Adapted Interaction , vol. 25, nr. 2, 22 ianuarie 2015, pp. 99-154, DOI : 10.1007 / s11257-015-9155-5 .
  8. ^ Al Mamunur Rashid, George Karypis și John Riedl, Preferințe de învățare ale noilor utilizatori în sistemele de recomandare , în ACM SIGKDD Explorations Newsletter , vol. 10, nr. 2, 20 decembrie 2008, p. 90, DOI : 10.1145 / 1540276.1540302 .
  9. ^ J. Bobadilla, F. Ortega, A. Hernando și A. Gutiérrez, Recomandarea sistemelor de sondaj , în Knowledge-Based Systems , vol. 46, iulie 2013, pp. 109-132, DOI : 10.1016 / j.knosys.2013.03.012 .
  10. ^ Zi-Ke Zhang, Chuang Liu, Yi-Cheng Zhang și Tao Zhou, Rezolvarea problemei pornirii la rece în sistemele de recomandare cu etichete sociale , în EPL (Europhysics Letters) , vol. 92, nr. 2, 1 octombrie 2010, p. 28002, DOI : 10.1209 / 0295-5075 / 92/28002 .
  11. ^ Zan Huang, Hsinchun Chen și Daniel Zeng, Aplicarea tehnicilor de recuperare asociativă pentru a atenua problema rarității în filtrarea colaborativă , în ACM Transactions on Information Systems , vol. 22, n. 1, 1 ianuarie 2004, pp. 116-142, DOI : 10.1145 / 963770.963775 .
  12. ^ J. Salter și N. Antonopoulos, Agent de recomandare CinemaScreen: Combinarea filtrării colaborative și bazate pe conținut , în IEEE Intelligent Systems , vol. 21, n. 1, ianuarie 2006, pp. 35-41, DOI : 10.1109 / MIS . 2006.4 .
  13. ^ (EN) Robin Burke, Hybrid Web Recommender Systems , în The Adaptive Web, Springer Berlin Heidelberg, 2007, pp. 377-408, DOI : 10.1007 / 978-3-540-72079-9_12 .
  14. ^ Mehdi Elahi, Francesco Ricci și Neil Rubens, Învățarea activă în sistemele recomandate de filtrare colaborativă , Editura Springer International, pp. 113-124, ISBN 978-3-319-10491-1 .
  15. ^ Mehdi Elahi, Francesco Ricci și Neil Rubens, Un sondaj de învățare activă în sisteme de recomandare de filtrare colaborativă , Computer Science Review, 2016. Găzduit pe Elsevier.
  16. ^ Andrew I. Schein, Alexandrin Popescul, Lyle H. Ungar și David M. Pennock, Methods and Metrics for Cold-Start Recomandări , Proceedings of the 25th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2002) , Nou York City, New York , ACM , 2002, pp. 253-260, ISBN 1-58113-561-0 . Accesat la 2 februarie 2008 .
  17. ^ Furnizorul încearcă să rezolve problema „pornirii la rece” în recomandările de conținut ( PDF ), în Mobile Media , Marea Britanie, Informa Telecoms & Media, 29 iunie 2007, p. 18. Accesat la 2 februarie 2008 (arhivat din original la 1 august 2008) .
  18. ^ Marko Tkalcic și Li Chen, Personality and Recommender Systems , în Francesco Ricci, Lior Rokach și Bracha Shapira (eds), Recommender Systems Handbook , 2nd, Springer US, 2016, ISBN 978-1-4899-7637-6 .
  19. ^ Ignacio Fernández-Tobías, Matthias Braunhofer, Mehdi Elahi, Francesco Ricci și Iván Cantador, Ameliorarea noii probleme a utilizatorului în filtrarea colaborativă prin exploatarea informațiilor despre personalitate , în Modelarea utilizatorilor și interacțiunea adaptată de utilizator , 2016, DOI : 10.1007 / s11257-016- 9172-z .
  20. ^ Neil Rubens, Mehdi Elahi, Masashi Sugiyama și Dain Kaplan, Active Learning in Recommender Systems , în Francesco Ricci, Lior Rokach și Bracha Shapira (ed.), Recommender Systems Handbook , 2nd, Springer US, 2016, ISBN 978-1- 4899 -7637-6 .
  21. ^ Yezdi Lashkari, Max Metral și Pattie Maes, Agenți de interfață colaborativă , Proceedings of the XII Conference National on Artificial Intelligence , Seattle , Washington , AAAI Press , 1994, pp. 444-449, ISBN 0-262-61102-3 . Accesat la 2 februarie 2008 .
  22. ^ Zeno Gantner, Lucas Drumond și Cristoph Freudenthaler, Învățarea atributelor la caracteristici pentru recomandări de pornire la rece , 20 ianuarie 2011, DOI : 10.1109 / ICDM.2010.129 .
  23. ^ Yehuda Koren, Robert Bell și Chris Volinsky, Matrix Factorization Techniques for Recommender Systems , în Computer , vol. 42, n. 8, august 2009, pp. 30-37, DOI : 10.1109 / MC.2009.263 .
  24. ^ Deepak Agarwal și Bee-Chung Chen, modele de factori latenți pe bază de regresie , ACM, 28 iunie 2009, pp. 19-28, DOI : 10.1145 / 1557019.1557029 .
  25. ^ a b Leonardo Cella, Stefano Cereda, Massimo Quadrana și Paolo Cremonesi, Deriving Item Features Relevance from Past User Interactions , în UMAP '17 Proceedings of the 25th Conference on User Modeling, Adaptation and Personalization , 2017, pp. 275-279, DOI : 10.1145 / 3079628.3079695 .
  26. ^ a b Mohit Sharma, Jiayu Zhou, Junling Hu și George Karypis, Model de asemănare bilineară factorizată pe caracteristici pentru recomandarea de pornire la rece Top-n Item , în Proceedings of the 2015 SIAM International Conference on Data Mining , 2015, DOI : 10.1137 / 1.9781611974010.22 .
  27. ^ (EN) Panagiotis Symeonidis, Alexandros Nanopoulos și Yannis Manolopoulos, Model de utilizator ponderat pentru funcționalitatea sistemelor de recomandare în modelarea utilizatorilor 2007, Springer Berlin Heidelberg, 25 iulie 2007, pp. 97-106, DOI : 10.1007 / 978-3-540-73078-1_13 .
  28. ^ Steffen Rendle, Mașini de factorizare cu libFM , în ACM Transactions on Intelligent Systems and Technology , vol. 3, nr. 3, 1 mai 2012, pp. 1-22, DOI : 10.1145 / 2168752.2168771 .
  29. ^ Steffen Rendle, Mașini de factorizare , IEEE, 2010, ISBN 978-1-4244-9131-5 .

Elemente conexe

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT