Recuperarea informațiilor
Recuperarea informațiilor (IR) (în italiană recuperarea informațiilor) este setul de tehnici utilizate pentru gestionarea reprezentării, stocării, organizării și accesului la obiecte care conțin informații precum documente, pagini web , cataloage online și obiecte multimedia . Termenul a fost inventat de Calvin Mooers la sfârșitul anilor 40 ai secolului al XX-lea și este folosit acum aproape exclusiv în domeniul IT .
Este un domeniu interdisciplinar care apare din intersecția diferitelor discipline care implică psihologia cognitivă , arhitectura informației, filosofia (vezi ontologia ), proiectarea , comportamentul uman asupra informațiilor, lingvistica , semiotica , știința informației și tehnologia informației . Multe universități și biblioteci publice utilizează sisteme de recuperare a informațiilor pentru a oferi acces la publicații, cărți și alte documente.
Scopul regăsirii informațiilor
Scopul recuperării informațiilor este de a satisface așa-numita „nevoie de informații a utilizatorului” sau de a garanta acestuia din urmă, în urma cercetărilor sale, documentele și informațiile care răspund cererii sale.
Două concepte sunt de o importanță fundamentală pentru analiza unui sistem de recuperare a informațiilor: interogare și obiect.
- Interogările („interogări”) sunt șiruri de cuvinte cheie care reprezintă informațiile solicitate. Acestea sunt introduse de utilizator într-un sistem IR (de exemplu, un motor de căutare ) și reprezintă realizarea nevoilor reale de informații ale utilizatorului.
- Un obiect este o entitate care posedă informații la care ar putea fi răspuns prin interogarea utilizatorului. Un document text, de exemplu, este un obiect de date.
Sarcină
În mod obișnuit, o sarcină a unui sistem de recuperare a informațiilor este definită ca o situație tipică pe care un astfel de sistem trebuie să o rezolve.
Atunci când un utilizator intenționează să utilizeze orice sistem de recuperare a informațiilor (de exemplu, un motor de căutare ) pentru a obține informații despre un anumit subiect, el trebuie să traducă această nevoie într-o interogare ; sistemul de recuperare a informațiilor are sarcina de a returna, începând de la acesta, toate documentele relevante pentru solicitarea făcută.
Măsuri de performanță
Există multe modalități de a măsura cât de bine informațiile dorite sunt asociate cu informațiile preluate.
Precizie
Precizia (în engleză precision) este proporția de documente relevante dintre cele recuperate:
- P = (numărul de documente relevante recuperate) / (numărul de documente recuperate)
În clasificarea binară, precizia este analogă valorii prognozate pozitive . Precizia poate fi, de asemenea, evaluată în raport cu o anumită valoare prag, indicată cu P @ n , mai degrabă decât relativă la toate documentele recuperate: în acest fel, este posibil să se evalueze câte dintre primele n documente recuperate sunt relevante pentru interogare.
Semnificația și utilizarea termenului de precizie în domeniul recuperării informațiilor diferă, prin urmare, de definiția preciziei și preciziei tipice altor discipline științifice și tehnologice.
Recuperare
Recuperarea sau retragerea (în engleză recall ) reprezintă proporția dintre numărul de documente relevante recuperate și numărul tuturor documentelor relevante disponibile în colecția luată în considerare:
- R = (numărul de documente relevante recuperate) / (numărul de documente relevante)
În clasificarea binară , această valoare se numește sensibilitate .
Măsurați F
Măsura F (în engleză F-measure ) este media armonică ponderată între precizie și recuperare. Versiunea tradițională, numită și echilibrată , este dată de:
Această măsură se mai numește , deoarece atât precizia, cât și recuperarea din formula anterioară au greutatea 1.
În general, formula este:
Alte două formule comune sunt , care conferă o precizie de două ori mai mare decât recuperarea și , care dimpotrivă cântărește recuperarea la o precizie dublă.
Taxonomia modelelor

Pentru a încheia cu succes o căutare de informații, este necesar să reprezentați documentele într-un fel. Există o serie de modele cu acest scop. Ele pot fi clasificate în funcție de două criterii, așa cum se arată în figura din dreapta: după un criteriu matematic și în funcție de proprietățile modelului (tradus din sursa originală logos-verlag.de ).
Clasificarea matematică a modelelor
- Modelele teoretice ale seturilor reprezintă documente prin intermediul seturilor. Asemănările derivă în general din operații teoretice pe aceste seturi. Cele mai frecvente modele sunt:
- Modelele algebrice reprezintă documente și interogări cu vectori, matrici sau tupluri, care, folosind un număr finit de operații algebrice, sunt transformate într-o măsură numerică, care exprimă gradul de similaritate al documentelor cu interogarea.
- Model de spațiu vectorial
- Model generalizat de spațiu vectorial
- Model de spațiu vectorial bazat pe subiecte (literatură: [1] , [2] )
- Model boolean extins
- Model îmbunătățit de spațiu vectorial bazat pe subiecte (literatură: [3] , [4] )
- Indexare semantică latentă aka analiza semantică latentă
- Modelele probabiliste tratează procesul de recuperare a documentelor ca pe un experiment aleatoriu pe mai multe niveluri. Asemănările sunt apoi reprezentate ca probabilități. Teoreme probabiliste, cum ar fi teorema lui Bayes, sunt adesea utilizate în aceste modele.
- Recuperarea independenței binare
- Inferință nesigură
- Modele de limbaj
- Divergența de modelele aleatorii
Clasificare pe baza proprietăților modelului
- Modelele fără interdependență de termeni tratează termeni / cuvinte diferite ca neindependente. Acest lucru este adesea reprezentat în modelele de spațiu vectorial prin afirmarea că termenul de vectori este ortogonal sau în modelele probabilistice prin afirmarea că termenul de variabile este independent .
- Modelele cu interdependență intrinsecă a termenilor permit o reprezentare directă a interdependențelor dintre termeni. Cu toate acestea, gradul de interdependență dintre doi termeni este definit de modelul însuși. În general, este derivat direct sau indirect (a se vedea, de exemplu, reducerea dimensională ) din co-apariția acestor termeni în întregul set de documente.
- Modelele cu interdependență transcendentă a termenilor permit o reprezentare directă a interdependențelor dintre termeni, dar nu raportează modul în care este definită interdependența dintre doi termeni. Se referă la o sursă externă pentru a stabili gradul de interdependență între doi termeni (de exemplu, un algoritm uman sau sofisticat).
Bibliografie
- Maristella Agosti (Ed), Acces la informații prin motoare de căutare și biblioteci digitale , Springer, Heidelberg, Germania, 2008
- Ricardo Baeza-Yates și Berthier Ribeiro-Neto, Modern Information Retrieval , Addison Wesley, 1999
- Renato Battistin, Algoritmi pentru web: PageRank și HITS , în «Login», Gruppo Editoriale Informedia, nov. 2005
- Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology , Editura Chandos (Oxford), 2004
- S. Chakrabarti, Mining the Web: descubering knowledge from hypertext data , Morgan Kaufmann, 2003
- Fabio Crestani, Incertitudine și logistică pentru recuperarea informațiilor , Kluwer, 1998
- Robert Korfhage, stocarea și recuperarea informațiilor , Wiley, 1997
- Luca Spinelli, Prezentare generală a web-ului semantic , în «Login», Infomedia Publishing Group, nov. 2005
- Luca Spinelli, Lumea căutării pe desktop , în «Login», Infomedia Publishing Group, nov. 2005
- CJ van Rijsbergen, Recuperarea informațiilor , carte on-line , 1980
Elemente conexe
- Algoritm
- Exploatarea datelor
- Intermediere de informații
- OPAC
- Motor de căutare
- PageRank
- Sistem informativ
- Tezaur
- Web invizibil
- Limbaj comun de interogare
- Cosinusul asemănării
- Căutare text complet
- CBIR
- Șablon de sac de cuvinte
linkuri externe
- ( EN ) Recuperarea informațiilor , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.
Sisteme de recuperare a informațiilor în domeniul științific
- (RO) IHOP Filed 17 octombrie 2005 în Internet Archive . Sistem de recuperare a informațiilor în sectorul biomedical
- ( RO ) Motor Sfinx care caută texte întregi
- ( EN ) Lemur Language Modeling Toolkit
- ( RO ) Motor de căutare multi-utilizator Wumpus
- ( EN ) Motor de căutare Zebra care acceptă de asemenea e-mail, XML, MARC și operatori booleeni ca intrare
- ( RO ) Motor de căutare textual Zettair cunoscut anterior sub numele de Lucy
Software open source de recuperare a informațiilor
- Terrier TERabyte RetrIEveR, motor de căutare cu funcții de recuperare a informațiilor
- Versiune open source GalaTex a standardului XQuery (căutare text pe documente XML)
- ht: // dig Arhivat 8 aprilie 2008 la Internet Archive . software pentru a efectua căutări direcționate în intranet sau domenii web unice
- Software Toolkit Mumps pentru a efectua experimente de recuperare a informațiilor
- Tehnologia de căutare a textului Lucene (Apache)
- MG-1.3 este utilizat pentru indexarea și compactarea documentelor căutate
- Platforma Xapian IR scrisă în Open Muscat
Principalele grupuri de cercetare privind recuperarea informațiilor
- ( EN ) Text Retrieval Conference (TREC) , pe trec.nist.gov .
- ( EN ) Glasgow Information Retrieval Group de la Universitatea din Glasgow. Există și Wiki
- ( EN ) Center for Intelligent Information Retrieval de la Universitatea din Massachusetts
- ( EN ) IIT Information Retrieval Lab Arhivat 24 aprilie 2006 la Internet Archive . la Institutul de Tehnologie din Illinois
- ( EN ) Proiecte de recuperare a informațiilor la Universitatea Carnegie Mellon
- ( EN ) Information Retrieval Group la Microsoft Research Cambridge (SUA)
- ( EN ) Laboratorul de cercetare a sistemelor informatice inteligente (SUA)
- ( EN ) BCS IRSG: Societatea britanică de calculatoare - grupul de specialiști în recuperarea informațiilor , la irsg.bcs.org .
- ( EN ) ACM SIGIR: Grup de interes special pentru recuperarea informațiilor la Universitatea Queen Mary din Londra
- ( EN ) Information Retrieval Group Arhivat 9 septembrie 2005 la Internet Archive . la Universitatea din Neuchâtel (CH)
- ( EN ) Center for Information Retrieval Ungaria
- ( EN ) University Management Systems Universitatea din Padova, Italia
- ( EN ) Grupul de cercetare pentru accesul și personalizarea web-ului semantic Universitatea din Bari, Italia
Perspective
- Definiție și analiză privind recuperarea informațiilor , pe laterza.it .
- ( EN ) Anatomy of a Large-Scale Hypertextual Web Search Engine , la www-db.stanford.edu .
- ( RO ) Conferința inovații în căutare 27-29 septembrie 2005
- (EN) Resurse pentru procesarea textului, vorbirea și limbajul natural , pe cs.technion.ac.il. Adus la 14 mai 2006 (arhivat din original la 15 august 2010) .
- ( EN ) Curs de recuperare a informațiilor și exploatare web Arhivat 3 mai 2006 la Internet Archive . Universitatea Stanford
- ( ES ) Usabilitate și Accesibilitate în Recuperarea informațiilor , pe es.geocities.com (arhivat din original la 1 ianuarie 2008) .
- ( ES ) Metadate și documente XML / RDF pentru recuperare , pe es.geocities.com (arhivat de la adresa URL originală la 1 ianuarie 2008) .
Controlul autorității | Tesauro BNCF 46118 · LCCN (EN) sh85066148 · GND (DE) 4072803-1 · BNF (FR) cb122132635 (dată) · BNE (ES) XX535604 (dată) · NDL (EN, JA) 00.57501 milioane |
---|