Recuperarea informațiilor

Recuperarea informațiilor (IR) (în italiană recuperarea informațiilor) este setul de tehnici utilizate pentru gestionarea reprezentării, stocării, organizării și accesului la obiecte care conțin informații precum documente, pagini web , cataloage online și obiecte multimedia . Termenul a fost inventat de Calvin Mooers la sfârșitul anilor 40 ai secolului al XX-lea și este folosit acum aproape exclusiv în domeniul IT .

Este un domeniu interdisciplinar care apare din intersecția diferitelor discipline care implică psihologia cognitivă , arhitectura informației, filosofia (vezi ontologia ), proiectarea , comportamentul uman asupra informațiilor, lingvistica , semiotica , știința informației și tehnologia informației . Multe universități și biblioteci publice utilizează sisteme de recuperare a informațiilor pentru a oferi acces la publicații, cărți și alte documente.

Scopul regăsirii informațiilor

Scopul recuperării informațiilor este de a satisface așa-numita „nevoie de informații a utilizatorului” sau de a garanta acestuia din urmă, în urma cercetărilor sale, documentele și informațiile care răspund cererii sale.

Două concepte sunt de o importanță fundamentală pentru analiza unui sistem de recuperare a informațiilor: interogare și obiect.

Interogările („interogări”) sunt șiruri de cuvinte cheie care reprezintă informațiile solicitate. Acestea sunt introduse de utilizator într-un sistem IR (de exemplu, un motor de căutare ) și reprezintă realizarea nevoilor reale de informații ale utilizatorului.
Un obiect este o entitate care posedă informații la care ar putea fi răspuns prin interogarea utilizatorului. Un document text, de exemplu, este un obiect de date.

Sarcină

În mod obișnuit, o sarcină a unui sistem de recuperare a informațiilor este definită ca o situație tipică pe care un astfel de sistem trebuie să o rezolve.

Atunci când un utilizator intenționează să utilizeze orice sistem de recuperare a informațiilor (de exemplu, un motor de căutare ) pentru a obține informații despre un anumit subiect, el trebuie să traducă această nevoie într-o interogare ; sistemul de recuperare a informațiilor are sarcina de a returna, începând de la acesta, toate documentele relevante pentru solicitarea făcută.

Măsuri de performanță

Există multe modalități de a măsura cât de bine informațiile dorite sunt asociate cu informațiile preluate.

Precizie

Precizia (în engleză precision) este proporția de documente relevante dintre cele recuperate:

P = (numărul de documente relevante recuperate) / (numărul de documente recuperate)

În clasificarea binară, precizia este analogă valorii prognozate pozitive . Precizia poate fi, de asemenea, evaluată în raport cu o anumită valoare prag, indicată cu P @ n , mai degrabă decât relativă la toate documentele recuperate: în acest fel, este posibil să se evalueze câte dintre primele n documente recuperate sunt relevante pentru interogare.

Semnificația și utilizarea termenului de precizie în domeniul recuperării informațiilor diferă, prin urmare, de definiția preciziei și preciziei tipice altor discipline științifice și tehnologice.

Recuperare

Recuperarea sau retragerea (în engleză recall ) reprezintă proporția dintre numărul de documente relevante recuperate și numărul tuturor documentelor relevante disponibile în colecția luată în considerare:

R = (numărul de documente relevante recuperate) / (numărul de documente relevante)

În clasificarea binară , această valoare se numește sensibilitate .

Măsurați F

Măsura F (în engleză F-measure ) este media armonică ponderată între precizie și recuperare. Versiunea tradițională, numită și echilibrată , este dată de:

F=2\times \mathrm {precisione} \times \mathrm {recupero} /(\mathrm {precisione} +\mathrm {recupero} ).

{\ displaystyle F = 2 \ times \ mathrm {precision} \ times \ mathrm {recovery} / (\ mathrm {precision} + \ mathrm {recovery}).}

{\ displaystyle F = 2 \ times \ mathrm {precision} \ times \ mathrm {recovery} / (\ mathrm {precision} + \ mathrm {recovery}).}

Această măsură se mai numește $F_{1}$ ${\ displaystyle F_ {1}}$ $F_ {1}$ , deoarece atât precizia, cât și recuperarea din formula anterioară au greutatea 1.

În general, formula este:

F_{N}=(1+N^{2})\times \mathrm {precisione} \times \mathrm {recupero} /((N^{2}\times \mathrm {precisione} )+\mathrm {recupero} ).

{\ displaystyle F_ {N} = (1 + N ^ {2}) \ times \ mathrm {precision} \ times \ mathrm {recovery} / ((N ^ {2} \ times \ mathrm {precision}) + \ mathrm {recuperare}).}

{\ displaystyle F_ {N} = (1 + N ^ {2}) \ times \ mathrm {precision} \ times \ mathrm {recovery} / ((N ^ {2} \ times \ mathrm {precision}) + \ mathrm {recuperare}).}

Alte două formule comune sunt $F_{0.5}$ ${\ displaystyle F_ {0.5}}$ ${\ displaystyle F_ {0.5}}$ , care conferă o precizie de două ori mai mare decât recuperarea și $F_{2}$ ${\ displaystyle F_ {2}}$ $F_ {2}$ , care dimpotrivă cântărește recuperarea la o precizie dublă.

Taxonomia modelelor

clasificarea modelelor IR (tradus din sursa originală logos-verlag.de )

Pentru a încheia cu succes o căutare de informații, este necesar să reprezentați documentele într-un fel. Există o serie de modele cu acest scop. Ele pot fi clasificate în funcție de două criterii, așa cum se arată în figura din dreapta: după un criteriu matematic și în funcție de proprietățile modelului (tradus din sursa originală logos-verlag.de ).

Clasificarea matematică a modelelor

Modelele teoretice ale seturilor reprezintă documente prin intermediul seturilor. Asemănările derivă în general din operații teoretice pe aceste seturi. Cele mai frecvente modele sunt:
Modelele algebrice reprezintă documente și interogări cu vectori, matrici sau tupluri, care, folosind un număr finit de operații algebrice, sunt transformate într-o măsură numerică, care exprimă gradul de similaritate al documentelor cu interogarea.
- Model de spațiu vectorial
- Model generalizat de spațiu vectorial
- Model de spațiu vectorial bazat pe subiecte (literatură: [1] , [2] )
- Model boolean extins
- Model îmbunătățit de spațiu vectorial bazat pe subiecte (literatură: [3] , [4] )
- Indexare semantică latentă aka analiza semantică latentă
Modelele probabiliste tratează procesul de recuperare a documentelor ca pe un experiment aleatoriu pe mai multe niveluri. Asemănările sunt apoi reprezentate ca probabilități. Teoreme probabiliste, cum ar fi teorema lui Bayes, sunt adesea utilizate în aceste modele.
- Recuperarea independenței binare
- Inferință nesigură
- Modele de limbaj
- Divergența de modelele aleatorii

Clasificare pe baza proprietăților modelului

Modelele fără interdependență de termeni tratează termeni / cuvinte diferite ca neindependente. Acest lucru este adesea reprezentat în modelele de spațiu vectorial prin afirmarea că termenul de vectori este ortogonal sau în modelele probabilistice prin afirmarea că termenul de variabile este independent .
Modelele cu interdependență intrinsecă a termenilor permit o reprezentare directă a interdependențelor dintre termeni. Cu toate acestea, gradul de interdependență dintre doi termeni este definit de modelul însuși. În general, este derivat direct sau indirect (a se vedea, de exemplu, reducerea dimensională ) din co-apariția acestor termeni în întregul set de documente.
Modelele cu interdependență transcendentă a termenilor permit o reprezentare directă a interdependențelor dintre termeni, dar nu raportează modul în care este definită interdependența dintre doi termeni. Se referă la o sursă externă pentru a stabili gradul de interdependență între doi termeni (de exemplu, un algoritm uman sau sofisticat).

Bibliografie

Maristella Agosti (Ed), Acces la informații prin motoare de căutare și biblioteci digitale , Springer, Heidelberg, Germania, 2008
Ricardo Baeza-Yates și Berthier Ribeiro-Neto, Modern Information Retrieval , Addison Wesley, 1999
Renato Battistin, Algoritmi pentru web: PageRank și HITS , în «Login», Gruppo Editoriale Informedia, nov. 2005
Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology , Editura Chandos (Oxford), 2004
S. Chakrabarti, Mining the Web: descubering knowledge from hypertext data , Morgan Kaufmann, 2003
Fabio Crestani, Incertitudine și logistică pentru recuperarea informațiilor , Kluwer, 1998
Robert Korfhage, stocarea și recuperarea informațiilor , Wiley, 1997
Luca Spinelli, Prezentare generală a web-ului semantic , în «Login», Infomedia Publishing Group, nov. 2005
Luca Spinelli, Lumea căutării pe desktop , în «Login», Infomedia Publishing Group, nov. 2005
CJ van Rijsbergen, Recuperarea informațiilor , carte on-line , 1980

Elemente conexe

linkuri externe

( EN ) Recuperarea informațiilor , în Encyclopedia Britannica , Encyclopædia Britannica, Inc.

Sisteme de recuperare a informațiilor în domeniul științific

(RO) IHOP Filed 17 octombrie 2005 în Internet Archive . Sistem de recuperare a informațiilor în sectorul biomedical
( RO ) Motor Sfinx care caută texte întregi
( EN ) Lemur Language Modeling Toolkit
( RO ) Motor de căutare multi-utilizator Wumpus
( EN ) Motor de căutare Zebra care acceptă de asemenea e-mail, XML, MARC și operatori booleeni ca intrare
( RO ) Motor de căutare textual Zettair cunoscut anterior sub numele de Lucy

Software open source de recuperare a informațiilor

Terrier TERabyte RetrIEveR, motor de căutare cu funcții de recuperare a informațiilor
Versiune open source GalaTex a standardului XQuery (căutare text pe documente XML)
ht: // dig Arhivat 8 aprilie 2008 la Internet Archive . software pentru a efectua căutări direcționate în intranet sau domenii web unice
Software Toolkit Mumps pentru a efectua experimente de recuperare a informațiilor
Tehnologia de căutare a textului Lucene (Apache)
MG-1.3 este utilizat pentru indexarea și compactarea documentelor căutate
Platforma Xapian IR scrisă în Open Muscat

Principalele grupuri de cercetare privind recuperarea informațiilor

( EN ) Text Retrieval Conference (TREC) , pe trec.nist.gov .
( EN ) Glasgow Information Retrieval Group de la Universitatea din Glasgow. Există și Wiki
( EN ) Center for Intelligent Information Retrieval de la Universitatea din Massachusetts
( EN ) IIT Information Retrieval Lab Arhivat 24 aprilie 2006 la Internet Archive . la Institutul de Tehnologie din Illinois
( EN ) Proiecte de recuperare a informațiilor la Universitatea Carnegie Mellon
( EN ) Information Retrieval Group la Microsoft Research Cambridge (SUA)
( EN ) Laboratorul de cercetare a sistemelor informatice inteligente (SUA)
( EN ) BCS IRSG: Societatea britanică de calculatoare - grupul de specialiști în recuperarea informațiilor , la irsg.bcs.org .
( EN ) ACM SIGIR: Grup de interes special pentru recuperarea informațiilor la Universitatea Queen Mary din Londra
( EN ) Information Retrieval Group Arhivat 9 septembrie 2005 la Internet Archive . la Universitatea din Neuchâtel (CH)
( EN ) Center for Information Retrieval Ungaria
( EN ) University Management Systems Universitatea din Padova, Italia
( EN ) Grupul de cercetare pentru accesul și personalizarea web-ului semantic Universitatea din Bari, Italia

Perspective

Definiție și analiză privind recuperarea informațiilor , pe laterza.it .
( EN ) Anatomy of a Large-Scale Hypertextual Web Search Engine , la www-db.stanford.edu .
( RO ) Conferința inovații în căutare 27-29 septembrie 2005
(EN) Resurse pentru procesarea textului, vorbirea și limbajul natural , pe cs.technion.ac.il. Adus la 14 mai 2006 (arhivat din original la 15 august 2010) .
( EN ) Curs de recuperare a informațiilor și exploatare web Arhivat 3 mai 2006 la Internet Archive . Universitatea Stanford
( ES ) Usabilitate și Accesibilitate în Recuperarea informațiilor , pe es.geocities.com (arhivat din original la 1 ianuarie 2008) .
( ES ) Metadate și documente XML / RDF pentru recuperare , pe es.geocities.com (arhivat de la adresa URL originală la 1 ianuarie 2008) .

Controlul autorității	Tesauro BNCF 46118 · LCCN (EN) sh85066148 · GND (DE) 4072803-1 · BNF (FR) cb122132635 (dată) · BNE (ES) XX535604 (dată) · NDL (EN, JA) 00.57501 milioane

Portal telematic : accesați intrări Wikipedia care vorbesc despre rețele, telecomunicații și protocoale de rețea