Recuperarea informațiilor

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Recuperarea informațiilor (IR) (în italiană recuperarea informațiilor) este setul de tehnici utilizate pentru gestionarea reprezentării, stocării, organizării și accesului la obiecte care conțin informații precum documente, pagini web , cataloage online și obiecte multimedia . Termenul a fost inventat de Calvin Mooers la sfârșitul anilor 40 ai secolului al XX-lea și este folosit acum aproape exclusiv în domeniul IT .

Este un domeniu interdisciplinar care apare din intersecția diferitelor discipline care implică psihologia cognitivă , arhitectura informației, filosofia (vezi ontologia ), proiectarea , comportamentul uman asupra informațiilor, lingvistica , semiotica , știința informației și tehnologia informației . Multe universități și biblioteci publice utilizează sisteme de recuperare a informațiilor pentru a oferi acces la publicații, cărți și alte documente.

Scopul regăsirii informațiilor

Scopul recuperării informațiilor este de a satisface așa-numita „nevoie de informații a utilizatorului” sau de a garanta acestuia din urmă, în urma cercetărilor sale, documentele și informațiile care răspund cererii sale.

Două concepte sunt de o importanță fundamentală pentru analiza unui sistem de recuperare a informațiilor: interogare și obiect.

  • Interogările („interogări”) sunt șiruri de cuvinte cheie care reprezintă informațiile solicitate. Acestea sunt introduse de utilizator într-un sistem IR (de exemplu, un motor de căutare ) și reprezintă realizarea nevoilor reale de informații ale utilizatorului.
  • Un obiect este o entitate care posedă informații la care ar putea fi răspuns prin interogarea utilizatorului. Un document text, de exemplu, este un obiect de date.

Sarcină

În mod obișnuit, o sarcină a unui sistem de recuperare a informațiilor este definită ca o situație tipică pe care un astfel de sistem trebuie să o rezolve.

Atunci când un utilizator intenționează să utilizeze orice sistem de recuperare a informațiilor (de exemplu, un motor de căutare ) pentru a obține informații despre un anumit subiect, el trebuie să traducă această nevoie într-o interogare ; sistemul de recuperare a informațiilor are sarcina de a returna, începând de la acesta, toate documentele relevante pentru solicitarea făcută.

Măsuri de performanță

Există multe modalități de a măsura cât de bine informațiile dorite sunt asociate cu informațiile preluate.

Precizie

Precizia (în engleză precision) este proporția de documente relevante dintre cele recuperate:

P = (numărul de documente relevante recuperate) / (numărul de documente recuperate)

În clasificarea binară, precizia este analogă valorii prognozate pozitive . Precizia poate fi, de asemenea, evaluată în raport cu o anumită valoare prag, indicată cu P @ n , mai degrabă decât relativă la toate documentele recuperate: în acest fel, este posibil să se evalueze câte dintre primele n documente recuperate sunt relevante pentru interogare.

Semnificația și utilizarea termenului de precizie în domeniul recuperării informațiilor diferă, prin urmare, de definiția preciziei și preciziei tipice altor discipline științifice și tehnologice.

Recuperare

Recuperarea sau retragerea (în engleză recall ) reprezintă proporția dintre numărul de documente relevante recuperate și numărul tuturor documentelor relevante disponibile în colecția luată în considerare:

R = (numărul de documente relevante recuperate) / (numărul de documente relevante)

În clasificarea binară , această valoare se numește sensibilitate .

Măsurați F

Măsura F (în engleză F-measure ) este media armonică ponderată între precizie și recuperare. Versiunea tradițională, numită și echilibrată , este dată de:

Această măsură se mai numește , deoarece atât precizia, cât și recuperarea din formula anterioară au greutatea 1.

În general, formula este:

Alte două formule comune sunt , care conferă o precizie de două ori mai mare decât recuperarea și , care dimpotrivă cântărește recuperarea la o precizie dublă.


Taxonomia modelelor

clasificarea modelelor IR (tradus din sursa originală logos-verlag.de )

Pentru a încheia cu succes o căutare de informații, este necesar să reprezentați documentele într-un fel. Există o serie de modele cu acest scop. Ele pot fi clasificate în funcție de două criterii, așa cum se arată în figura din dreapta: după un criteriu matematic și în funcție de proprietățile modelului (tradus din sursa originală logos-verlag.de ).

Clasificarea matematică a modelelor

Clasificare pe baza proprietăților modelului

  • Modelele fără interdependență de termeni tratează termeni / cuvinte diferite ca neindependente. Acest lucru este adesea reprezentat în modelele de spațiu vectorial prin afirmarea că termenul de vectori este ortogonal sau în modelele probabilistice prin afirmarea că termenul de variabile este independent .
  • Modelele cu interdependență intrinsecă a termenilor permit o reprezentare directă a interdependențelor dintre termeni. Cu toate acestea, gradul de interdependență dintre doi termeni este definit de modelul însuși. În general, este derivat direct sau indirect (a se vedea, de exemplu, reducerea dimensională ) din co-apariția acestor termeni în întregul set de documente.
  • Modelele cu interdependență transcendentă a termenilor permit o reprezentare directă a interdependențelor dintre termeni, dar nu raportează modul în care este definită interdependența dintre doi termeni. Se referă la o sursă externă pentru a stabili gradul de interdependență între doi termeni (de exemplu, un algoritm uman sau sofisticat).

Bibliografie

  • Maristella Agosti (Ed), Acces la informații prin motoare de căutare și biblioteci digitale , Springer, Heidelberg, Germania, 2008
  • Ricardo Baeza-Yates și Berthier Ribeiro-Neto, Modern Information Retrieval , Addison Wesley, 1999
  • Renato Battistin, Algoritmi pentru web: PageRank și HITS , în «Login», Gruppo Editoriale Informedia, nov. 2005
  • Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology , Editura Chandos (Oxford), 2004
  • S. Chakrabarti, Mining the Web: descubering knowledge from hypertext data , Morgan Kaufmann, 2003
  • Fabio Crestani, Incertitudine și logistică pentru recuperarea informațiilor , Kluwer, 1998
  • Robert Korfhage, stocarea și recuperarea informațiilor , Wiley, 1997
  • Luca Spinelli, Prezentare generală a web-ului semantic , în «Login», Infomedia Publishing Group, nov. 2005
  • Luca Spinelli, Lumea căutării pe desktop , în «Login», Infomedia Publishing Group, nov. 2005
  • CJ van Rijsbergen, Recuperarea informațiilor , carte on-line , 1980

Elemente conexe

linkuri externe

Sisteme de recuperare a informațiilor în domeniul științific

  • (RO) IHOP Filed 17 octombrie 2005 în Internet Archive . Sistem de recuperare a informațiilor în sectorul biomedical
  • ( RO ) Motor Sfinx care caută texte întregi
  • ( EN ) Lemur Language Modeling Toolkit
  • ( RO ) Motor de căutare multi-utilizator Wumpus
  • ( EN ) Motor de căutare Zebra care acceptă de asemenea e-mail, XML, MARC și operatori booleeni ca intrare
  • ( RO ) Motor de căutare textual Zettair cunoscut anterior sub numele de Lucy


Software open source de recuperare a informațiilor

  • Terrier TERabyte RetrIEveR, motor de căutare cu funcții de recuperare a informațiilor
  • Versiune open source GalaTex a standardului XQuery (căutare text pe documente XML)
  • ht: // dig Arhivat 8 aprilie 2008 la Internet Archive . software pentru a efectua căutări direcționate în intranet sau domenii web unice
  • Software Toolkit Mumps pentru a efectua experimente de recuperare a informațiilor
  • Tehnologia de căutare a textului Lucene (Apache)
  • MG-1.3 este utilizat pentru indexarea și compactarea documentelor căutate
  • Platforma Xapian IR scrisă în Open Muscat


Principalele grupuri de cercetare privind recuperarea informațiilor


Perspective

Controlul autorității Tesauro BNCF 46118 · LCCN (EN) sh85066148 · GND (DE) 4072803-1 · BNF (FR) cb122132635 (dată) · BNE (ES) XX535604 (dată) · NDL (EN, JA) 00.57501 milioane
Telematică Portal telematic : accesați intrări Wikipedia care vorbesc despre rețele, telecomunicații și protocoale de rețea