Indexare (motoare de căutare)

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Indexarea se referă la inserarea unui site web sau blog în baza de date a unui motor de căutare . Indexarea unui site web, cu alte cuvinte, este modul în care site-ul este dobândit și interpretat de motoarele de căutare și, prin urmare, apare în paginile lor de răspuns la întrebările utilizatorilor web.

Poziționarea este diferită, ceea ce este în schimb o acțiune care vizează determinarea faptului că un site apare într-o poziție specifică în paginile de răspuns ale motoarelor (adică în primele poziții).

Operațiunile motorului de căutare

Înregistrarea site-ului

Pictogramă lupă mgx2.svg Același subiect în detaliu: Protocolul de excludere a robotului .

Din partea motoarelor de căutare, indexarea site-urilor web / blogurilor este prima lor operațiune fundamentală. În realitate, această fază este precedată de scanarea paginilor web publice, care are loc periodic (și automat) de către principalele motoare, atâta timp cât paginile respectă anumite cerințe de design web și calitate. Ulterior, poate avea loc faza de poziționare, care este cea abordată de experții în optimizare . Indexarea este doar una dintre cele trei faze necesare (accesarea cu crawlere pentru a găsi conținut web, indexarea pentru a le asimila și poziționarea pentru a determina cum și unde pot fi căutate), toate trei foarte distincte una de cealaltă și este important să nu vă confundați atunci când luați în considerare lor. De exemplu, indexarea este doar partea necesară pentru ca paginile site-ului să fie vizibile pe motoare, dar de obicei nu este suficient ca site-ul să poată fi căutat printr-o căutare arbitrară. [1]

După înregistrarea lor, motoarele de căutare scanează periodic site-urile prezente în arhivele lor pentru a verifica eventualele actualizări: prin programe speciale numite păianjeni (literalmente „păianjeni”, în sensul că traversează „pânza de păianjen” a legăturilor cu care este simbolic webul reprezentate), intră pe un site și încep să citească marcajul HTML , căutând orice modificări ale conținutului sau structurii. Când un păianjen găsește un link către o altă pagină a site-ului sau către un alt site, îl analizează și pe acesta din urmă în consecință.

Când motorul de căutare termină operațiunea îndelungată de scanare a site-urilor deja prezente în arhivă, începe să scaneze toate site-urile propuse de webmasteri prin intermediul serviciului add url (raportați un site) care se găsește în toate motoarele de căutare. Acest sistem este acum depășit: este de preferat să folosiți instrumente mai moderne pentru a vă monitoriza site-ul, cum ar fi Google Search Console. [2]

Site-ul nu este indexat, în totalitate sau parțial, dacă există instrucțiuni în marcajul HTML, cum ar fi <meta name = "robots" content = "noindex"> sau, în cazul fotografiilor, <meta name = "robots "content =" noimageindex ">; dacă, pe de altă parte, nu este specificat nimic în acest sens, întregul conținut al paginii web este indexat.
Cu excepția metaetichetelor ROBOTS , metadatele HTML au o utilizare redusă pentru clasarea site-urilor în motoarele de căutare, care se bazează „pe textul conținut pe pagina însăși, popularitatea site-ului web și diferiți alți parametri”.

Clasificarea site-ului

După ce a scanat rețeaua și apoi a indexat (în sensul de grupare) o cantitate imensă de pagini web, motorul de căutare trece la faza a doua: clasificați-le și poziționați-le pe baza cuvintelor cheie care reflectă site-ul cât mai mult posibil. În acest fel, motoarele de căutare, prin intermediul unor algoritmi anumiți, asigură utilizatorilor un conținut valid și actualizat. Fiecare motor folosește algoritmi speciali, cum ar fi PageRank de la Google , care acordă importanță unei pagini care depinde de numărul de linkuri care indică pagina respectivă de pe alte site-uri web.

În ultimul timp, motoarele de căutare tind să penalizeze, dar nu întotdeauna, utilizarea trimiterilor / indexării automate prin intermediul software-ului.

Indexarea repetată a aceleiași pagini este considerată spam .

Timpii de indexare ai unui site web pot varia de la câteva săptămâni la trei luni.

Legea italiană

O hotărâre a Curții de la Roma din 23 martie 2011 a condamnat un motor de căutare pentru publicarea de linkuri către site-uri peer-to-peer care permit transmiterea de filme protejate prin drepturi de autor . [3]

Factori de proiectare a indexului

Principalii factori în proiectarea arhitecturii unui motor de căutare includ:

Combinați factorii
Cum intră datele în index sau cum sunt adăugate cuvintele sau caracteristicile obiectului la index atunci când parcurgeți corpul textului și dacă mai mulți indexatori pot funcționa asincron. Mai întâi, indexatorul trebuie să verifice dacă actualizează conținut vechi sau adaugă conținut nou. Trecerea este de obicei legată de politica de colectare a datelor. Îmbinarea indexului motorului de căutare este similară în concept cu comanda SQL Merge și cu alți algoritmi de îmbinare.
Tehnici de arhivare
Cum se stochează datele indexului, adică dacă informațiile trebuie comprimate sau filtrate.
Dimensiunea indexului
Câtă memorie de computer este necesară pentru a susține indexul.
Viteza de căutare
Viteza cu care un cuvânt poate fi găsit în indexul inversat. Viteza de a găsi o intrare într-o structură de date, comparativ cu viteza cu care poate fi actualizată sau eliminată, este un punct central al calculului.
întreținere
Cum se menține indicele în timp.
Toleranță la erori
Cât de important este ca serviciul să fie fiabil. Problemele includ gestionarea corupției indexului, determinarea dacă datele nevalide pot fi tratate izolat, gestionarea hardware-ului defect, partiționarea și scheme precum partiționarea bazată pe hash sau compozită, precum și replicarea.

Indexul structurii datelor

Arhitecturile motoarelor de căutare variază în modul în care se efectuează indexarea și metodele de stocare a indexului pentru a se potrivi diferiților factori de proiectare.

Arborele sufixului
Structurat figurativ ca un copac, susține cercetarea temporală liniară. Construită prin memorarea sufixelor cuvintelor. Arborele sufixului este un tip de trie. Încercările acceptă hash extensibil, care este important pentru indexarea motoarelor de căutare. Folosit pentru căutarea modelelor în secvențe ADN și în grupare. Un dezavantaj major este că stocarea unui cuvânt în copac poate ocupa spațiu dincolo de ceea ce este necesar pentru a stoca cuvântul în sine. O reprezentare alternativă este o matrice de sufixe, despre care se crede că necesită mai puțină memorie virtuală și suportă compresia datelor, cum ar fi algoritmul BWT [4] [5] .
Indice inversat
Stochează o listă de apariții a fiecărui criteriu de căutare atomică, de obicei sub forma unui tabel hash sau a unui arbore binar [6] [7] [8] .
Indicele de citare
Stochează citate sau hyperlinkuri între documente pentru a sprijini analiza citatelor, un subiect de bibliometrie.
Index n -gramă
Stochează secvențe de lungime a datelor pentru a susține alte tipuri de recuperare sau extragere a textului [9] .
Matricea termenilor documentului
Folosit în analiza semantică latentă, stochează aparițiile cuvintelor din documente într-o matrice redusă bidimensională.

Provocări în paralelism

Una dintre principalele provocări în proiectarea motoarelor de căutare este gestionarea proceselor de procesare în serie. Există multe oportunități pentru condiții consistente de cursă și erori. De exemplu, un nou document este adăugat la corpus și indexul trebuie actualizat, dar în același timp indexul trebuie să răspundă în continuare la interogările de căutare. Aceasta este o coliziune între două companii concurente. Luați în considerare faptul că autorii sunt producători de informații și că un crawler web este consumatorul acestor informații, apucă textul și îl stochează într-un cache (sau corpus). Indicele forward este consumatorul informațiilor produse de corpus, iar indexul inversat este consumatorul informațiilor produse de indexul forward. Acest lucru este denumit în mod obișnuit modelul producător-consumator . Indexatorul este producătorul de informații care pot fi căutate, iar utilizatorii sunt consumatorii care trebuie să caute. Provocarea se mărește atunci când se lucrează cu stocare distribuită și procesare distribuită. Într-un efort de a scala cu cantități mai mari de informații indexate, arhitectura motorului de căutare poate implica calcule distribuite, unde motorul de căutare este format din mai multe mașini care funcționează la unison. Acest lucru crește șansele de inconsecvență și face mai dificilă menținerea unei arhitecturi paralele, distribuite și complet sincronizate [10] .

Indici inversați

Multe motoare de căutare încorporează un index inversat atunci când evaluează o interogare de căutare pentru a localiza rapid documentele care conțin cuvintele dintr-o interogare și apoi clasifica aceste documente în funcție de relevanță. Deoarece indexul inversat stochează o listă a documentelor care conțin fiecare cuvânt, motorul de căutare poate utiliza accesul direct pentru a găsi documentele asociate fiecărui cuvânt din interogare pentru a recupera rapid documentele care se potrivesc. Următoarea este o ilustrare simplificată a unui indice inversat:

Indice inversat
cuvânt Documente
the Document 1, Document 3, Document 4, Document 5, Document 7
vacă Document 2, Document 3, Document 4
El spune Documentul 5
muget Documentul 7

Acest index poate determina doar dacă un cuvânt există într-un anumit document, deoarece nu stochează informații referitoare la frecvența și poziția cuvântului; de aceea este considerat un indice boolean. Acest index determină ce documente se potrivesc cu o interogare, dar nu clasează documentele care se potrivesc. În unele proiecte, indexul include informații suplimentare, cum ar fi frecvența fiecărui cuvânt din fiecare document sau poziția unui cuvânt în fiecare document. informațiile de localizare permit algoritmului de căutare să identifice proximitatea cuvintelor pentru a susține căutarea de fraze; frecvența poate fi utilizată pentru a ajuta la clasificarea relevanței documentelor pentru interogare. Astfel de subiecte se află în centrul cercetării de recuperare a informațiilor.

Indexul inversat este o matrice rară, deoarece nu toate cuvintele sunt prezente în fiecare document. Pentru a reduce cerințele de memorie de stocare ale computerului, acesta este stocat diferit de un tablou bidimensional. Indexul este similar cu termenul matrici de documente utilizate de analiza semantică latentă. Indicele inversat poate fi considerat o formă de tabel hash. În unele cazuri, indexul este o formă de arbore binar, care necesită spațiu de stocare suplimentar, dar poate reduce timpul de căutare. În indexuri mai mari, arhitectura este de obicei un tabel de hash distribuit [11] .

Unire index

Indexul inversat este umplut de o îmbinare sau reconstruire. O reconstruire este similară unei îmbinări, dar mai întâi șterge conținutul indexului inversat. Arhitectura poate fi proiectată pentru a suporta indexarea incrementală [12] , unde o îmbinare identifică documentul sau documentele care trebuie adăugate sau actualizate și apoi analizează fiecare document în cuvinte. Pentru a fi precis, o îmbinare îmbină documentele nou indexate, care de obicei se află în memoria virtuală, cu cache-ul index care se află pe una sau mai multe unități de hard disk ale computerului.

După analiză, indexatorul adaugă documentul de referință la lista de documente pentru cuvintele corespunzătoare. Într-un motor de căutare mai mare, procesul de găsire a fiecărui cuvânt în indexul inversat (pentru a semnaliza faptul că a apărut în cadrul unui document) poate dura prea mult, astfel încât acest proces este de obicei împărțit în două părți, dezvoltarea unui forward index și un proces care sortează conținutul indexului direct în indexul inversat. Indicele inversat se numește așa deoarece este o inversare a indicelui direct.

Indicele forward

Indexul direct stochează o listă de cuvinte pentru fiecare document. Următoarea este o formă simplificată a indexului direct:

Indice forward
Document Cuvinte
Documentul 1 vaca spune moo
Documentul 2 pisica și pălăria
Documentul 3 Vasul fuge cu lingura

Rațiunea din spatele dezvoltării unui index direct este că atunci când documentele sunt analizate, cel mai bine este să stocați imediat cuvintele pentru fiecare document. Delimitarea permite procesarea asincronă a sistemului, care ocolește parțial blocajul actualizării indexului inversat [13] . Indicele direct este sortat pentru a-l transforma într-un index inversat. Indexul direct este în esență o listă de perechi formate dintr-un document și un cuvânt, colectate din document. Conversia indexului direct într-un index inversat este doar o chestiune de ordonare a perechilor pe baza cuvintelor. În acest sens, indicele inversat este un index direct ordonat după cuvânt.

Comprimare

Generarea sau menținerea unui index de motoare de căutare pe scară largă reprezintă o provocare semnificativă de stocare și procesare. Multe motoare de căutare folosesc o formă de compresie pentru a reduce dimensiunea indexurilor de pe disc [14] . Luați în considerare următorul scenariu pentru un motor de căutare pe Internet cu text integral.

  • Sunt necesari 8 biți (sau 1 octet) pentru a stoca un singur caracter. Unele codificări utilizează 2 octeți pe caracter [15] [16]
  • Numărul mediu de caractere dintr-un cuvânt dat pe o pagină poate fi estimat la 5

Având în vedere acest scenariu, un index necomprimat (presupunând un index simplu, necombinat) pentru 2 miliarde de pagini web ar trebui să stocheze 500 de miliarde de intrări de cuvinte. La 1 octet pe caracter sau 5 octeți pe cuvânt, acest lucru ar necesita 2500 de gigaocteți de stocare numai. Această cerință de spațiu poate fi chiar mai mare pentru o arhitectură de stocare distribuită tolerantă la defecțiuni. În funcție de tehnica de compresie aleasă, indicele poate fi redus la o fracțiune din această dimensiune. Compensarea este timpul și puterea de procesare necesare pentru a efectua compresia și decompresia.

În special, proiectele de motoare de căutare la scară largă încorporează costul stocării, precum și costul energiei electrice pentru stocarea energiei electrice. Deci compresia este o măsură a costului.

Analiza documentelor

Analiza documentelor separă componentele (cuvintele) unui document sau altă formă de suport pentru indexarea directă și inversă. Cuvintele găsite se numesc jetoane și, prin urmare, în contextul indexării motoarelor de căutare și al procesării limbajului natural, analizarea este denumită mai des „tokenizare”. Se mai numește uneori și dezambiguizarea cuvintelor limită, etichetare, segmentare a textului, analiza conținutului, analiza textului, extragerea textului, generarea concordanței, segmentarea vorbirii, Lexing sau analiză lexicală. Termenii „indexare”, „analiză” și „tokenizare” sunt folosiți în mod interschimbabil în jargonul de afaceri.

Provocări în procesarea limbajului natural

Vorbitorii nativi de engleză ar putea considera inițial tokenizarea o sarcină simplă, dar acest lucru nu este cazul atunci când proiectăm un indexator multilingv. În formă digitală, textele din alte limbi, cum ar fi chineza, japoneza sau araba, reprezintă o provocare mai mare, deoarece cuvintele nu sunt clar delimitate cu spații albe. Scopul în timpul tokenizării este de a identifica cuvintele pe care utilizatorii le vor căuta. Logica specifică limbii este utilizată pentru a identifica corect limitele cuvintelor, care este adesea rațiunea din spatele proiectării unui analizor pentru fiecare limbă acceptată (sau pentru grupuri de limbi cu markeri și sintaxă de limită similare).
Ambiguitate lingvistică
Pentru a ajuta la clasificarea corectă a documentelor care se potrivesc, multe motoare de căutare colectează informații suplimentare despre fiecare cuvânt, cum ar fi limbajul sau categoria lexicală (parte a vorbirii). Aceste tehnici sunt dependente de limbă, deoarece sintaxa variază între limbi. Documentele nu identifică întotdeauna în mod clar limba documentului sau îl reprezintă corect. În tokenizarea documentelor, unele motoare de căutare încearcă să identifice automat limba documentului [17] .
Diferite formate de fișiere
Pentru a identifica corect ce octeți ai unui document reprezintă caractere, formatul fișierului trebuie tratat corect. Motoarele de căutare care acceptă mai multe formate de fișiere trebuie să poată deschide și accesa corect documentul și să poată simboliza caracterele din document.
Depozitare defectă
Este posibil ca calitatea datelor în limbaj natural să nu fie întotdeauna perfectă. Un număr nespus de documente, în special pe internet, nu respectă strict protocolul de fișier corespunzător. Caracterele binare pot fi codate incorect în diferite părți ale unui document. Fără recunoașterea acestor caractere și o manipulare adecvată, calitatea indexului sau performanța indexerului ar putea degrada.

Tokenizarea

Spre deosebire de oamenii alfabetizați, computerele nu înțeleg structura unui document în limbaj natural și nu pot recunoaște automat cuvinte și fraze. Pentru un computer, un document este doar o secvență de octeți. Computerele nu știu că un spațiu separă cuvintele dintr-un document. În schimb, oamenii trebuie să programeze computerul pentru a identifica ceea ce constituie un cuvânt individual sau distinct, denumit semn. Un astfel de program este denumit în mod obișnuit tokenizer sau parser sau lexer. Multe motoare de căutare, precum și alte software-uri de procesare a limbajului natural, încorporează programe specializate pentru analiză, precum YACC sau Lex.

În timpul tokenizării, analizorul identifică secvențe de caractere reprezentând cuvinte și alte elemente, cum ar fi punctuația, care sunt reprezentate prin coduri numerice, dintre care unele sunt caractere de control care nu se tipăresc. Analizorul poate identifica, de asemenea, entități precum adrese de e-mail, numere de telefon și adrese URL. Când identificați fiecare jeton, este posibil să stocați diferite caracteristici, cum ar fi cazul jetonului (sus, jos, mixt, corect), limbă sau codificare, categorie lexicală (parte a vorbirii, cum ar fi „nume” sau „verb” ), poziția, numărul propoziției, poziția propoziției, lungimea și numărul rândului.

Recunoașterea limbii

Dacă motorul de căutare acceptă mai multe limbi, un pas inițial comun în timpul tokenizării este identificarea limbii fiecărui document; mulți dintre pașii următori sunt dependenți de limbă (cum ar fi stemming și o parte a etichetării vocale). Recunoașterea limbii este procesul prin care un program de computer încearcă să identifice sau să clasifice automat limba unui document. Alte nume pentru recunoașterea limbii includ clasificarea limbii, analiza limbii, identificarea limbii și etichetarea limbii. Recunoașterea automată a limbajului face obiectul cercetărilor în curs privind procesarea limbajului natural. Găsirea limbii căreia îi aparțin cuvintele poate implica utilizarea unui tabel de recunoaștere a limbii.

Analiza formatului

Dacă motorul de căutare acceptă mai multe formate de documente, documentele trebuie pregătite pentru tokenizare. Provocarea este că multe formate de documente conțin informații de formatare pe lângă conținutul textual. De exemplu, documentele HTML conțin etichete HTML, care specifică informații de formatare, cum ar fi începutul unei linii noi, aldine și dimensiunea sau stilul fontului. Dacă motorul de căutare ar ignora diferența dintre conținut și „markup”, informațiile străine ar fi incluse în index, ducând la rezultate de căutare slabe. Analiza formatului este identificarea și gestionarea conținutului de formatare încorporat în documente care controlează modul în care documentul este afișat pe ecranul unui computer sau interpretat de un program software. Analiza formatului este denumită și analiza structurii, analiza formatului, eliminarea etichetelor, eliminarea formatului, normalizarea textului, curățarea textului și pregătirea textului. Provocarea analizei formatelor este complicată și mai mult de complexitatea diferitelor formate de fișiere. Unele formate de fișiere sunt proprietare, cu foarte puține informații dezvăluite, în timp ce altele sunt bine documentate. Formatele de fișiere obișnuite și bine documentate acceptate de multe motoare de căutare includ:

  • HTML
  • Fișier text ASCII (un document text fără formatare specifică care poate fi citit de computer)
  • Portable Document Format (PDF) de la Adobe
  • PostScript (PS)
  • LaTeX
  • Netnews Formatele de server UseNet
  • XML și derivate precum RSS
  • SGML
  • Formate de metadate multimedia precum ID3
  • Microsoft Word
  • Microsoft Excel
  • Microsoft powerpoint
  • IBM Lotus Notes

Opțiunile pentru gestionarea diferitelor formate includ utilizarea unui instrument de analiză de afaceri disponibil public oferit de organizația care a dezvoltat, menține sau deține formatul și scrierea unui analizor personalizat.

Unele motoare de căutare acceptă inspecția fișierelor stocate într-un format de fișier comprimat sau criptat. Când lucrați cu un format comprimat, indexerul decomprimă documentul mai întâi; acest pas poate genera unul sau mai multe fișiere, fiecare dintre acestea trebuie indexate separat. Formatele de fișiere comprimate acceptate în mod obișnuit includ:

  • ZIP: fișier arhivă zip
  • RAR - fișier arhivă Roshal
  • CAB - Cabinet de fișiere Microsoft Windows
  • Gzip - Fișier comprimat cu gzip
  • BZIP - Fișier comprimat folosind bzip2
  • Tape ARchive (TAR), fișier arhivă Unix, nu (în sine) comprimat
  • TAR.Z, TAR.GZ sau TAR.BZ2 - Unix arhivează fișiere comprimate cu Compress, GZIP sau BZIP2

Analiza formatului poate implica metode de îmbunătățire a calității pentru a evita includerea „informațiilor proaste” în index. Conținutul poate manipula informațiile de formatare pentru a include conținut suplimentar. Exemple de utilizare greșită a formatării documentelor pentru spamdexing:

  • Includeți sute sau mii de cuvinte într-o secțiune care nu este vizibilă pe ecranul computerului, dar este vizibilă pentru indexer, prin utilizarea formatării (de exemplu, eticheta „div” ascunsă în HTML, care poate încorpora utilizarea CSS sau JavaScript pentru face acest lucru).
  • Setați culoarea fontului de prim-plan al cuvintelor la aceeași culoare cu fundalul, făcând cuvintele ascunse pe ecranul computerului pentru o persoană care vizualizează documentul, dar nu pentru indexator.

Recunoașterea secțiunii

Unele motoare de căutare încorporează recunoașterea secțiunilor, identificarea principalelor părți ale unui document, înainte de tokenizare. Nu toate documentele dintr-un corpus pot fi citite ca o carte bine scrisă, împărțită în capitole și pagini organizate. Multe documente de pe web, cum ar fi buletinele informative și rapoartele companiei, conțin conținut incorect și secțiuni laterale care nu conțin material primar (despre ce este vorba în document). De exemplu, acest articol prezintă un meniu lateral cu linkuri către alte pagini web. Unele formate de fișiere, cum ar fi HTML sau PDF, permit afișarea conținutului în coloane. Chiar dacă conținutul este afișat sau redat în diferite zone ale vizualizării, conținutul brut de marcare poate stoca aceste informații secvențial. Cuvintele care apar secvențial în conținutul sursei brute sunt indexate secvențial, chiar dacă aceste propoziții și paragrafe sunt reproduse în diferite părți ale ecranului computerului. Dacă motoarele de căutare indexează acest conținut ca și cum ar fi un conținut normal, calitatea indexului și calitatea căutării ar putea fi degradate din cauza conținutului mixt și a apropierii necorespunzătoare a cuvintelor.

  • Conținutul din diferite secțiuni este tratat ca fiind corelat în index, atunci când de fapt nu este
  • Conținutul „barei laterale” organizaționale este inclus în index, dar conținutul barei laterale nu contribuie la semnificația documentului, iar indexul este umplut cu o reprezentare defectuoasă a documentelor sale.

Analiza secțiunii poate necesita ca motorul de căutare să implementeze logica de redare a fiecărui document, în esență o reprezentare abstractă a documentului propriu-zis, și apoi să indexeze reprezentarea. De exemplu, un anumit conținut de pe Internet este afișat prin JavaScript. Dacă motorul de căutare nu redă pagina și evaluează codul JavaScript din pagină, nu ar „vedea” acest conținut în același mod și ar indexa documentul în mod incorect. Deoarece unele motoare de căutare nu se preocupă de problemele de redare, mulți designeri de pagini web evită afișarea de conținut prin JavaScript sau folosesc eticheta Noscript pentru a se asigura că pagina web este indexată corect. În același timp, acest fapt poate fi exploatat și pentru a face ca indexatorul motorului de căutare să „vadă” alt conținut decât cel al vizualizatorului.

Indexare metatag

Documentele specifice conțin adesea meta informații încorporate, cum ar fi autorul, cuvintele cheie, descrierea și limba. Pentru paginile HTML, metaeticheta conține cuvinte cheie care sunt, de asemenea, incluse în index. Tehnologia anterioară a motorului de căutare pe Internet a indexat numai cuvinte cheie în metaetichete pentru indexul forward; întregul document nu va fi analizat. La acel moment, indexarea textului complet nu era atât de bine stabilită, nici hardware-ul computerului nu era capabil să susțină o astfel de tehnologie. Proiectarea limbajului de marcare HTML a inclus inițial suport pentru metaetichete pentru a fi indexate corect și ușor, fără a necesita tokenizare [18] .

Odată cu creșterea internetului în anii 1990, multe companii de cărămidă și mortar au intrat „online” și au creat site-uri web corporative. Cuvintele cheie folosite pentru descrierea paginilor web (dintre care multe au fost pagini web orientate către companii, asemănătoare cu broșurile de produse) s-au schimbat de la cuvinte cheie descriptive la cuvinte cheie orientate spre marketing, concepute pentru a crește vânzările prin clasarea în partea de sus a paginii web în rezultatele căutării pentru interogări de căutare specifice. . Faptul că aceste cuvinte cheie au fost specificate subiectiv a dus la spamdexing , ceea ce a determinat multe motoare de căutare să adopte tehnologii de indexare a textului complet în anii '90. Proiectanții și companiile de motoare de căutare ar putea insera atât de multe „cuvinte cheie de marketing” în conținutul unei pagini web înainte de a le scurge de toate informațiile interesante și utile. Având în vedere acest conflict de interese cu scopul afacerii de a proiecta site-uri web orientate către utilizator care erau „lipicioase”, ecuația valorii vieții clientului a fost modificată pentru a încorpora conținut mai util în site-ul web în speranța de a reține vizitatorul. În acest sens, indexarea textului complet a fost mai obiectivă și a sporit calitatea rezultatelor motoarelor de căutare, întrucât a reprezentat un pas suplimentar de la controlul subiectiv al clasamentelor motoarelor de căutare, care la rândul său a promovat căutarea tehnologiilor de indexare a textului complet.

În căutarea pe desktop, multe soluții încorporează metaetichete pentru a oferi autorilor o modalitate de a personaliza în continuare modul în care motorul de căutare va indexa conținutul diferitelor fișiere care nu este evident din conținutul fișierului. Căutarea pe desktop este mai mult sub controlul utilizatorului, în timp ce motoarele de căutare pe Internet trebuie să se concentreze mai mult pe indexul textului integral.

Notă

  1. ^ Salvatore Capolupo, Cum se indexează un site , pe capolooper.it . Adus pe 21 septembrie 2019 .
  2. ^ Google, Google Search Console , pe google.com , Google.it, 24 aprilie 2018. Accesat pe 2 iunie 2018 .
  3. ^ Marcello Tansini, Yahoo condamnă împotriva streaming-ului ilegal și a descărcării de filme , pe businessonline.it . Adus la 26 noiembrie 2012 .
  4. ^ trie , Dictionary of Algorithms and Data Structures , US National Institute of Standards and Technology .
  5. ^ trie , Dictionary of Algorithms and Data Structures , US National Institute of Standards and Technology .
  6. ^ Black, Paul E.,index inversat , Dicționar de algoritmi și structuri de date , Institutul Național de Standarde și Tehnologie din SUA octombrie 2006. Verificat decembrie 2006.
  7. ^ CC Foster, Information retrieval: information storage and retrieval using AVL trees, Proceedings of the 1965 20th national conference, p.192-205, 24-26 august 1965, Cleveland, Ohio, Statele Unite
  8. ^ Landauer, WI: Arborele echilibrat și utilizarea acestuia în regăsirea informațiilor. IEEE Trans. pe computere electronice, vol. EC-12, nr. 6, decembrie 1963.
  9. ^ Google Ngram Datasets Arhivat 29 septembrie 2013 la Internet Archive . de vânzare la Catalogul LDC
  10. ^ Jeffrey Dean și Sanjay Ghemawat. MapReduce: Prelucrare simplificată a datelor pe clustere mari. Google, Inc. OSDI. 2004.
  11. ^ Tang, Hunqiang.Dwarkadas, Sandhya, "Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval" . University of Rochester, p 1.
  12. ^ Tomasic, A., et al.: Incremental Updates of Inverted Lists for Text Document Retrieval. Short Version of Stanford University Computer Science Technical Note STAN-CS-TN-93-1, December, 1993.
  13. ^ Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine . Stanford University . 1998. Verified Dec 2006.
  14. ^ HS Heaps. Storage analysis of a compression coding for a document database. 1NFOR, I0(i):47-61, February 1972.
  15. ^ The Unicode Standard - Frequently Asked Questions . Verified Dec 2006.
  16. ^ Storage estimates . Verified Dec 2006.
  17. ^ ( EN )Search Engine Optimization , su dtopseo.com . URL consultato il 21 settembre 2016 .
  18. ^ Berners-Lee, T., "Hypertext Markup Language - 2.0", RFC 1866 , Network Working Group, November 1995.

Voci correlate