Tractor pe şenile

Un crawler (numit și crawler web , spider sau robot ) este un software care analizează conținutul unei rețele (sau baze de date ) într-un mod metodic și automat, de obicei în numele unui motor de căutare . Mai exact, un crawler este un tip de bot (program sau script care automatizează operațiunile), care obține de obicei o copie text a tuturor documentelor prezente într-una sau mai multe pagini web, creând un index care le permite, ulterior, să fie căutate și vizualizate. .

O utilizare extrem de obișnuită a crawlerelor se face pe web ; se bazează pe o listă de adrese URL de vizitat furnizate de motorul de căutare (care, inițial, se bazează la rândul lor pe adresele sugerate de utilizatori sau pe o listă precompilată chiar de programatori). Când analizați un URL, acesta identifică toate hyperlinkurile din document și le adaugă la lista URL-urilor de vizitat. Procesul poate fi încheiat manual sau după ce a fost urmat un anumit număr de conexiuni.

Mai mult, crawlerele active pe Internet au dreptul să fie adresate prin ceea ce este indicat în fișierul „ robots.txt ” plasat în rădăcina site-ului. În cadrul acestui fișier, puteți indica ce pagini nu trebuie analizate. Crawlerul are dreptul să urmeze sfatul, dar nu și obligația.

Numele păianjenilor principalelor motoare de căutare, actualizate începând cu 21 februarie 2008
Tractor pe şenile	Motor de căutare
Googlebot	Google
Rapid	Rapid - Alltheweb
Da	Inktomi - Yahoo!
Scuter	AltaVista
Mercator	AltaVista
Întrebați-l pe Jeeves	Întrebați-l pe Jeeves
Agent Teoma	Theoma
Ia arhivator	Alexa - Arhiva Internet
Yahoo! Da	Yahoo
Romilda	Facebook
DuckDuckBot	DuckDuckGo

Exemple de crawlerele Web

Următoarea este o listă de arhitecturi de crawler publice cu scop general:

Bucean (Eichmann, 1994) a fost primul crawler public. Se bazează pe două programe: primul, „ spider ” păstrează cererea într-o bază de date relațională, iar al doilea, „ mite ”, este un browser ASCII www care descarcă pagini de pe web.
WebCrawler (Pinkerton, 1994) a fost folosit pentru a construi primul index publicitar textual al unei ramuri a web-ului. S-a bazat pe lib-WWW pentru descărcarea paginilor și pe un alt program de analiză și sortare a adreselor URL pentru explorare prin metoda grafică primară. De asemenea, include un crawler în timp real care urmează legături bazate pe similarități de ancorare text cu interogarea condiționată.
TennSpider (McBryan, 1994) a fost un crawler folosit pentru a construi un index simplu de titluri de documente și adrese URL. Indexul poate fi căutat folosind comanda grep Unix .
Google Crawler (Brin și Page, 1998) este descris în detaliu, dar referința se referă doar la o versiune anterioară a acelei arhitecturi, care se bazează pe C ++ și Python. Crawlerul a fost integrat cu procesul de indexare, deoarece selectarea textului a fost făcută pentru a indexa textul complet și, de asemenea, pentru a extrage adresele URL. Un server URL trimite liste de adrese URL pentru a fi preluate de diferite procese de accesare cu crawlere. În timpul analizei , adresele URL găsite sunt trimise către un server URL care verifică dacă URL-ul a fost văzut anterior. Dacă nu, adresa URL este adăugată la interogarea serverului URL.
VnzOwna (da Silva și colab. , 1999) folosit ca programator central și serie de colectoare distribuite. Colecționarii analizează paginile web descărcate și trimit adresele URL descoperite planificatorului, care atribuie rândul colecționarilor. Planificatorul întărește căutarea sortată în primul rând cu o politică neordonată pentru a evita supraîncărcarea serverelor web. Crawlerul este scris în Perl .
Mercator (Heydon și Najork, 1999; Najork și Heydon, 2001) este un crawler web modular distribuit scris în Java . Modularitatea sa provine din utilizarea „modulelor de protocol” și „șabloanelor de proces” interschimbabile. Modulele de protocol sunt corelate pentru a achiziționa pagini web (ex: HTTP), iar modulele de proces sunt corelate cu procesarea paginilor web. Formularele standard pot fi utilizate pentru a indexa textul paginilor sau pentru a colecta statistici de pe web.
WebFountain (Edwards și colab. , 2001) este un crawler de tip Mercator, dar scris în C ++ . Particularitatea sa constă în „mașina controlorului” care coordonează o serie de „mașini ant”. După o descărcare repetitivă a paginii, se calculează un factor de modificare pentru fiecare pagină și trebuie utilizată o metodă de programare neliniară pentru a rezolva sistemul de ecuații pentru a maximiza actualizarea. Autorii recomandă utilizarea acestei ordine de accesare cu crawlere în primele părți și apoi schimbarea ordinii uniforme în care toate paginile au fost vizitate cu aceeași frecvență.
PolyBot [Shkapenyuk și Suel, 2002] este un crawler scris în C ++ și Python , constând dintr-un manager, unul sau mai mulți downloaders și unul sau mai mulți detectori DNS. Adresele URL colectate sunt adăugate pe disc și procesate ulterior pentru a le căuta în modul batch. Regulamentul ia în considerare atât domeniile de nivel al treilea, cât și domeniile de nivel al doilea (de exemplu, nivelul al treilea: www.aaa.com, www2.aaa.com), deoarece domeniile de nivelul al treilea sunt găzduite de obicei de același server web.
WebRACE (Zeinalipour-Yazti și Dikaiakos, 2002) este un modul de crawling și cache dezvoltat în Java și utilizat ca parte a unui sistem mai generic numit eRACE. Principala caracteristică care iese în evidență în Webrace este că, în timp ce multe crawlerele încep să caute cu un set de semințe URL, WebRACE primește continuu adrese URL noi din formular.
Ubicrawler (Boldi și colab. , 2004) este un crawler scris în Java. Acesta constă dintr-un număr de „agenți” identici și funcția de atribuire este calculată folosind hashing-ul numelui de gazdă. Nu există suprapunere, aceasta înseamnă că nicio pagină nu este indexată de două ori, până când un agent de crawler se blochează; atinge o scalabilitate ridicată și este tolerant la eșecuri.
FAST Crawler (Risvik și Michelsen, 2002) este un crawler folosit de Fast Search & Transfer .
Labrador , un crawler privat care colaborează cu proiectul Open Source numit Terrier Search Engine .
Spinn3r , este un crawler folosit pentru a construi sufletul Tailrank.com. Spinn3r se bazează pe Java și cea mai mare parte a arhitecturii este Open Source.
HotCrawler , este scris în C și PHP .

Crawler open-source

DataparkSearch este un motor de căutare și crawler distribuit sub licența publică generală GNU .
Ebot este un crawler scalabil și distribuit scris în Erlang și distribuit sub licența publică generală GNU .
Wget este un crawler de linie de comandă scris în C și distribuit sub licența publică generală GNU . Este de obicei folosit pentru site-urile mirror și FTP .
Heritrix este crawlerul de arhivă web de cea mai înaltă calitate, conceput pentru a arhiva capturi de ecran periodice ale unei porțiuni mari din web. A fost scris în Java .
Htdig include un crawler web în motorul său de indexare.
HTTrack folosește un crawler web pentru a crea o replică a unui site web pentru consultare off-line. A fost scris în C și distribuit sub licența GNU GPL .
JSpider este un web spider foarte personalizabil distribuit sub licența GNU GPL.
Methabot este un crawler web cu linie de comandă optimizat pentru viteză, scris în C și distribuit sub licența ISC . Acesta include un sistem de configurare, un modul de sistem și suport pentru accesarea cu crawlere a țintelor prin sistemul de fișiere local, HTTP sau FTP.
Nutch este un crawler scris în Java sub licența Apache. Poate fi folosit împreună cu indexul textual creat cu Lucene .
WebVac este un crawler folosit de Stanford WebBase Project .
WebSPHINX (Miller și Bharat, 1998) este compus dintr-o bibliotecă Java care implementează interogarea multiplă a paginilor web și analiza HTML, o interfață grafică de utilizator pentru a seta adresele de pornire pentru a extrage datele descărcate și pentru a implementa un text de bază al motorului de căutare.
WIRE - Web Information Retrieval Environment (Baeza-Yates și Castillo, 2002) este un crawler web scris în C ++ și distribuit sub licența GPL, incluzând mai multe linii directoare pentru catalogarea paginilor web descărcate și un modul pentru a genera statistici și rapoarte pe paginile descărcate , folosit pentru caracterizarea web.
LWP :: RobotUA (Langheinrich, 2004) este o clasă Perl distribuită sub licența Perl5.
Web Crawler este crawler web open source pentru .NET scris în C # .
Sherlock Holmes colectează și indexează date textuale (fișiere text, pagini web etc.), atât local, cât și în rețea. Holmes este sponsorizat și utilizat comercial de portalul web ceh Centrum. este folosit și de site-ul Onet.pl.
YaCy este un motor de căutare distribuit în mod liber, construit pe principiile rețelelor p2p (licențiat conform GPL).
Ruya este un open source de înaltă performanță, bazat pe crawlerul de intrare la nivel de căutare Breadth-first. Este folosit pentru a gestiona site-urile web în limba engleză și japoneză în cel mai bun mod posibil. Este licențiat sub GPL și scris integral în limba Python .
Universal Information Crawler este un crawler web rapid de utilizat. Salvați și analizați datele.
Agent Kernel este un framework Java pentru planificarea, procesarea și stocarea datelor în timpul accesării cu crawlere.
Squzer , un crawler web open-source, extensibil, multifuncțional scris în Python.
Arachnode.NET este un crawler web open source promiscu pentru descărcarea, indexarea și salvarea conținutului Internet, inclusiv e-mailuri, fișiere, hyperlinkuri, imagini și pagini web. Arachnode.net este scris în C # folosind SQL Server 2005 și este licențiat sub GPL.
BBragnet este un crawler web open source (pentru servere Linux ) scris în PHP

Critici

Termenul Web Crawler este, de asemenea, utilizat pentru a indica browsere offline controversate, cum ar fi: PageNest (fost WebStripper ), MSIECrawler , Offline Explorer etc. Aceste programe sunt concepute pentru a descărca conținutul unui întreg site web pe hard diskul computerului utilizatorului. De exemplu, Memory Alpha le interzice utilizarea deoarece accesează site-ul în mod agresiv, încetinind drastic utilizarea site-ului de către alți utilizatori ^[1], iar infractorii riscă să fie blocați ^[2] .

Notă

^ (EN) Memory Alpha: Descărcare bază de date , pe memory-alpha.org. Adus la 28 decembrie 2010 .
^ Vezi fișierul robots.txt al Memory Alpha

Elemente conexe

Alte proiecte

Wikționarul conține dicționarul lema « crawler »

linkuri externe

PolyBot , pe cis.poly.edu . Adus la 5 aprilie 2008 (arhivat din original la 30 aprilie 2008) .
WebRACE , pe grid.ucy.ac.cy. Adus la 5 aprilie 2008 (arhivat din original la 28 decembrie 2007) .
Ubicrawler , pe law.dsi.unimi.it . Adus la 5 aprilie 2008 (arhivat din original la 10 aprilie 2008) .
Labrador , pe ir.dcs.gla.ac.uk. Adus la 5 aprilie 2008 (arhivat din original la 31 decembrie 2007) .
Spinn3r , pe spinn3r.com . Adus pe 29 august 2019 (depus de „url original 13 martie 2018).
Htdig , pe htdig.org . Adus la 5 aprilie 2008 (arhivat din original la 8 aprilie 2008) .

Controlul autorității	GND ( DE ) 4796298-7

Portal internet

Portal telematic

[1] (EN) Memory Alpha: Descărcare bază de date , pe memory-alpha.org. Adus la 28 decembrie 2010 .

[2] Vezi fișierul robots.txt al Memory Alpha

[1],

[2]