Wayback Machine

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Logo-ul Wayback Machine

The Wayback Machine este o arhivă digitală a World Wide Web . A fost lansat în 2001 de Internet Archive , o organizație nonprofit cu sediul în San Francisco .

Istorie

Fondatorii Internet Archive, Brewster Kahle și Bruce Gilliat, au lansat Wayback Machine în 2001 pentru a aborda problema dispariției conținutului site-ului web ori de câte ori este schimbat sau închis. [1] Serviciul permite utilizatorilor să vizualizeze în timp versiunile arhivate ale paginilor Web , pe care arhiva le numește „index tridimensional”. [2] Kahle și Gilliat au creat mașina sperând să arhiveze întregul Internet și să ofere „acces universal la toate cunoștințele”. [3]

Numele Wayback Machine a fost ales ca referință la „mașina WABAC” (pronunțată în trecut ), un dispozitiv fictiv de călătorie în timp folosit de personajele Mister Peabody și Sherman în The Rocky and Bullwinkle Show , un desen animat. [4] Într-unul dintre segmentele componente ale desenului animat, povestea puțin probabilă a lui Peabody , personajele foloseau în mod obișnuit mașina pentru a asista, participa și, foarte des, a modifica evenimente celebre din poveste.

Wayback Machine a început să arhiveze paginile Web stocate în cache în 1996, cu scopul de a face serviciul public cinci ani mai târziu. [5] Din 1996 până în 2001, informațiile au fost stocate pe bandă digitală, Kahle permitând ocazional cercetătorilor și oamenilor de știință să acceseze baza de date mare. [6] Când arhiva a ajuns la a cincea aniversare în 2001, a fost dezvăluită și deschisă publicului într-o ceremonie la Universitatea din California, Berkeley . [7] La momentul lansării Wayback Machine, acesta conținea deja peste 10 miliarde de pagini arhivate. [8]

Astăzi, datele sunt stocate în grupul mare de noduri Linux al Internet Archive. [3] Revizuiește și arhivează ocazional versiuni noi ale site-urilor web (a se vedea detaliile tehnice de mai jos). [9] Site-urile pot fi, de asemenea, capturate manual prin introducerea „ URL - ului unui site web în caseta de căutare, atâta timp cât site-ul Web permite Wayback Machine„ să-l scaneze ”și să salveze datele. [5]

Detalii tehnice

Software-ul a fost dezvoltat pentru a scana” Web-ul și a descărca toate paginile de pe World Wide Web care sunt accesibile publicului prin ierarhia Gopher , sistemul de buletine Netnews (Usenet) și software-ul descărcabil. [10] Informațiile colectate de acești „crawler” nu includ toate informațiile disponibile pe internet, întrucât o mare parte din date sunt limitate de editor sau stocate în baze de date inaccesibile. Pentru a depăși neconcordanțele din site-urile parțial memorate în cache, Archive-It.org a fost dezvoltat în 2005 de Internet Archive ca mijloc de a permite instituțiilor și creatorilor de conținut să colecteze și să întrețină în mod voluntar colecții de conținut digital și să creeze arhive digitale. [11]

Crawl-urile sunt furnizate din diverse surse, unele importate de la terți și altele generate intern de Arhivă. [9] De exemplu, accesările cu crawlere sunt furnizate de Sloan Foundation și Alexa , accesări cu crawlere operate de AI în numele NARA și Internet Memory Foundation, o oglindă a Crawlului comun. „Worldwide Web Crawl” rulează din 2010 și captează web-ul global. [12]

Frecvența capturilor instantanee variază în funcție de site-ul web. Site-urile web din „World Crawls Web” sunt incluse într-o „listă de crawlere”, cu site-ul arhivat o dată pe crawl. Un crawl poate dura luni sau chiar ani pentru a se finaliza, în funcție de dimensiune. De exemplu, „Wide Crawl Number 13” a fost început la 9 ianuarie 2015 și finalizat la 11 iulie 2016. [13] Cu toate acestea, pot fi efectuate mai multe căutări simultan, iar un site poate fi inclus în mai multe liste de crawlere , deci frecvența cu care este accesat cu crawlere un site variază foarte mult. [9]

Din octombrie 2019, utilizatorii sunt limitați la 5 cereri de stocare și recuperări pe minut.

Capacitate de stocare și creștere

Odată cu dezvoltarea tehnologiei de-a lungul anilor, capacitatea de stocare a mașinii Wayback a crescut. În 2003, după doar doi ani de acces public, mașina Wayback crește cu o rată de 12 terabyte / lună. Datele sunt stocate pe sistemele rack PetaBox personalizate proiectate de personalul Internet Archive. Primul rack de 100 TB a devenit pe deplin operațional în iunie 2004, deși a devenit curând clar că vor avea nevoie de mult mai mult spațiu de stocare. [14] [15]

Internet Archive și-a migrat arhitectura de stocare personalizată către Sun Open Storage în 2009 și găzduiește un nou centru de date într-un centru de date Sun Modular din campusul Sun Microsystems din California. [16] În 2009, Wayback Machine conținea aproximativ trei petabytes de date și creștea cu o rată de 100 terabytes pe lună. [17]

O nouă versiune îmbunătățită a Wayback Machine, cu o interfață actualizată și un index mai actualizat al conținutului arhivat, a fost pusă la dispoziție pentru testarea publică în 2011.[18] În luna martie a aceluiași an, forul Wayback Machine a fost a declarat că „versiunea beta a noii Wayback Machine are un index mai complet și mai actualizat al tuturor materialelor scanate în 2010 și va continua să fie actualizată în mod regulat. Indexul din spatele clasicului Wayback Machine are doar un pic de material comparativ cu 2008 și nu sunt planificate alte actualizări ale indexului, deoarece acesta va fi eliminat treptat în acest an. " [19] Tot în 2011, Internet Archive a instalat cea de-a șasea pereche de rafturi PetaBox care au mărit capacitatea de stocare a mașinii Wayback cu 700 de terabyți. [20]

În ianuarie 2013, compania a anunțat o etapă majoră de 240 de miliarde de adrese URL. [21] În octombrie 2013, compania a anunțat caracteristica „Salvați o pagină” [22] care permite oricărui utilizator de Internet să arhiveze conținutul unei adrese URL. Aceasta a devenit o amenințare de abuz de către serviciu pentru găzduirea fișierelor binare rău intenționate. [23] [24]

Începând din decembrie, Wayback Machine conținea 435 miliarde de pagini web, aproape nouă petabytes de date și crește cu aproximativ 20 de terabytes pe săptămână. [8] [25] [26]

În iulie 2014, Wayback Machine conținea aproximativ 15 petabytes de date. [27]

Începând din septembrie 2018, mașina Wayback conținea peste 25 de petabiți de date. [28] [29]

Creştere

În perioada octombrie 2013 - martie 2015, clasamentul global Alexa al site-ului s-a schimbat de la 163 [30] la 208. [31] În martie 2019, rangul era de 244. [32]

Politica de excludere a site-urilor web

Din punct de vedere istoric, Wayback Machine a aderat la standardul de excludere a roboților (robots.txt) pentru a stabili dacă un site web va fi accesat cu crawlere sau nu; sau dacă este deja scanat, dacă arhivele sale ar putea fi vizualizate public. Proprietarii de site-uri web au avut opțiunea de a renunța la Wayback Machine prin utilizarea robots.txt. Aplicat regulile robots.txt retroactiv; dacă un site a blocat Arhiva Internet, toate paginile arhivate anterior de domeniu au fost, de asemenea, imediat indisponibile. Mai mult, Internet Archive a declarat că „uneori proprietarul unui site web ne va contacta direct și ne va cere să nu mai accesăm cu crawlere sau arhivarea unui site. Respectăm aceste solicitări.” [33] În plus, site-ul web spune: „Internet Archive nu este interesat de păstrarea sau oferirea accesului la site-uri web sau alte documente de internet ale persoanelor care nu doresc materialele lor din colecție. " [34] [35]

Notă

  1. ^ Greg R. Notess, The Wayback Machine: The Web's Archive , în Online , vol. 26, martie - aprilie 2002, pp. 59–61.
  2. ^ https://archive.org/about/faqs.php#The_Wayback_Machine .
  3. ^ a b 20.000 de discuri dure într-o misiune | Bloguri Internet Archive , la blog.archive.org . Adus la 15 octombrie 2018 (Arhivat din original la 20 octombrie 2018) .
  4. ^ Judy Tong, Partidul responsabil - Brewster Kahle; A Library Of the Web, On the Web , în New York Times , 8 septembrie 2002. Accesat la 15 august 2011 (arhivat din original la 20 februarie 2011) .
  5. ^ a b Internet Archive: Wayback Machine , la archive.org . Adus la 15 octombrie 2018 (arhivat din original la 3 ianuarie 2014) .
  6. ^ John Cook, site-ul Web vă duce înapoi în istoria Internetului , în Seattle Post-Intelligencer , 1 noiembrie 2001. Accesat la 15 august 2011 (arhivat din original la 12 august 2014) .
  7. ^ Wayback Goes Way Back on Web , în Wired , 28 octombrie 2001. Accesat la 16 octombrie 2017 (arhivat din original la 16 octombrie 2017) .
  8. ^ a b Sanjay K. Arora, Yin Li și Jan Youtie, Utilizarea mașinii de revenire pentru a extrage site-uri web în științele sociale: o resursă metodologică , în Jurnalul Asociației pentru Știința și Tehnologia Informației , vol. 67, nr. 8, 5 mai 2015, pp. 1904–1915, DOI : 10.1002 / asi.23503 , ISSN 2330-1635 ( WC ACNP ) .
  9. ^ a b c Kalev Leetaru, The Internet Archive Turns 20: A Behind the Scenes Look on Archiving the Web , Forbes , 28 ianuarie 2016. Accesat la 16 octombrie 2017 (arhivat din original la 16 octombrie 2017) .
  10. ^ Brewster Kahle, Archiving the Internet , uibk.ac.at , Scientific American - Ediția din martie 1997. Adus la 19 august 2011 (arhivat din original la 3 aprilie 2012) .
  11. ^ Jeff Kaplan, Archive-It: Crawling the Web Together , pe Internet Archive Blogs , 27 octombrie 2014. Accesat la 16 octombrie 2017 (arhivat din original la 12 octombrie 2017) .
  12. ^ Worldwide Web Crawls , la archive.org , Internet Archive. Adus la 16 octombrie 2017 (arhivat din original la 19 octombrie 2017) .
  13. ^ Wide Crawl Numărul 13 , la archive.org , Internet Archive. Adus la 16 octombrie 2017 (arhivat din original la 19 octombrie 2017) .
  14. ^ Internet Archive: Petabox , la archive.org . Accesat la 25 octombrie 2018 .
  15. ^ Michael Kanellos, Big storage on the cheap , CNET News.com, 29 iulie 2005. Accesat la 29 iulie 2007 (arhivat din original la 3 aprilie 2007) .
  16. ^ Internet Archive and Sun Microsystems Create Living History of the Internet ( XML ), pe sun.com , Sun Microsystems , 25 martie 2009. Accesat la 27 martie 2009 (arhivat din original la 26 martie 2009) .
  17. ^ Lucas Mearian, Internet Archive pentru a dezvălui un centru de date masiv Wayback Machine , Computerworld.com, 19 martie 2009. Accesat la 22 martie 2009 (arhivat din original la 23 martie 2009) .
  18. ^ Actualizat Wayback Machine în testarea beta , la iawebarchiving.wordpress.com , Archive.org. Adus la 19 august 2011 (arhivat din original la 23 august 2011) .
  19. ^ Beta Wayback Machine, pe forum , la archive.org . Adus la 16 aprilie 2014 (arhivat din original la 17 aprilie 2014) .
  20. ^ Forumuri Internet Archive: a 6-a pereche de rafturi intră în funcțiune: peste 2PB de spațiu de date utilizat , la archive.org . Adus la 25 octombrie 2018 (arhivat din original la 24 octombrie 2016) .
  21. ^ Wayback Machine: acum cu 240.000.000.000 de adrese URL | Bloguri Internet Archive , la blog.archive.org . Adus la 16 aprilie 2014 (arhivat din original la 14 aprilie 2014) .
  22. ^ Alexis Rossi, Fixing Broken Links on the Internet , at archive.org , Collections Team, the Internet Archive, 25 octombrie 2013. Accesat la 25 martie 2015 (arhivat din original la 7 noiembrie 2014) .
    „Am adăugat posibilitatea de a arhiva o pagină instantaneu și de a obține înapoi o adresă URL permanentă pentru acea pagină în Wayback Machine. Acest serviciu permite oricui - editori wikipedia, savanți, profesioniști în domeniul juridic, studenți sau bucătari de casă ca mine - să creeze o adresă URL stabilă pentru a cita, partaja sau marca orice informații la care doresc să aibă acces în viitor. " .
  23. ^ Echipa VirusTotal, 207.241.226.190 Informații despre adresa IP , pe virustotal.com , VirusTotal , 25 martie 2015. Accesat 25 martie 2015 (arhivat din original la 14 iulie 2014) .
    «25-03-2015: cele mai recente adrese URL găzduite în această adresă IP detectate de cel puțin un scaner de adrese URL sau un set de date URL periculos. ... 2/62 2015-03-25 16:14:12 [URL complet redactat] /Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [URL complet redactat] /CBLightSetup.exe " .
  24. ^ Recomandare furnizată de Google, pagina de diagnosticare a navigării sigure pentru archive.org , pe google.com/safebrowsing , Google , 25 martie 2015. Accesat 25 martie 2015 (arhivat din original la 6 aprilie 2015) .
    «2015-03-25: O parte a acestui site a fost listată pentru activitate suspectă de 138 de ori în ultimele 90 de zile. ... Ce s-a întâmplat când Google a vizitat acest site? ... Din cele 42410 de pagini pe care le-am testat pe site în ultimele 90 de zile, 450 de pagini au dus la descărcarea și instalarea de software rău intenționat fără acordul utilizatorului. Ultima dată când Google a vizitat acest site a fost pe 25-03-2015, iar ultima dată când s-a găsit conținut suspect pe acest site a fost pe 25-03-2015. ... Software-ul rău intenționat include 169 troieni, 126 viruși, 43 backdoor (i). " .
  25. ^ Întrebări frecvente pe Internet Archive , pe archive.org . Adus la 17 ianuarie 2015 (arhivat din original la 21 octombrie 2009) .
  26. ^ Întrebări frecvente pe Internet Archive , pe archive.org , 18 decembrie 2014. Accesat 13 decembrie 2018 (arhivat din original la 18 decembrie 2014) .
  27. ^ Poate manipularea Big Data să schimbe modul de gândire al lumii? , în The National . Adus la 14 mai 2017 (arhivat din original la 12 ianuarie 2017) .
  28. ^ Zachary Crockett, Inside Wayback Machine, capsula timpului internetului , în The Hustle , 28 septembrie 2018. Accesat la 26 octombrie 2018 (arhivat din original la 2 octombrie 2018) .
  29. ^ Virginia Heffernan, Things Break and Decay on the Internet - That's a Good Thing , în WIRED , 18 septembrie 2018. Accesat la 26 octombrie 2018 (arhivat din original la 25 septembrie 2018) .
  30. ^ Archive.org Site Info , la alexa.com , Alexa Internet . Adus pe 29 octombrie 2013 (arhivat din original la 28 octombrie 2013) .
  31. ^ Prezentare generală a site-ului Archive.org , la Alexa.com , Alexa Internet. Adus la 9 aprilie 2015 (arhivat din original la 9 aprilie 2015) .
  32. ^ Archive.org Traffic, Demographics and Competitors - Alexa , on web.archive.org , 23 martie 2019. Accesat la 5 aprilie 2019 (arhivat din original la 23 martie 2019) .
  33. ^ Unele site-uri nu sunt disponibile din cauza Robots.txt sau a altor excluderi Arhivat 15 aprilie 2011 la Internet Archive .
  34. ^ Cum pot elimina paginile site-ului meu de pe Wayback Machine? Arhivat la 17 aprilie 2014 la Internet Archive .
  35. ^ Joseph Cox, The Wayback Machine Is Delete Evidence of Malware Sold to Stalkers , 22 mai 2018. Accesat la 23 mai 2018 (arhivat din original la 22 mai 2018) .

Alte proiecte

linkuri externe