Arhiva Internet

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Arhiva Internet
Logo Arhivă Internet și wordmark.svg
Tip organizatie non-guvernamentala
fundație 1996
Sediul central Statele Unite San Francisco
Zona de acțiune Conservarea digitală
Președinte Brewster Kahle
Motto acces universal la toate cunoștințele
Site-ul web
Arhiva Internet
site-ul web
Siglă
URL archive.org/
Tipul site-ului Biblioteca digitală
Limbă Engleză
Înregistrare opțional
Profit Nu
Creat de Brewster Kahle
Lansa Mai 1996
Starea curenta activ
Slogan acces universal la toate cunoștințele
Internet Archive a avut sediul în Presidio din San Francisco , o fostă bază militară americană din San Francisco , din 1996 până în 2009
Noul sediu al Internet Archive din noiembrie 2009, la 300 Funston din San Francisco , o fostă biserică creștină
Sigla Wayback Machine, utilizată din noiembrie 2001
Oglindă Internet Archive la Bibliotheca Alexandrina , ( Egipt )

Internet Archive este o bibliotecă digitală non-profit care are scopul declarat de a permite „accesul universal la cunoștințe” [1] [2] . Oferă un spațiu digital permanent pentru acces la diferite tipuri de resurse: de exemplu, site-uri web, audio, imagini în mișcare (videoclipuri) și cărți. Arhiva Internet a fost fondată de Brewster Kahle în 1996 și face parte din Consorțiul internațional de conservare a internetului (IIPC). [3] Pe lângă funcția sa principală de arhivare, Internet Archive este o organizație care se străduiește să obțină un Internet gratuit și deschis și este o organizație nonprofit recunoscută oficial în Statele Unite ale Americii .

Birourile administrative sunt situate în San Francisco, în timp ce centrele de prelucrare a datelor sunt situate în San Francisco, Redwood City și Mountain View , California . Cea mai masivă colecție digitală a bibliotecii este arhiva web, un fel de colecție de „imagini statice” de pe World Wide Web catalogate după data achiziției. Pentru a asigura stabilitatea și securitatea datelor arhivate, întreaga colecție are o oglindă pe serverele Bibliotheca Alexandrina din Alexandria, Egipt . Arhiva permite publicului să încarce și să descarce material digital către și de pe serverele sale fără costuri.

De asemenea, permite accesul la unul dintre cele mai mari proiecte de arhivare a cărților digitale existente, face parte din American Library Association și este recunoscut oficial de statul California ca bibliotecă publică. [4] Compania are 200 de angajați, dintre care mulți sunt angajați în scanarea volumelor de hârtie la centre specializate. Biroul principal din San Francisco are treizeci de angajați. Arhiva Internet are un buget anual de aproximativ 10 milioane de dolari, derivat în mare parte dintr-o varietate de surse: venituri din servicii de accesare cu crawlere web , parteneriate, subvenții, donații și Fundația Kahle-Austin. [5]

Conform site-ului Internet Archive, "multe societăți acordă importanță conservării artefactelor legate de moștenirea lor culturală. Fără aceste artefacte civilizația nu are memorie și nu are cum să învețe din succesele și eșecurile sale. Cultura noastră produce acum întotdeauna. Mai multe produse în formă digitală. Misiunea Internet Archive este de a ajuta la conservarea acestor artefacte și a crea o bibliotecă digitală pe internet pentru cercetători, istorici și cărturari. "

Istorie

Brewster Kahle a fondat Internet Archive în 1996, cam în aceeași perioadă în care a înființat compania Alexa Internet , o companie care se ocupă cu servicii de accesare cu crawlere pe web . Arhiva Internet a început să arhiveze World Wide Web din 1996, dar colecția nu a fost accesibilă decât în 2001 , când a fost dezvoltată Wayback Machine. În 1999, Internet Archive s-a extins prin adăugarea altor colecții, inclusiv Arhiva Prelinger . Arhiva Internet include în prezent, printre altele, text, audio, imagini în mișcare și software. Găzduiește o serie de alte proiecte, inclusiv o arhivă de imagini NASA , serviciul de indexare Archive-It și Open Library , un catalog de volume care pot fi editate prin intermediul unui software asemănător wiki.

La 25 martie 2020, ca urmare a pandemiei COVID-19 , Arhiva Internet a lansat Biblioteca Națională de Urgență, o inițiativă care permite accesul gratuit cu text integral la întreaga colecție digitală de peste 1 milion de titluri din catalog. [6] [7]

Proiecte

Wayback Machine

Pictogramă lupă mgx2.svg Wayback Machine .

Wayback Machine este interfața web utilizată de Internet Archive pentru extragerea datelor de pe site-uri web din arhive. Site-urile arhivate reprezintă un fel de „imagini statice” colectate în momentul achiziționării paginilor prin intermediul software-ului de indexare a Internet Archive. Numele „Wayback Machine” provine de la termenul „ WABAC Machine ” folosit într-una dintre poveștile din seria animată Rocky și Bullwinkle . [8] Serviciul, datorită păianjenului Alexa , memorează schimbările și evoluțiile diferitelor site-uri web de-a lungul timpului . Pentru site-urile mai mici nu are cache frecvent, ceea ce înseamnă că paginile sunt stocate doar rar.

Este un serviciu util în următoarele cazuri:

  • studiul evoluției site-urilor web;
  • recuperarea paginilor și site-urilor pierdute;
  • căutați dovezi odată publicate și apoi șterse.

Serviciul permite accesul la versiunile arhivate ale paginilor web din trecut, un fel de „arhivă tridimensională” în cuvintele Arhivei Internet. Milioane de site-uri web cu datele respective (imagini, text, documente conectate etc.) sunt stocate într-o bază de date gigantică. Nu toate site-urile web sunt disponibile datorită alegerii multor proprietari de site-uri pentru a exclude site-urile lor de la indexare. Mai mult, ca și în cazul tuturor site-urilor bazate pe date de la crawlerele web , zone mari de pe web lipsesc din mai multe motive tehnice. Mai multe probleme legale privind arhivarea și acoperirea sau nu a site-urilor au fost întâmpinate în cele din urmă de-a lungul anilor, deși acestea nu sunt rezultatul unor acțiuni deliberate. [9]

Utilizarea termenului „Wayback Machine” în contextul Arhivei Internet a devenit atât de obișnuită încât „Wayback Machine” și „Internet Archive” au devenit aproape sinonime în cultura de masă ; de exemplu, în serialul de televiziune Law & Order: Criminal Intent (în episodul „Legacy”, care a fost difuzat pentru prima dată pe 3 august 2008, intitulat Love virtual în omologul italian), unul dintre protagoniștii episodului folosește „Wayback Machine” pentru a găsi o copie arhivată a unui site web. „Instantaneele” site-urilor arhivate în timpul diferitelor pasaje pe crawler devin accesibile publicului de obicei după 6-18 luni.

Exemple de site-uri web arhivate de Internet Archive și vizualizate prin Wayback Machine:

Internet Archive folosește protocolul Robots Exclusion Standard (prin fișierul robots.txt ) pentru excluderea voluntară a site-urilor din baza sa de date. Internet Archive respectă directivele fișierului robots.txt asigurându-se că roboții săi nu indexează paginile. Din acest motiv, Internet Archive a făcut o serie de site-uri web indisponibile care sunt complet inaccesibile prin intermediul Wayback Machine. În cazul site-urilor blocate, este stocat doar fișierul robots.txt .

Arhiva Internet aplică regulile robots.txt retroactiv: dacă un site blochează păianjenul Internet Archive prin fișierul robots.txt, atunci toate paginile deja arhivate de domeniu devin indisponibile. În plus, același comportament este rezervat tuturor site-urilor care o solicită în mod explicit: din acest motiv, de fiecare dată când proprietarul unui site solicită excluderea acestuia din index, cererea este consimțită [10] , deoarece nu este „Internet” Arhivă [...] interesată de păstrarea sau oferirea accesului la site-uri web sau alte documente de pe internet deținute de oameni care nu doresc materialele lor din colecția noastră. " [11]

De exemplu, adresa https://web.archive.org/*/https://www.ubuntu-it.org , arată copiile căutabile ale paginii

https://www.ubuntu-it.org ,
împărțit în funcție de data salvării pe Internet Archive.

Deschideți Biblioteca

Biblioteca deschisă , ai cărei fondatori includ activistul digital Aaron Swartz [12], este o bibliotecă digitală creată cu scopul de a colecta carduri pentru fiecare carte publicată vreodată și de a le cataloga într-o singură bază de date; un fel de versiune open source a WorldCat , creată spre deosebire de proiectul de digitalizare Google Books [13] (în italiană, Google Books ). Proiectul s-a născut în 2007 și include câteva milioane de carduri de catalog și cărți digitalizate în domeniul public, care sunt complet accesibile și descărcabile. [14] Open Library este un proiect bazat pe software gratuit și open source , codul sursă fiind complet accesibil de pe site-ul de referință. Începând din iunie 2010, Open Library oferă, de asemenea, un serviciu de împrumut de cărți electronice efectuat în colaborare cu distribuitorul de conținut digital SUA OverDrive și bibliotecile din SUA [15] .

Arhiva-It

Dezvoltat în 2006, Archive-Este un serviciu care permite instituțiilor și entităților individuale să construiască și să păstreze colecții de materiale digitale. [16] Prin intermediul unei aplicații web, abonații serviciului pot colecta, cataloga, indexa și, în decurs de 24 de ore, pot accesa în întregime arhiva. Colecțiile sunt găzduite pe servere Internet Archive și sunt accesibile publicului prin căutări cu text integral . Toate materialele digitale sunt păstrate în duplicat (unul primar și unul de rezervă ), sunt indexate periodic în arhiva generală a Arhivei Internet și o copie a datelor poate fi trimisă abonaților la cerere. Începând cu 2009 Archive-Are 125 de instituții partenere în 42 de state americane și 11 țări pentru un total de 1,5 miliarde de adrese URL și 963 de colecții publice. Instituțiile care au subscris la serviciul Arhiva-It sunt în mare măsură universitare și de colegiu biblioteci, arhive de stat, instituții federale, muzee și organizații culturale, inclusiv Organizația Literatura Electronice , Arhivele Statului din Carolina de Nord , The Library and Archives Comisia Texas Stat , Universitatea Stanford , Biblioteca Națională a Australiei , Research Libraries Group (RLG) și mulți alții.

Imagini NASA

Proiectul NASA Images a fost creat grație unui Acord Space Act între Internet Archive și NASA pentru a face arhivele de imagini, videoclipuri și audio produse de agenție de-a lungul anilor accesibile publicului printr-o singură arhivă complet indexată și utilizabilă prin căutări. Site-ul a fost lansat în iulie 2008 și a ajuns să conțină peste 100.000 de fișiere.

Colecții de resurse multimedia

Pe lângă arhivele web, Internet Archive păstrează colecții mari de materiale digitale digitale recunoscute, de către cei care le-au încărcat pe site, în domeniul public din Statele Unite sau distribuite cu o licență care permite redistribuirea gratuită, precum licențele Creative Commons . . Activele sunt clasificate în funcție de tipul de suport (imagini în mișcare, audio, text) și în alte subclasificări în funcție de diverse criterii.

Colecție de filme

Colecția de imagini în mișcare a Arhivei Internet include: jurnale de știri; desene animate clasice; propaganda de război; Arhiva Prelinger , o arhivă specială care conține materiale considerate „efemere”, cum ar fi filme sponsorizate de companii și organizații, filme educaționale și filme de acasă, reclame și alte materiale ale căror drepturi de autor au expirat. Colecțiile de resurse digitale sunt numeroase și variază în funcție de subiect și sursă de recuperare; colecția de cărămizi , de exemplu, conține numeroase filme stop-motion filmate cu cărămizi Lego; o altă colecție se referă la alegerile prezidențiale din 2004 din SUA și campania electorală aferentă. Colecția Independent News include o serie de colecții, inclusiv cea a concursului World At War din 2001 Internet Archive , pentru care concurenții au creat scurtmetraje pentru a demonstra importanța accesului la informații și istorie. Arhiva privind atacul asupra Turnurilor Gemene din 11 septembrie 2001 conține materiale de arhivă produse de principalele rețele mondiale de televiziune ale evenimentului și difuzate în direct în acea zi.

Film

În colecțiile de filme există, de asemenea, versiuni originale ale filmelor celebre, inclusiv:

Colecție audio

Colecția audio include muzică, cărți audio, știri, transmisii radio vechi și o mare varietate de alte fișiere audio. Colecția Live Music Archive include peste 50.000 de înregistrări de concerte de artiști independenți și consacrați și ansambluri muzicale care au reglementări laxe privind înregistrarea concertelor lor, cum ar fi Grateful Dead și Smashing Pumpkins .

Colecție de texte

Internet Archive Book Scanner

Colecția include texte de carte digitalizate din diverse biblioteci din întreaga lume, precum și multe colecții speciale. Internet Archive are 23 de centre de scanare în cinci țări, digitalizând aproximativ 1 000 de cărți pe zi, finanțate de biblioteci și fundații. [17] În noiembrie 2008, când existau aproximativ 1 milion de texte, întreaga colecție ocupa aproximativ 0,5 petabytes , inclusiv imagini brute, fișiere PDF, OCR și date brute. [18]

Între 2006 și 2008 Microsoft Corporation colaborează cu Internet Archive prin proiectul său Live Search Books , scanând peste 300.000 de cărți care au fost adăugate la colecție, precum și echipamente de suport financiar și scanare. La 23 mai 2008, Microsoft a anunțat că va pune capăt proiectului Live Book Search și scanării de cărți noi. [19] Microsoft a pus la dispoziție cărțile scanate fără restricții contractuale și a donat echipamentul de scanare fostului său partener .

În octombrie 2007, utilizatorii Internet Archive au început să încarce cărți din domeniul public din Google Books . [20] Din ianuarie 2010, au fost colectate 900.000 de cărți scanate de Google , reprezentând mai mult de jumătate din totalul cărților disponibile pe archive.org. Cărțile sunt identice cu exemplarele găsite pe Google și sunt disponibile pentru utilizare și descărcare nelimitată, la fel ca toate materialele Arhivei Internet.

Internet Archive este membru al Open Book Alliance , o organizație care a fost printre cele mai critice în ceea ce privește acordul dintre American Publishers Association și Google pentru digitalizarea cărților.

În 2016, de asemenea, în urma scandalului alegerilor prezidențiale , Internet Archive a început o colaborare cu versiuni ale Wikipedia în mai multe limbi, dezvoltând un program pentru înlocuirea automată a legăturilor rupte din șabloanele de citare. În locul acestora, Internet Archive Bot [21] inserează adresa URL a copiei digitale a surselor prezente în Internet Archive, cu o previzualizare de două pagini pentru a contextualiza cotația.[22]

Notă

  1. ^(EN) Arhiva pe Internet Întrebări frecvente Filed 15 aprilie 2013 în Wikiwix.
  2. ^(EN) Internet Archive: Acces universal la toate cunoștințele Depus 13 octombrie 2013 în Internet Archive .
  3. ^(EN) Membri Depuse la 13 iunie 2010 în Internet Archive . (Consorțiul internațional pentru conservarea internetului)
  4. ^(EN) "Internet Archive oficial în bibliotecă" Filed la o septembrie 2016 Wikiwix., 02 mai 2007.
  5. ^(RO) CabinetMagazine.org Filed 19 martie 2013 în Internet Archive .
  6. ^ Palmer Haasch, Internet Archive a lansat o bibliotecă publică digitalizată fără așteptare de peste 1 milion de cărți, care în mod normal sunt disponibile numai pentru școli și biblioteci , pe insider.com .
  7. ^ Anunțarea Bibliotecii Naționale de Urgență , la archive.org . Accesat la 26 martie 2020 ( arhivat la 26 martie 2020) .
  8. ^(RO) Heather Green, O bibliotecă la fel de mare ca lumea: Brewster Kahle are tehnologia pentru a aduna arhiva supremă a cunoștințelor umane. Ce-l oprește? Legile restrictive privind drepturile de autor , Business Week Online, 28 februarie 2002. Accesat la 25 iunie 2007 ( arhivat la 1 iunie 2002) .
  9. ^(EN) Thelwall, M. și Vaughan, L. (2004). O istorie corectă a internetului? Examinarea bilanțului de țară în Internet Archive, Library & Information Science Research , 26 (2), 162-176.
  10. ^(RO) Unele site-uri nu sunt disponibile Din cauza Robots.txt sau a altor excluderi Depuse la 15 aprilie 2011 în Internet Archive ..
  11. ^(RO) Cum pot elimina paginile site-ului meu de pe Wayback Machine? Arhivat la 10 octombrie 2013 la Internet Archive.
  12. ^ Aaron Swartz The Open Library Project , la openlibrary.org . Accesat la 2 mai 2019 ( arhivat la 27 iunie 2015) .
  13. ^(EN) Antone Gonsalves, Reclamațiile privind arhivele pe internet progresează împotriva inițiativei Google Library , InformationWeek, 20 decembrie 2006. Accesat la 5 ianuarie 2007 ( arhivat la 14 octombrie 2007) .
  14. ^ ( RO ) Biblioteca deschisă își face debutul online , Cronica învățământului superior, The Wired Campus, 19 iulie 2007. Accesat la 26 ianuarie 2013 (arhivat din original la 30 septembrie 2007) .
  15. ^ Small Moves: Open Library Integrates Digital Lending , la blog.openlibrary.org . Adus la 26 ianuarie 2013 .
  16. ^(EN) Stefanie Olsen, Preserving the Web un grup la un moment dat , CNet News.com, 1 mai 2006.
  17. ^(EN) Scanarea cărților care urmează să fie finanțate public. Depusă la 24 septembrie 2009 în Internet Archive ., Anunț al Brewster Kahle, 23 mai 2008.
  18. ^(EN) „Bulk Access to OCR for 1 Million Books” Depus la 6 decembrie 2008 în Internet Archive ., Via Open Library Blog, de raj, 24 noiembrie 2008.
  19. ^(RO) „Căutare de cărți înfășurată” Depus la 20 august 2008 în Arhiva Internet ., Blog de căutare live. Anunț oficial de la Microsoft. Ultima accesare la 23 mai 2008.
  20. ^(EN) Google Books at Internet Archive Depus la 3 octombrie 2013 Internet Archive ..
  21. ^ Puteți consulta, de asemenea, discuția IABot albastru care leagă cărțile de arhivă pe Internet din 14 noiembrie 2019, prezentă în versiunea engleză a Wikipedia
  22. ^ Arhiva Internet face Wikipedia mai fiabilă , pe wired.com , 11 martie 2019. Accesat pe 24 noiembrie 2019 ( arhivat pe 24 noiembrie 2019) .

Elemente conexe

Alte proiecte

linkuri externe

Alte proiecte și resurse
Controlul autorității VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 milioane · WorldCat Identities (EN)lccn-n2001062537
Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT