Arhiva Internet
Arhiva Internet | |
---|---|
Tip | organizatie non-guvernamentala |
fundație | 1996 |
Sediul central | San Francisco |
Zona de acțiune | Conservarea digitală |
Președinte | Brewster Kahle |
Motto | acces universal la toate cunoștințele |
Site-ul web | |
Arhiva Internet site-ul web | |
---|---|
URL | archive.org/ |
Tipul site-ului | Biblioteca digitală |
Limbă | Engleză |
Înregistrare | opțional |
Profit | Nu |
Creat de | Brewster Kahle |
Lansa | Mai 1996 |
Starea curenta | activ |
Slogan | acces universal la toate cunoștințele |
Internet Archive este o bibliotecă digitală nonprofit care are scopul expres de a permite un „acces universal la cunoaștere” [1] [2] . Oferă un spațiu digital permanent pentru acces la diferite tipuri de resurse: de exemplu, site-uri web, audio, imagini în mișcare (videoclipuri) și cărți. Internet Archive a fost fondat de Brewster Kahle în 1996 și face parte din IIPC ( International Internet Preservation Consortium ). [3] Pe lângă funcția sa principală de stocare, Internet Archive este o organizație care face campanii pentru internet gratuit și deschis și este o organizație non-profit recunoscută oficial în Statele Unite .
Birourile administrative au sediul în San Francisco, în timp ce centrele de date sunt situate în San Francisco, Redwood City și Mountain View din California . Cea mai masivă colecție digitală a bibliotecii este arhiva web, un fel de colecție de „imagini statice” de pe World Wide Web catalogate după data achiziției. Pentru a asigura stabilitatea și securitatea datelor stocate, întreaga colecție are o oglindă în serverul Bibliotheca Alexandrina din Alexandria, Egipt . Arhiva permite publicului să încarce și să descarce material digital către și de pe serverele sale fără costuri.
De asemenea, permite accesul la unul dintre cele mai mari proiecte de arhivare digitală a cărților existente, face parte din „ American Library Association” și este recunoscut oficial de statul California ca bibliotecă publică. [4] Compania are 200 de angajați, dintre care mulți sunt implicați în scanarea volumelor de hârtie la centre specializate. Biroul principal din San Francisco are treizeci de angajați. Internet Archive are un buget anual de aproximativ 10 milioane de dolari, care provine mai ales dintr-o varietate de surse: profiturile serviciilor legate de accesarea cu crawlere web , colaborări, granturi, donații și Fundația Kahle-Austin. [5]
Conform site-ului Internet Archive, "multe societăți acordă importanță conservării artefactelor legate de moștenirea lor culturală. Fără aceste artefacte civilizația nu are memorie și nu are cum să învețe din succesele și eșecurile sale. Cultura noastră produce acum întotdeauna. Mai multe produse în formă digitală. Misiunea Internet Archive este de a ajuta la conservarea acestor artefacte și a crea o bibliotecă digitală pe internet pentru cercetători, istorici și cărturari. "
Istorie
Brewster Kahle a fondat Internet Archive în 1996, aceeași perioadă în care a fondat compania Alexa Internet , o companie care se ocupă cu serviciul de accesare cu crawlere pe web . Internet Archive a început să stocheze World Wide Web în 1996, dar colecția nu a fost disponibilă decât în 2001 , când a fost dezvoltată Wayback Machine. În 1999, Arhiva Internet este extinsă prin adăugarea mai multor colecții, inclusiv Arhiva Prelinger . Arhiva Internet include în prezent, printre altele, text, audio, imagini în mișcare și software. Acesta găzduiește o serie de alte proiecte, inclusiv o arhivă de imagini ale NASA , Indexing Service Archive-It și Open Library , un catalog de volume editat de software similar cu un wiki.
La 25 martie 2020, ca urmare a pandemiei COVID-19 , Arhiva Internet a lansat Biblioteca Națională de Urgență, o inițiativă care permite accesul gratuit cu text integral la întreaga colecție digitală de peste 1 milion de titluri din catalog. [6] [7]
Proiecte
Wayback Machine
Wayback Machine este interfața web utilizată de Internet Archive pentru extragerea datelor de pe site-uri web din arhive. Site-urile arhivate reprezintă un fel de „imagini statice” colectate în momentul achiziționării paginilor prin intermediul software-ului de indexare a Internet Archive. Numele „Wayback Machine” provine de la termenul „WABAC Machine” folosit într-una dintre poveștile din seria de animație Rocky și Bullwinkle . [8] Serviciul, datorită păianjenilor Alexa , stochează în timp schimbările și tendințele diferitelor site-uri web . Pentru site-urile mai mici nu are un cache comun sau paginile sunt stocate rar.
Este un serviciu util în următoarele cazuri:
- studiul evoluției site-urilor web;
- recuperarea paginilor și site-urilor pierdute;
- căutați dovezi odată publicate și apoi șterse.
Serviciul permite accesul la versiunile arhivate ale paginilor web din trecut, un fel de „arhivă tridimensională” în cuvintele Arhivei Internet. Milioane de site-uri web cu datele lor (imagini, text, documente conexe etc.) sunt stocate într-o bază de date gigantică . Nu toate site-urile web sunt disponibile datorită alegerii multor proprietari de site-uri pentru a exclude site-urile lor de la indexare. Ca și în cazul tuturor site-urilor bazate pe date de la crawlerele web, lipsesc , de asemenea , zone mari ale web-ului din mai multe motive tehnice. Mai multe probleme legale privind arhivarea și acoperirea sau nu a site-urilor au fost întâmpinate în cele din urmă de-a lungul anilor, deși acestea nu sunt rezultatul unor acțiuni deliberate. [9]
Utilizarea termenului „Wayback Machine” în contextul Arhivei Internet a devenit atât de obișnuită încât „Wayback Machine” și „Internet Archive” au devenit aproape sinonime în cultura populară ; de exemplu, în serialul de televiziune Law & Order: Criminal Intent (în episodul „Legacy”, care a fost difuzat pentru prima dată pe 3 august 2008, intitulat Love virtual în omologul italian), unul dintre protagoniștii episodului folosește „Wayback Machine” pentru a găsi o copie arhivată a unui site web. „Instantaneul” site-urilor arhivate în timpul diferiților pași ai crawlerului devine accesibil publicului, de obicei, după 6-18 luni.
Exemple de site-uri web arhivate de Internet Archive și vizualizate prin Wayback Machine:
- Internet Archive ( fișier recursiv )
- Wikipedia , pe web.archive.org.
- Google , pe web.archive.org.
Internet Archive folosește protocolul Robots Exclusion Standard (prin fișierul robots.txt ) pentru excluderea voluntară a site-urilor din baza sa de date. Internet Archive respectă directivele fișierului robots.txt asigurându-se că roboții săi nu indexează paginile. Din acest motiv, Internet Archive a făcut o serie de site-uri web indisponibile care sunt complet inaccesibile prin intermediul Wayback Machine. În cazul site-urilor blocate, acesta stochează fișierul numai robots.txt .
Arhiva Internet aplică regulile robots.txt retroactiv dacă un site blochează păianjenul Internet Archive prin fișierul robots.txt, atunci toate paginile deja stocate de domeniu devin indisponibile. În plus, același comportament este rezervat tuturor site-urilor care o solicită în mod explicit: din acest motiv, de fiecare dată când proprietarul unui site solicită excluderea acestuia din index, cererea este consimțită [10] , deoarece nu este „Internet” Arhivă [...] interesată de păstrarea sau oferirea accesului la site-uri web sau alte documente de pe internet deținute de oameni care nu doresc materialele lor din colecția noastră. " [11]
De exemplu, adresa https://web.archive.org/*/https://www.ubuntu-it.org , afișează paginile copii ale paginii
- https://www.ubuntu-it.org,
- împărțit în funcție de data salvării pe Internet Archive.
Deschideți Biblioteca
Biblioteca deschisă , printre fondatorii căreia se numără și activistul digital Aaron Swartz [12] este o bibliotecă digitală creată cu scopul de a colecta carduri pentru fiecare carte publicată vreodată și de a le introduce într-o singură bază de date; un fel de versiune open source a WorldCat , născută în opoziție cu proiectul de digitalizare Google Books [13] (în italiană, Google Books ). Proiectul s-a născut în 2007 și include câteva milioane de carduri de catalog și cărți digitalizate în domeniul public, care sunt complet accesibile și descărcabile. [14] Open Library este un proiect care se bazează pe software gratuit și open source , codul sursă fiind complet accesibil de pe site-ul de referință. Din iunie 2010, Open Library oferă și o carte electronică pentru servicii de împrumut realizată în colaborare cu distribuitorul de conținut digital SUA OverDrive și bibliotecile americane [15] .
Arhiva-It
Dezvoltat în 2006, Archive-Este un serviciu care permite instituțiilor și entităților individuale să construiască și să păstreze colecții de materiale digitale. [16] Prin intermediul unei aplicații web, abonații serviciilor pot colecta, cataloga, indexa și, pe parcursul a 24 de ore, acces complet la arhivă. Colecțiile sunt găzduite pe servere și arhiva Internet accesibilă publicului prin căutări full-text . Tot materialul digital este stocat în două exemplare (unul primar și unul de rezervă), este indexat în mod regulat în Arhiva Internet generală și o copie a datelor poate fi trimisă abonaților la cerere. La 2009 Archive-It are 125 de instituții partenere în 42 de state americane și în 11 țări pentru un total de 1,5 miliarde de adrese URL și 963 de colecții publice. Instituțiile care au semnat serviciul Arhivă-It sunt în mare parte biblioteci academice și colegii, arhive de stat, instituții federale, muzee și organizații culturale, inclusiv Organizația pentru Literatură Electronică , Arhivele Statului Carolina de Nord , Biblioteca de Stat din Texas și Comisia pentru Arhive. , Universitatea Stanford , Biblioteca Națională a Australiei , Research Libraries Group (RLG) și mulți alții.
Imagini NASA
Proiectul NASA Images a fost creat grație unui Acord Space Act între Internet Archive și NASA pentru a face arhivele de imagini, videoclipuri și audio produse de agenție de-a lungul anilor accesibile publicului printr-o singură arhivă complet indexată și accesibilă prin căutări. Site-ul a fost lansat în iulie 2008 și a ajuns să conțină peste 100.000 de fișiere.
Colecții de resurse multimedia
Pe lângă arhivele web, Internet Archive păstrează colecții mari de materiale digitale digitale recunoscute, de către cei care le-au încărcat pe site, în domeniul public din Statele Unite sau distribuite cu o licență care permite redistribuirea gratuită, precum licențele Creative Commons . . Activele sunt clasificate în funcție de tipul de suport (imagini în mișcare, audio, text) și în alte subclasificări în funcție de diverse criterii.
Colecție de filme
Colecția de imagini în mișcare ( Colecția de imagini în mișcare) Internet Archive include: newsreels; desene animate clasice; propaganda de război; Arhiva Prelinger , o arhivă specială care conține materiale considerate „efemere” ca un film sponsorizat de companii și organizații, filme educaționale și filme de acasă, reclame și alte materiale ale căror drepturi de autor au expirat. Colecțiile de resurse digitale sunt numeroase și variază în funcție de subiect și sursă de recuperare; colecția brickfilm , de exemplu, conține o serie de filme realizate în stop-motion cu cărămizi Lego; o altă colecție se referă la alegerile prezidențiale din 2004 din SUA și campania electorală aferentă. Colecția Independent News include o serie de colecții, inclusiv cea a concursului din 2001 , Arhiva Internetului World At War, pentru care concurenții au creat scurtmetraje pentru a demonstra importanța accesului la informații și istorie. Arhivele privind atacul asupra Turnurilor Gemene din 11 septembrie 2001 conțin materiale de arhivă produse de rețelele de televiziune importante , iar evenimentul a fost transmis în direct în acea zi.
Film
În colecțiile de filme există și versiuni originale ale filmelor celebre, inclusiv:
- Clubul celor 39
- Cuirasatul Potemkin
- Nașterea unei națiuni
- Crin rupt
- Secolul Sinelui
- Şaradă
- Revolta Columbia
- Încă două ore
- În strângerea șinelor
- Cabinetul doctorului Caligari
- Întâlnirile fac și nu
- Ocol
- Duck and Cover
- Evadează din Sobibor
- Elisabeta Angliei
- Cum am câștigat războiul
- Rapacitate
- Cânepă pentru victorie
- Intoleranţă
- Brat
- Călătorie pe Lună
- Lips Lips [ neclar ]
- M - Monstrul din Düsseldorf
- Omul care știa prea multe
- Manos: Mâinile Soartei
- Consimțământul de fabricație: Noam Chomsky și mass-media
- Noaptea mortilor vii
- Nosferatu (nu este în domeniul public în afara Statelor Unite)
- Planul 9 din spațiul cosmic
- Puterea coșmarurilor (non-public)
- Tie shan gong zhu
- Reefer Madness
- Sex Madness
- Lady Lou
- Triumful voinței
- Toate cele șapte episoade din Why We Fight
Colecție audio
Colecția audio include muzică, cărți audio, știri, transmisii radio vechi și o mare varietate de alte fișiere audio. Colecția Live Music Archive include peste 50.000 de înregistrări de concerte de la artiști independenți și artiști consacrați și ansambluri muzicale care adoptă reguli laxe privind înregistrarea concertelor lor, precum Grateful Dead și Smashing Pumpkins .
Colecție de texte
Colecția include texte de carte digitalizate din diverse biblioteci din întreaga lume, precum și multe colecții speciale. Internet Archive are 23 de centre de scanare în cinci țări, digitalizând aproximativ 1 000 de cărți pe zi, finanțate de biblioteci și fundații. [17] În noiembrie 2008, când existau aproximativ 1 milion de texte, întreaga colecție a luat aproximativ 0,5 petabytes , inclusiv imagini brute, fișiere PDF, OCR și date brute. [18]
Între 2006 și 2008 Microsoft Corporation colaborează cu Internet Archive prin proiectul său Live Search Books , scanând peste 300.000 de cărți care au fost adăugate la colecție, precum și echipamente de suport financiar și scanare. La 23 mai 2008, Microsoft a anunțat că va pune capăt proiectului Live Book Search și scanării de cărți noi. [19] Microsoft a pus la dispoziție cărți digitalizate fără restricții contractuale și a donat echipamentul său de scanare fostului său partener.
În octombrie 2007, utilizatorii Arhivei Internet au început să încarce cărți din domeniul public din Google Books . [20] Din ianuarie 2010 au fost colectate 900.000 de cărți scanate de Google , care reprezintă peste jumătate din totalul cărților disponibile pe archive.org. Cărțile sunt identice cu exemplarele găsite pe Google și sunt disponibile pentru utilizare și descărcare nelimitată , la fel ca toate materialele Arhivei Internet.
Internet Archive este membru al Open Book Alliance , o organizație care a fost printre cele mai critice în ceea ce privește acordul dintre Asociația Editorilor Americani și Google privind digitalizarea cărților.
În 2016, de asemenea, în urma scandalului alegerilor prezidențiale , Internet Archive a început o colaborare cu versiunile Wikipedia în mai multe limbi, pregătind un program pentru înlocuirea automată a legăturilor rupte din șablonul Citation. În locul acestora, Internet Archive Bot [21] introduce „ URL - ul copiei digitale a acestei surse în Internet Archive, cu o previzualizare a două pagini pentru a contextualiza citatul.[22]
Notă
- ^(EN) Arhiva pe Internet Întrebări frecvente Filed 15 aprilie 2013 în Wikiwix.
- ^(EN) Internet Archive: Acces universal la toate cunoștințele Depus 13 octombrie 2013 în Internet Archive .
- ^(EN) Membri Depuse la 13 iunie 2010 în Internet Archive . (Consorțiul internațional pentru conservarea internetului)
- ^(EN) "Internet Archive oficial în bibliotecă" Filed la o septembrie 2016 Wikiwix., 02 mai 2007.
- ^(RO) CabinetMagazine.org Filed 19 martie 2013 în Internet Archive .
- ^ Palmer Haasch, The Internet Archive a lansat o bibliotecă publică digitalizată fără așteptare de peste 1 milion de cărți care sunt disponibile în mod normal doar pentru școli și biblioteci , pe insider.com.
- ^ Anunțarea Bibliotecii Naționale de Urgență pe archive.org. Adus la 26 martie 2020 ( depus la 26 martie 2020).
- ^(RO) Heather Green, O bibliotecă la fel de mare ca lumea: Brewster Kahle are tehnologia pentru a aduna arhiva supremă a cunoștințelor umane. Ce-l oprește? Legile restrictive privind drepturile de autor , Business Week Online, 28 februarie 2002. Accesat la 25 iunie 2007 ( depus la 1 iunie 2002).
- ^(EN) Thelwall, M. și Vaughan, L. (2004). O istorie corectă a internetului? Examinarea bilanțului de țară în Internet Archive, Library & Information Science Research, 26 (2), 162-176.
- ^(RO) Unele site-uri nu sunt disponibile Din cauza Robots.txt sau a altor excluderi Depuse la 15 aprilie 2011 în Internet Archive ..
- ^(RO) Cum pot elimina paginile site-ului meu de pe Wayback Machine? Depus la 10 octombrie 2013 Internet Archive ..
- ^ Aaron Swartz Proiectul Open Library pe openlibrary.org. Adus pe 2 mai 2019 ( depus la 27 iunie 2015).
- ^(EN) Antone Gonsalves, Reclamațiile privind arhivele pe Internet progresează împotriva inițiativei Bibliotecii Google , InformationWeek, 20 decembrie 2006. Adus la 5 ianuarie 2007 ( depus la 14 octombrie 2007).
- ^(EN) Biblioteca deschisă își face debutul online , Cronica învățământului superior, The Wired Campus, 19 iulie 2007. Accesat la 26 ianuarie 2013 (depus de „Original url 30 septembrie 2007).
- ^ Small Moves: Open Integrates Digital Library Lending , pe blog.openlibrary.org. Adus la 26 ianuarie 2013.
- ^(EN) Stefanie Olsen, Preserving the Web un grup la un moment dat , CNet News.com, 1 mai 2006.
- ^(EN) Scanarea cărților care urmează să fie finanțate public. Depusă la 24 septembrie 2009 în Internet Archive ., Anunț al Brewster Kahle, 23 mai 2008.
- ^(EN) „Bulk Access to OCR for 1 Million Books” Depus la 6 decembrie 2008 în Internet Archive ., Via Open Library Blog, de raj, 24 noiembrie 2008.
- ^(RO) „Căutare de cărți înfășurată” Depus la 20 august 2008 în Arhiva Internet ., Blog de căutare live. Anunț oficial de la Microsoft. Ultima accesare la 23 mai 2008.
- ^(EN) Google Books at Internet Archive Depus la 3 octombrie 2013 Internet Archive ..
- ^ Puteți consulta, de asemenea, discuția IABot albastru care leagă cărțile de arhivă pe Internet din 14 noiembrie 2019, prezentă în versiunea engleză a Wikipedia
- ^ Arhiva Internet Wikipedia face mai fiabile , pe wired.com, 11 martie 2019. Accesat pe 24 noiembrie 2019 ( depus pe 24 noiembrie 2019).
Elemente conexe
- Proiectul Gutenberg
- Arhivare web
- Conservarea digitală
- PANDORA
- WebCite
- Crawler web
- Web 3.0
- HathiTrust
Alte proiecte
- Wikimedia Commons conține imagini sau alte fișiere pe Internet Archive
linkuri externe
- (RO) Site oficial pe archive.org.
- (RO) Blog oficial pe blog.archive.org.
- Internet Archive (canal) pe YouTube .
- (EN) Internet Archive , pe GitHub .
- Brewster Kahle, Archiving the Internet , în Scientific American , martie 1997 (depus de „Original url la 11 octombrie 1997).
- Leonard Berbers, Arca memoriei , în Corriere della Sera (depus de 'Original url 22 iulie 2014).
- (EN) Ghid pentru resursele Arhivei Internet , pe WikiHow .
- Alte proiecte și resurse
- (EN)pagini web ale serviciului de captare și stocare pe archive.is.
- (EN) Serviciu avansat de depunere și recuperare a publicațiilor științifice , pe datacite.org.
- (EN) al Harvard Library Service Innovation Lab pe perma.cc.
- (EN) Serviciu de stocare a materialelor științifice și educaționale pe webcitation.org.
- (EN) SUA NDIIPP și negocierea conținutului , pe mementoweb.org. (serviciu de căutare avansată)
- (RO) 11 cele mai bune alternative Wayback Machine în 2017 pentru a verifica istoricul site-urilor web , pe pingzic.net. Adus la 13 mai 2018 (depus de „url original 13 mai 2018).
Controlul autorității | VIAF (EN) 123 343 900 · LCCN (EN) n2001062537 · GND (DE) 1222513323 · BNF (FR) cb170635025 (data) · NLA (EN) 54.3568 milioane · WorldCat Identities (EN)lccn-n2001062537 |
---|