DBpedia

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
DBpedia
software
Siglă
Exemplu de captură de ecran
Tip Web semantic (nu este listat )
Dezvoltator Universitatea Mannheim
Universitatea din Leipzig
Freie Universität Berlin
Software OpenLink
Data primei versiuni 10 ianuarie 2007
Ultima versiune DBpedia 2014 (9 septembrie 2014 [1] )
Sistem de operare
Limba Java
Scară
Licență Licență publică generală GNU
( licență gratuită )
Site-ul web dbpedia.org/

DBpedia este un proiect născut în 2007 cu scopul de a extrage informații structurate din Wikipedia și de a le publica pe web ca Linked Open Data în format RDF .

fundal

Proiectul a fost inițiat de oameni de la Universitatea Liberă din Berlin și Universitatea din Leipzig [2] în colaborare cu OpenLink Software și este acum condus de oameni de la Universitatea din Mannheim și Universitatea din Leipzig [3] . Primul set de date disponibil public a fost publicat în 2007 [2] . Datele sunt puse la dispoziție sub licențe gratuite (CC-BY-SA), permițând altora să refolosească setul de date; cu toate acestea, nu utilizează o licență de date deschise pentru a renunța la drepturile la baza de date sui generis.

Articolele Wikipedia constau în mare parte din text liber, dar includ și informații structurate încorporate în articole, cum ar fi tabelele „infobox” (panourile extrase care apar în partea dreaptă sus a vizualizării implicite a multor articole Wikipedia sau la începutul versiuni mobile), informații de clasificare, imagini, coordonate geografice și linkuri către pagini web externe. Aceste informații structurate sunt extrase și puse într-un set de date uniform care poate fi interogat.

Set de date

Versiunea 2016-04 a setului de date DBpedia descrie 6,0 milioane de entități, dintre care 5,2 milioane sunt clasificate într-o ontologie consecventă, incluzând 1,5 milioane de persoane, 810.000 de locuri, 135.000 de albume muzicale, 106.000 de filme, 20.000 de jocuri video, 275.000 de organizații, 301.000 de specii și 5.000 de boli [4] . DBpedia folosește Resource Description Framework (RDF) pentru a reprezenta informațiile extrase și este format din 9,5 miliarde de RDF-uri triple, din care 1,3 miliarde au fost extrase din ediția engleză a Wikipedia și 5,0 miliarde din edițiile în alte limbi [4] .

Una dintre provocările în extragerea informațiilor din Wikipedia este că aceleași concepte pot fi exprimate folosind parametri diferiți în infobox-uri și alte modele, cum ar fi |birthplace= și |placeofbirth= |birthplace= |placeofbirth= . Din acest motiv, întrebările despre locul în care s-au născut oamenii ar trebui să caute ambele proprietăți pentru a obține rezultate mai cuprinzătoare. În consecință, limbajul de mapare DBpedia a fost dezvoltat pentru a ajuta la maparea acestor proprietăți la o ontologie prin reducerea numărului de sinonime. Datorită marii diversități de informații și a proprietăților utilizate pe Wikipedia, procesul de dezvoltare și îmbunătățire a acestor mapări a fost deschis contribuțiilor publice.

Versiunea din 2014 a fost lansată în septembrie 2014. O schimbare majoră față de versiunile anterioare a fost modul în care au fost extrase textele abstracte. În special, rularea unei oglinzi Wikipedia locale și recuperarea abstractelor redate din aceasta au făcut ca textele extrase să fie mai curate. În plus, a fost introdus un nou set de date extras din Wikimedia Commons .

Exemple

DBpedia extrage informații factuale din paginile Wikipedia, permițând utilizatorilor să găsească răspunsuri la întrebări în care informațiile sunt răspândite în mai multe articole Wikipedia. Datele sunt accesate utilizând un limbaj de interogare de tip SQL pentru RDF numit SPARQL. De exemplu, imaginați-vă că sunteți interesat de seria japoneză de manga shōjo Tokyo Mew Mew și doriți să găsiți genurile altor lucrări scrise de ilustratorul său. DBpedia combină informații din intrările Wikipedia de pe Tokyo Mew Mew , Mia Ikumi și despre lucrări precum Super Doll Licca-chan și Koi Cupid . Deoarece DBpedia normalizează informațiile dintr-o singură bază de date, următoarea interogare poate fi solicitată fără a fi nevoie să știți exact ce intrare conține fiecare informație și va enumera genurile conexe:

 PREFIX dbprop : <http://dbpedia.org/ontology/>
PREFIX db : <http://dbpedia.org/resource/>
ALEGE? Cine,? MUNCĂ ,? Gen WHERE {
 db : Tokyo_Mew_Mew dbprop : autor ? cine .
 ? WORK dbprop : autor ? Cine .
 OPȚIONAL { ? WORK dbprop : genre ? Genre } .
}

Utilizați cazuri

DBpedia are o gamă largă de entități care acoperă diferite domenii ale cunoașterii umane [5] . Acest lucru îl face un hub natural pentru conectarea seturilor de date, unde seturile de date externe s-ar putea conecta la conceptele sale. Setul de date DBpedia este interconectat la nivelul RDF cu diferite alte seturi de date Open Data de pe web. Acest lucru permite aplicațiilor să îmbogățească datele DBpedia cu date din aceste seturi de date. Începând cu septembrie 2013, există mai mult de 45 de milioane de legături între DBpedia și seturile de date externe, inclusiv:

  • Freebase
  • OpenCyc
  • UMBEL
  • GeoNames
  • MusicBrainz
  • CIA World Fact Book
  • DBLP
  • Proiectul Gutenberg
  • DBtune Jamendo
  • Eurostat
  • UniProt
  • Date despre recensământul Bio2RDF și SUA

Inițiativa Thomson Reuters OpenCalais, proiectul Open Data Linked New York Times , Zemanta API și DBpedia Spotlight includ, de asemenea, linkuri către DBpedia. BBC folosește DBpedia pentru a ajuta la organizarea conținutului său. Faviki folosește DBpedia pentru codare semantică. Samsung include, de asemenea, DBpedia în „Platforma de partajare a cunoștințelor”.

O sursă atât de bogată de cunoaștere structurată între domenii este un teren propice pentru sistemele de inteligență artificială. DBpedia a fost folosit ca una dintre sursele de cunoaștere în IBM Watson's Jeopardy! [6]

Amazon oferă un set de date publice DBpedia care poate fi integrat în aplicațiile Amazon Web Services.

Datele despre creatorii DBpedia pot fi folosite pentru a îmbogăți observațiile de vânzare ale operelor de artă.

Compania de software Crowdsourcing, Ushahidi, a construit un prototip al software-ului său care a folosit DBpedia pentru a rula adnotări semantice pe rapoarte generate de cetățeni. Prototipul a încorporat serviciul "YODIE" [7] (încă un alt sistem Open Data Information Extraction) dezvoltat de Universitatea din Sheffield, care folosește DBpedia pentru a efectua adnotări. Scopul pentru Ushahidi a fost de a îmbunătăți viteza și ușurința cu care relațiile primite ar putea fi gestionate [8] .

Spotlight DBpedia

DBpedia Spotlight este un instrument pentru adnotarea citărilor resurselor DBpedia în text. Acest lucru vă permite să conectați surse de informații nestructurate la cloudul de date deschise conectate prin DBpedia. DBpedia Spotlight efectuează extracția entității denumite, inclusiv detectarea entității și rezoluția numelui (cu alte cuvinte, dezambiguizare). Poate fi, de asemenea, utilizat pentru recunoașterea entităților denumite și alte activități de extragere a informațiilor. DBpedia Spotlight își propune să fie personalizabil pentru multe cazuri de utilizare. În loc să se concentreze pe câteva tipuri de entități, proiectul se străduiește să sprijine adnotarea tuturor 3,5 milioane de entități și concepte din mai mult de 320 de clase din DBpedia. Proiectul a început în iunie 2010 la Web Based Systems Group de la Universitatea Liberă din Berlin.

DBpedia Spotlight este disponibil public ca serviciu web pentru testare și ca API Java / Scala licențiat sub licența Apache. Distribuția Spotlight a DBpedia include un plugin jQuery care permite dezvoltatorilor să adune pagini oriunde pe web adăugând un rând la pagina lor. Clienții sunt disponibili și în Java sau PHP [9] . Instrumentul gestionează diferite limbi prin pagina sa demonstrativă [10] și serviciile web. Internaționalizarea este acceptată pentru orice limbă care are o ediție a Wikipedia [11] .

Istorie

DBpedia a fost început în 2007 de [2] :

  • Sören Auer
  • Christian Bizer
  • Georgi Kobilarov
  • Jens Lehmann
  • Richard Cyganiak
  • Zachary Ives

Notă

  1. ^ DBpedia 2014 lansat , la blog.dbpedia.org .
  2. ^ a b c DBpedia: un nucleu pentru o rețea de date deschise , disponibil la [1] ,[2] sau [3]
  3. ^ https://wiki.dbpedia.org/about/dbpedia-community
  4. ^ a b DA! Am făcut-o din nou;) - Noua versiune DBpedia 2016-04 , pe blog.dbpedia.org , DBpedia , 19 octombrie 2016. Adus pe 9 ianuarie 2019 .
  5. ^ E. Curry, A. Freitas și S. O'Riain, „Rolul curățării datelor bazate pe comunitate pentru întreprinderi”, depus la 23 ianuarie 2012 în Internet Archive . în Linking Enterprise Data, D. Wood, Ed. Boston, MA: Springer SUA, 2010, pp. 25-47.
  6. ^ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer și Chris Welty "Building Watson: An Overview of Proiectul DeepQA. " În Revista AI toamna anului 2010. Asociația pentru avansarea inteligenței artificiale (AAAI).
  7. ^ GATE.ac.uk - applications / yodie.html , pe gate.ac.uk. Adus la 11 mai 2020 .
  8. ^ (EN) Ushahidi / platform-camarazi , pe GitHub. Adus pe 9 martie 2020 .
  9. ^ Rob DiCiuccio, client PHP pentru DBpedia Spotlight , pe GitHub , 25 septembrie 2016.
  10. ^ Demo-ul DBpedia Spotlight , la dbpedia-spotlight.github.io . Adus la 8 septembrie 2013 .
  11. ^ Internaționalizarea DBpedia Spotlight , la github.com . Adus la 8 septembrie 2013 .

Elemente conexe

Alte proiecte

linkuri externe

Internet Portal internet : accesați intrările Wikipedia care se ocupă de internet