Date deschise legate lingvistic

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În contextul procesării limbajului natural , în lingvistică și în domeniile de cercetare conexe, Linguistic Linked Open Data (LLOD) descrie atât o metodă, cât și o comunitate multidisciplinară care se ocupă cu crearea, partajarea și (re) utilizarea resurselor lingvistice dezvoltate în conformitate cu principiile datelor conexe. . Cloudul de date deschise legate lingvistic , dezvoltat și susținut de Open Linguistics Working Group (OWLG) al Fundației Open Knowledge (în italiană Foundation for open knowledge), a fost punctul central al activităților diferitelor grupuri încă de la înființare. la W3C , proiecte de cercetare și dezvoltarea infrastructurii.

Definiție și dezvoltare

Cloud LLOD 2020

Expresia Data deschisă legată lingvistic indică publicarea datelor lingvistice și pentru prelucrarea limbajului natural în conformitate cu următoarele principii: [1]

  • datele trebuie să fie licențiate în mod liber, utilizând licențe precum licențele Creative Commons .
  • elementele unui set de date trebuie identificate în mod unic printr-un URI .
  • URI-ul ar trebui să poată fi rezolvat, astfel încât utilizatorii să poată accesa mai multe informații printr-un browser web.
  • Rezolvarea unei resurse LLOD ar trebui să returneze rezultate folosind Resource Description Framework (RDF).
  • Trebuie incluse linkuri către alte resurse pentru a ajuta utilizatorii să descopere resurse noi și să ofere informații semantice.

Principalele beneficii care decurg din aplicarea principiilor LLOD au fost identificate prin: [2]

  • Reprezentare: graficele conectate sunt un format reprezentativ mai flexibil pentru datele lingvistice.
  • Interoperabilitate: Modelele RDF comune și partajate sunt ușor integrate.
  • Federație: datele din diferite surse pot fi ușor combinate.
  • Ecosistem: disponibilitatea RDF și a instrumentelor și mediilor de procesare a datelor conectate, eliberate sub licență open source.
  • Expresivitate: Diversele vocabulare existente pentru reprezentarea datelor asigură o expresivitate mai mare a resurselor lingvistice.
  • Semantică: legăturile obișnuite exprimă sensul.
  • Dinamic: datele web pot fi îmbunătățite continuu.

Reprezentarea norului LLOD poate fi vizualizată pe linguistic-lod.org [3] .

Vocabulare LLOD

Pe lângă colectarea metadatelor și generarea diagramei cloud LLOD, comunitatea LLOD conduce dezvoltarea standardelor comunității în ceea ce privește crearea de recomandări pentru vocabulare, metadate și cele mai bune practici.

Conform prezentării generale a stadiului tehnicii propusă de Cimiano și colab. (2020), [4] aceste recomandări includ:

  • pentru modelarea resurselor lexicale
    • OntoLex-Lemon , standard comunitar pentru resurse lexicale (dicționare în format lizibil automat, terminologii multilingve, lexicalizarea ontologiilor) [5]
  • pentru modelarea adnotărilor lingvistice (în corpuri sau prelucrarea limbajului natural)
    • Adnotare Web , un standard W3C pentru adnotarea resurselor Web (textuale și altele) [6]
    • NLP Interchange Format (NIF), un standard comunitar pentru adnotarea gramaticală a textelor [7]
    • CoNLL-RDF, un vocabular bazat pe NIF pentru reprezentarea RDF a corpurilor în format TSV ("CoNLL") [8]
    • POWLA, un vocabular pentru structuri de date lingvistice generale care poate integra NIF, CoNLL-RDF sau Web Adnotation [9]
  • pentru categoriile de date lingvistice
  • pentru identificarea limbajului
  • pentru metadate
    • Dublin Core , un standard comunitar de termeni care poate fi folosit pentru a descrie resursele web
    • Data Catalog Vocabulary (DCAT), un standard W3C pentru cataloage de date publicate pe web [13]
    • METASHARE-OWL, vocabular pentru metadatele resurselor lingvistice [14]

Începând cu mijlocul anului 2020, multe dintre aceste standarde comunitare au devenit obiectul diferitelor activități. În special, existența mai multor standarde pentru adnotările lingvistice care sunt incompatibile între ele pare problematică. La începutul anului 2020, W3C Community Group Linked Data for Language Technology a început să consolideze și să standardizeze aceste (și alte) vocabulare pentru adnotarea lingvistică pe web. [15]

Comunitate

Diagrama cloud LLOD este editată de Open Linguistics Working Group (OWLG) al Open Knowledge Foundation (din 2014 Open Knowledge, în Fundația italiană pentru cunoștințe deschise), un grup deschis și interdisciplinar de experți în resurse lingvistice.

Comunitatea OWLG organizează evenimente și coordonează dezvoltarea LLOD-urilor, facilitând comunicarea interdisciplinară între cei care contribuie la LLOD-uri și între aceștia și utilizatori. Mai multe grupuri de afaceri și comunități W3C se concentrează pe aspecte specializate ale LLOD-urilor:

  • W3C Ontology-Lexica Community Group ( OntoLex ) dezvoltă și menține specificații pentru dicționarele care pot fi citite automat în cloud LLOD.
  • Cele mai bune practici W3C pentru grupul comunitar de date deschise legate multilingv colectează informații despre cele mai bune practici pentru a produce date deschise legate multilingv. [16]
  • Grupul comunitar W3C Linked Data for Language Technology colectează cazuri de utilizare și cerințe pentru aplicațiile legate de tehnologiile lingvistice care utilizează datele legate. [17]

Dezvoltarea LLOD-urilor este realizată și documentată într-o serie de ateliere internaționale, datonii și publicații conexe. Printre altele, sunt incluse următoarele:

  • Linked Data in Linguistics (LDL), atelier științific anual, a început în 2012
  • Date deschise multilingve pentru întreprinderi (MLODE), întâlnire comunitară bienală (2012 și 2014)
  • Datathon de vară privind datele deschise legate de lingvistică (SD-LLOD), datathon bienal, din 2015

Utilizarea LLOD-urilor

Datele deschise legate prin lingvistică au fost aplicate în diferite domenii ale cercetării științifice: în toate domeniile lingvisticii empirice, filologia de calcul și prelucrarea limbajului natural , adnotarea lingvistică și utilizarea marcajului lingvistic reprezintă un element central al analizei. Cu toate acestea, progresul în acest domeniu a fost împiedicat de problema interoperabilității , în principal din cauza diferențelor în vocabularele și schemele de adnotări utilizate pentru diferite resurse și instrumente. Utilizarea datelor legate pentru conectarea resurselor lingvistice și a bazelor de date ontologice / terminologice facilitează reutilizarea vocabularelor partajate și interpretarea acestora în raport cu o bază comună.

  • În lingvistica corpusului și filologia de calcul, suprapunerea de marcare este o problemă recunoscută pentru formatele XML . Din acest motiv, au fost propuse modele de date bazate pe grafice de la sfârșitul anilor '90. [18] . Astfel de modele sunt reprezentate în mod tradițional prin mai multe fișiere XML interconectate (standoff XML), [19] care nu sunt susținute în mod adecvat de tehnologia XML standard. [20] Modelarea unor adnotări complexe precum Linked Data reprezintă un formalism semantic echivalent cu utilizarea XML (standoff XML), [21] care elimină necesitatea unei tehnologii cu scop special și, în schimb, se bazează pe ecosistemul RDF existent.
  • Probleme legate de multilingvism, inclusiv legarea resurselor lexicale ca în cazul WordNet în indexul interlingv al Asociației Globale WordNet și interconectarea resurselor eterogene, cum ar fi WordNet și Wikipedia, așa cum sa făcut în BabelNet .
  • Promovarea dezbaterii privind standardizarea informațiilor referitoare la resursele lingvistice.

Datele deschise legate lingvistic sunt strâns legate de dezvoltarea:

  • cele mai bune practici pentru conectarea datelor lingvistice pe web (cu referire la datele publicate conform standardelor OntoLex )
  • cele mai bune practici pentru crearea adnotărilor web (de exemplu, utilizarea standardului Adnotări web )
  • cele mai bune practici pentru modelarea și partajarea resurselor lexicale cu suprapunerea mărcii .

Proiecte de cercetare

Utilizările și dezvoltarea LLOD-urilor au făcut obiectul unor proiecte de cercetare europene la scară largă, inclusiv:

  • LOD2. Crearea de cunoștințe din datele interconectate (11 țări europene + Coreea, 2010-2014) [22]
  • MONNET. Ontologii multilingve pentru cunoașterea în rețea (5 țări europene, 2010-2013) [23]
  • LIDER. Date conexe ca facilitator al analizei de conținut cross-media și multilingv pentru întreprinderile din întreaga Europă (5 țări europene, 2013-2015) [24]
  • QTLeap. Traducere de calitate prin abordări de inginerie lingvistică profundă (6 țări europene, 2013-2016) [25]
  • Îi urăști. Dictionare deschise legate (BMBF eHumanities Early Carreer Research Group, Universitatea Goethe Frankfurt, Germania, 2015-2020) [26]
  • FREME. Cadrul deschis al serviciilor electronice pentru îmbogățirea multilingvă și semantică a conținutului digital (6 țări europene, 2015-2017) [27]
  • DATA POSTULUI. Standardizarea poeziei și datele deschise legate (ERC Starting Grant, UNED, Spania, 2016-2021) [28]
  • Linking Latin (ERC Consolidator Grant, Universitatea Catolică a Inimii Sacre, Italia, 2018-2023) [29]
  • Pret-a-LLOD (5 țări europene, 2019-2021) [30]
  • NexusLinguarum. Rețea europeană pentru știința datelor lingvistice centrată pe web (Acțiune COST, 35 de țări COST, 2 țări vecine, o țară parteneră internațională, 2019-2023) [31]

Resurse

Din octombrie 2018, cele mai conectate zece resurse din diagrama LLOD sunt (pe baza numărului de seturi de date conectate):

  • Ontologii ale adnotării lingvistice (OLiA, conectat cu 74 de seturi de date) referință terminologică pentru adnotări lingvistice și metadate gramaticale;
  • WordNet (conectat cu 51 de seturi de date), bază de date lexicală pentru limba engleză și punct de sprijin pentru dezvoltarea bazelor de date similare în alte limbi, cu versiuni diferite (versiunea Princeton conectată cu 36 de seturi de date; versiunea W3C conectată cu 8 seturi de date; versiunea VU conectată cu 7 seturi de date);
  • DBpedia (conectat cu 50 de seturi de date) bază de cunoștințe multilingvă bazată pe Wikipedia;
  • lexinfo.net (conectat cu 36 de seturi de date) referință terminologică pentru resurse lexicale;
  • BabelNet (conectat cu 33 de seturi de date) rețea semantică multilingvă lexicalizată, bazată pe agregarea de resurse diferite și eterogene, inclusiv WordNet și Wikipedia;
  • lexvo.org (conectat cu 26 de seturi de date) oferă identificatori pentru limbi și alte date legate de limbă. Cel mai important, lexvo oferă o reprezentare RDF a codurilor ISO 639-3 din 3 litere pentru identificatorii de limbă și informații despre aceste limbi;
  • Registrul de categorii de date ISO 12620 (ISOcat; versiunea RDF, conectat cu 10 seturi de date) oferă o arhivă semi-structurată pentru diferite terminologii legate de limbă. ISOcat este găzduit de The Language Archive, tocmai de proiectul DOBES , la Institutul de psiholingvistică Max Planck , dar în prezent în tranziție către CLARIN ;
  • UBY ( versiunea RDF lemon-Uby , conectată cu 9 seturi de date), o rețea lexicală pentru limba engleză, agregarea diverselor resurse lexicale;
  • Glottolog (conectat cu 7 seturi de date) oferă identificatori cu granulație fină a limbilor mai puțin utilizate, în special a celor care nu sunt incluși în lexvo.org;
  • Wikționar - Legături DBpedia ( wiktionary.dbpedia.org , conectat cu 7 seturi de date), Lexicalizări bazate pe Wiktionary pentru concepte DBpedia.

Notă

  1. ^ Open Linguistics Working Group, Linguistic LOD , su linguistic-lod.org , proiect LIDER. Adus pe 24 mai 2016 .
  2. ^ Christian Chiarcos, John McCrae, Philipp Cimiano și Christiane Fellbaum, Towards open data for linguistics: Lexical Linked Data ( PDF ), Heidelberg, In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Cercetare în ontologii și resurse lexicale. Springer, 2013. Adus pe 24 mai 2016 .
  3. ^ Date deschise legate lingvistic. Informații despre starea actuală a norului în creștere de date deschise legate lingvistic. , pe linguistic-lod.org . Adus la 10 decembrie 2019 .
  4. ^ (EN) Philipp Cimiano, Christian Chiarcos, John McCrae și P. Jorge Gracia, Linguistic Linked Data: Representation, Generation and Applications , Springer International Publishing, 2020, ISBN 978-3-030-30224-5 .
  5. ^ Model de lexic pentru ontologii: raport comunitar, 10 mai 2016 , la www.w3.org . Adus pe 5 iunie 2020 .
  6. ^ Livrabile grupului de lucru W3C's Web Annotation Working , la w3c.github.io . Adus pe 5 iunie 2020 .
  7. ^ (EN) Sebastian Hellmann, Jens Lehmann, Sören Auer și Martin Brümmer, Integrating NLP Using Linked Data in Harith Alani (eds), The Semantic Web - ISWC 2013, Lecture Notes in Computer Science, Berlin, Heidelberg, Springer, 2013, pp . 98–113, DOI : 10.1007 / 978-3-642-41338-4_7 , ISBN 978-3-642-41338-4 .
  8. ^ (EN) Christian Chiarcos și Christian Fäth, CoNLL-RDF: Corpuri corelate realizate într-un mod NLP-Friendly , în Jorge Gracia (eds), Limbă, dată și cunoștințe, Note de curs în informatică, Cham, Springer International Publishing, 2017, pp. 74–88, DOI : 10.1007 / 978-3-319-59888-8_6 , ISBN 978-3-319-59888-8 .
  9. ^ (EN) Christian Chiarcos, POWLA: Modeling Linguistic Corpora in OWL / DL , Elena Simperl (eds), The Semantic Web: Research and Applications, Lecture Notes in Computer Science, Berlin, Heidelberg, Springer, 2012, pp. 225–239, DOI : 10.1007 / 978-3-642-30284-8_22 , ISBN 978-3-642-30284-8 .
  10. ^ (EN) Chiarcos Christian și Maria Sukhareva, Olia - Ontologies of Linguistic Annotation in the Semantic Web, vol. 6, nr. 4, 1 ianuarie 2015, pp. 379–386, DOI : 10.3233 / SW-140167 , ISSN 1570-0844 ( WC ACNP ) .
  11. ^ (EN) Cimiano P., P. Buitelaar, J. și M. McCrae Sintek, LexInfo: Un model declarativ pentru interfața ontologie-lexicon în Journal of Web Semantics, vol. 9, nr. 1, 1 martie 2011, pp. 29–51, DOI : 10.1016 / j.websem.2010.11.001 , ISSN 1570-8268 ( WC ACNP ) .
  12. ^ (EN) Gerard de Melo, Lexvo.org: Informații legate de limbă pentru cloudul de date legate de lingvistic , în Semantic Web, vol. 6, nr. 4, 1 ianuarie 2015, pp. 393–400, DOI : 10.3233 / SW-150171 , ISSN 1570-0844 ( WC ACNP ) .
  13. ^ ( EN ) Data Catalog Vocabulary (DCAT) - Versiunea 2 , la www.w3.org . Adus pe 5 iunie 2020 .
  14. ^ (EN) P. John McCrae, Penny Labropoulou, Jorge Gracia, Marta Villegas, Víctor Rodríguez-Doncel și Philipp Cimiano, One Ontology to Bind Them All: The META-SHARE OWL ontology for the Interoperability of Linguistic Datasets on the Web , în Fabien Gandon (ed.), The Semantic Web: ESWC 2015 Satellite Events , Lecture Notes in Computer Science, Cham, Springer International Publishing, 2015, pp. 271–282, DOI : 10.1007 / 978-3-319-25639-9_42 , ISBN 978-3-319-25639-9 .
  15. ^ ld4lt / linguistic-annotation , ld4lt, 19 mai 2020. Adus pe 5 iunie 2020 .
  16. ^ Cele mai bune practici pentru grupul comunitar de date deschise legate multilingv , la w3.org . Adus pe 9 decembrie 2019 .
  17. ^ Date legate pentru grupul comunitar de tehnologie lingvistică , la w3.org . Adus pe 9 decembrie 2019 .
  18. ^ Steven Bird și Mark Liberman, Către un cadru formal pentru adnotări lingvistice ( PDF ), la ldc.upenn.edu , În: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998. Accesat la 25 mai 2016 . [ link rupt ]
  19. ^ ISO 24612: 2012, Managementul resurselor lingvistice - Cadru de adnotare lingvistică (LAF) , pe iso.org , ISO. Adus la 25 mai 2016.
  20. ^ Richard Eckart, Alegerea unei baze de date XML pentru corpusurile adnotate lingvistic , SDV. Sprache und Datenverarbeitung 32.1 / 2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, septembrie 2008, 2008, pp. 7-22.
  21. ^ Christian Chiarcos, Interoperability of Corpora and Annotations (draft version) ( PDF ), su acoli.cs.uni-frankfurt.de , În: Christian Chiarcos, Sebastian Nordhoff și Sebastian Hellmann (eds.) Linked Data in Linguistics. Reprezentarea și conectarea datelor de limbă și a metadatelor de limbă, 2012. Accesat la 25 mai 2016 .
  22. ^ lod2.okfn.org (versiune arhivată) , pe archive.is . Adus pe 9 decembrie 2019 .
  23. ^ Ontologii multilingve pentru cunoașterea în rețea (Monnet) , pe cordis.europa.eu , Comisia Europeană, rezultatele cercetării CORDIS UE. Adus la 10 decembrie 2019 .
  24. ^ LIDER: Linked Data ca facilitator al analizei de conținut cross-media și multilingv pentru întreprinderile din toată Europa , pe cordis.europa.eu , Comisia Europeană, rezultatele cercetării CORDIS UE. Adus la 10 decembrie 2019 .
  25. ^ Traducere de calitate prin Deep Language Engineering Approaches , pe cordis.europa.eu , Comisia Europeană, rezultatele cercetării CORDIS UE. Adus la 10 decembrie 2019 .
  26. ^ Link Open Dictionaries (LiODi) , pe acoli.informatik.uni-frankfurt.de . Adus la 10 decembrie 2019 .
  27. ^ Cadrul deschis al serviciilor electronice pentru îmbogățirea multilingvă și semantică a conținutului digital , pe cordis.europa.eu . Adus la 10 decembrie 2019 .
  28. ^ POSTDATA - Standardizarea poeziei și datele deschise legate , pe postdata.linhd.uned.es . Adus la 10 decembrie 2019 .
  29. ^ Conectarea latinei. Construirea unei baze de cunoaștere a resurselor lingvistice pentru limba latină , pe cordis.europa.eu . Adus la 10 decembrie 2019 .
  30. ^ Pagina de pornire a proiectului Pret-a-LLOD , pe pret-a-llod.eu . Adus la 10 decembrie 2019 . Pret-a-LLOD , pe cordis.europa.eu , Comisia Europeană, rezultatele cercetării CORDIS UE. Adus la 10 decembrie 2019 .
  31. ^ CA18209 - Rețea europeană pentru știința datelor lingvistice centrată pe web , pe cost.eu , cost. Cooperarea europeană în știință și tehnologie. Adus la 10 decembrie 2019 .