Cadrul de marcare lexicală

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Lexical Markup Framework ( LMF ) este un proiect în desfășurare în cadrul Organizației Internaționale pentru Standardizare (ISO), și mai specific în cadrul ISO / TC37, cu scopul de a defini un standard pentru reprezentarea dicționarelor electronice și a lexiconelor de calcul pentru prelucrarea automată a limbajului (TAL) . Scopul proiectului este standardizarea principiilor și metodelor legate de resursele lingvistice în contextul comunicării multilingve și al diversității culturale.

Obiective LMF

Obiectivele LMF sunt: ​​să ofere un model comun pentru crearea și utilizarea resurselor lexicale; gestionează schimbul de date între aceste resurse; permite îmbinarea resurselor electronice individuale pentru a forma o vastă rețea globală. Tipurile de instanțe LMF unice pot include resurse lexicale monolingve, bilingve sau multilingve. Aceleași specificații pot fi utilizate pentru lexiconele mici sau mari, simple sau complexe, și pentru reprezentările lexicale scrise sau vorbite. Descrierile lingvistice includ informații morfologice , sintactice, semantice și multilingve. Limbile acoperite nu sunt limitate la limbile europene, ci acoperă toate limbile naturale. Gama de aplicații a NLP nu este limitată. LMF poate reprezenta majoritatea lexiconelor, inclusiv WordNet, EDR și WORDS.

Istoria LMF

În trecut, standardizarea lexicului a fost studiată și dezvoltată de o serie de proiecte precum GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE și ISLE. Ulterior, delegațiile naționale ale ISO / TC37 au decis să se ocupe de standardele dedicate reprezentării lexiconelor electronice și pentru TAL. Lucrările privind LMF au început în vara anului 2003 prin intermediul unei noi propuneri de lucru (New Work Item Request) prezentată de delegația SUA. În toamna anului 2003, delegația franceză a emis o propunere tehnică pentru un model de date dedicat lexicelor pentru TAL. La începutul anului 2004, comitetul ISO / TC37 a decis să formeze un proiect comun ISO cu Nicoletta Calzolari (Italia) în calitate de coordonator și Gil Francopoulo (Franța) și Monte George (SUA) ca editori. De atunci au fost scrise 13 versiuni, trimise experților naționali, comentate și discutate la diferite reuniuni tehnice ISO.

Starea curenta

Numărul ISO este 24613. Specificația LMF este în prezent (decembrie 2007) în starea DIS (Proiect pentru standardul internațional). Se așteaptă ca programul să ajungă la stadiul de Proiect final pentru standardul internațional (FDIS) în februarie 2008 și publicarea finală în septembrie 2008. LMF și alți membri ai familiei de standarde ISO / TC37. Nivel înalt și se ocupă de segmentarea cuvintelor (ISO 24614) , adnotări (ISO 24611 sau MAF, ISO 24612 sau LAF, ISO 24615 sau SynAF și ISO 24617-1 sau SemAF / Time), structuri de caracteristici (ISO 24610), containere multimedia (ISO 24616 sau MLIF) și lexicoane (ISO 24613 ). Aceste standarde se bazează pe specificații de nivel scăzut dedicate constantelor, și anume categorii de date (revizuirea ISO 12620), coduri de limbă (ISO 639), coduri de scripturi (ISO 15924), coduri de țară (ISO 3166) și Unicode (ISO 10646). Această organizație pe două niveluri constituie o familie coerentă de standarde cu reguli comune și simple: 0. Specificația la nivel înalt oferă elementele structurale care sunt completate de constantele standardizate; 0. Specificațiile de nivel scăzut furnizează constantele standardizate ca metadate.

Standarde utilizate de LMF

Constantele lingvistice precum / feminin / („feminin”) sau / tranzitiv / („tranzitiv”) nu sunt definite în cadrul LMF, dar sunt înregistrate în Registrul categoriilor de date (DCR), care este păstrat ca resursă globală din ISO / TC37 în în conformitate cu ISO / IEC 11179-3: 2003 [1]. Aceste constante sunt utilizate pentru a integra elemente structurale de nivel înalt. Specificația LMF este conformă cu principiile de modelare Unified Modeling Language (UML), așa cum sunt definite de Grupul de gestionare a obiectelor (OMG). Structura este specificată prin intermediul diagramelor de clasă UML. Exemplele sunt prezentate prin diagrame ale exemplelor (sau obiectelor) UML. Un DTD XML este, de asemenea, furnizat într-o anexă a documentului LMF.

Model structural

LMF constă din următoarele componente: 0. Un pachet central care reprezintă scheletul structural care descrie ierarhia de bază a informațiilor într-o intrare lexicală. 0. Extensii de pachete de bază, exprimate într-un sistem care descrie reutilizarea componentelor de bază împreună cu programe de completare necesare pentru o resursă lexicală specifică. Extensiile sunt dedicate morfologiei, dicționarelor electronice (MRD), sintaxei NLP, semanticii NLP, adnotărilor multiliguale NLP, schemelor paradigmei NLP, expresiilor poliremice și modelelor de exprimare a constrângerilor.

Un exemplu

În exemplul următor, intrarea lexicală este asociată cu o lemă (duhovnic) și două forme flexate (duhovnic și duhovnici). Codificarea limbajului se face pentru întreaga resursă lexicală. Valoarea aleasă pentru a descrie limba specifică acoperită este fixată pentru întregul lexicon, așa cum este indicat în următoarea diagramă UML.

LMFMorphoClergymanInflected.svg

Elementele Resursă lexicală, Informații globale, Lexicon, Introducere lexicală, Lemă și Elementele Word Form definesc structura lexicului și sunt specificate în documentul LMF. Dimpotrivă, languageCoding, language, partOfSpeech, commonNoun, wroteForm, grammaticalNumber, singular, plural sunt categorii de date preluate din registrul categoriilor de date și servesc la integrarea structurii. ISO 639-3, duhovnicul, valorile duhovnicilor sunt șiruri de caractere simple. Valoarea eng este preluată din lista de limbi definite în ISO 639-3.

Cu unele informații suplimentare, cum ar fi dtdVersion și feat, aceleași date pot fi exprimate prin următorul fragment XML:

 <LexicalResource dtdVersion = "14" >
    <GlobalInformation>
        <feat att = "languageCoding" val = "ISO 639-3" />
    </GlobalInformation>
    <Lexicon>
        <feat att = "language" val = "eng" />
        <LexicalEntry>
            <feat att = "partOfSpeech" val = "CommonNoun" />
            <Lemă>
                <feat att = "wroteForm" val = " clergyman " />
            </Lemma>
            <WordForm>
                 <feat att = "wroteForm" val = " clergyman " />
                 <feat att = "grammaticalNumber" val = "singular" />
            </WordForm>
            <WordForm>
                <feat att = "wroteForm" val = " clergymen " />
                <feat att = "grammaticalNumber" val = "plural" />
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Deși acest exemplu este destul de simplu, LMF poate reprezenta descrieri lingvistice mult mai complexe; în acest caz, reprezentarea XML crește în complexitate.

linkuri externe

Site-uri web conexe

  • Site-ul web LMF , la lexicalmarkupframework.org . Adus la 23 ianuarie 2008 (arhivat din original la 15 iulie 2017) .
  • Site-ul LIRICS , la lirics.loria.fr .

Comunicări științifice pe LMF

  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tubingen: Lexical Markup Framework Standard ISO pentru informații semantice în lexiconele NLP [2]
  • Resurse lingvistice și evaluare LREC-2006 / Genova: Lexical Markup Framework (LMF) [3]

Comunicări științifice conexe

  • Resurse lingvistice și evaluare LREC-2006 / Genova: relevanța standardelor pentru infrastructurile de cercetare [4]