Buză de corp

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

Corpus LIP a fost colectat la începutul anilor '90 pentru crearea unui lexicon de frecvență al italianului vorbit (T. De Mauro, F. Mancini, M., Vedovelli, M. Voghera, Lexicon of frequence of italian vorbit , Milano, Etaslibri, 1993 ) cu patronajul IBM. Dimensiunea sa a fost concepută pentru a produce un lexicon de frecvență fiabil pentru primele 3000 de cuvinte cheie. Prin urmare, este compus din aproximativ 500.000 de apariții de cuvinte pentru aproximativ 60 de ore de înregistrare.

Corpusul prezintă soiuri diafazice, diatopice și diamezice.

În ceea ce privește variația diafazică și diamezică, textele sunt împărțite în 5 grupe: A) conversații față în față; B) convorbiri telefonice; C) schimburi de comunicare bidirecțională cu alternanță de schimb predefinită, precum interviuri, dezbateri, interacțiuni în săli de clasă, examene orale etc; D) monologuri, cum ar fi lecturi, predici, discursuri etc; E) programe de radio și televiziune. Textele cuprinse în grupurile A și B aparțin atât registrelor formale, cât și celor informale, în timp ce textele grupurilor C, D și E sunt înregistrate în principal în contexte publice, în care sunt adoptate registre formale.

În ceea ce privește variația diatopică, textele au fost colectate la Milano, Roma, Napoli și Florența. Primele trei orașe au fost alese pentru poziția lor geografică și numărul de locuitori, deoarece Milano, Roma și Napoli sunt cele mai populate orașe din Italia. Florența a fost aleasă pentru marea sa importanță în istoria limbii italiene.

În timp ce numărul de eșantioane este variabil, corpusul prezintă un număr total echilibrat de cuvinte în funcție de oraș și de situația diafazică, așa cum sa raportat în Tabelul 1.

Conversații față în față Convorbiri telefonice Interviuri și dezbateri Monologuri Radio / TV Total
Milano ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 125.000
Florenţa ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 125.000
Roma ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 125.000
Napoli ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 25.000 ~ 125.000
Total ~ 100.000 ~ 100.000 ~ 100.000 ~ 100.000 ~ 100.000 ~ 500.000

Astăzi este disponibil în versiunea VoLIP, pe portalul www.parlaritaliano.it, care asociază fișierele de semnal audio cu transcrierile ortografice ale mostrelor Corpus LIP și permite căutarea în corpus atât în ​​funcție de criterii sociolingvistice, cât și în funcție de lexical și criterii morfo-sintactice.

VoLIP face posibilă interogarea corpului LIP și obținerea ca rezultat a porțiunii audio dorite asociate transcrierii sale ortografice.

VoLIP oferă toate mostrele corpului LIP în fișiere WAV (Windows PCM, 22 050 Hz 16 biți) corelat cu:

  1. metadate în format IMDI;
  2. transcrierea ortografică originală și revizuirea acesteia.

Întrebările

Sunt posibile două tipuri de interogări: a) pentru metadate și b) pentru criterii lexicale și morfosintactice. Cele două tipuri de interogare pot fi încrucișate.

Sunt posibile două tipuri de interogare a corpusului : A) pentru variabilele text și registru, pe baza adnotării metadatelor; B) pentru, pe baza lexicului de frecvență și a analizei în părți de vorbire.

Căutarea metadatelor are ca rezultat transcrierea ortografică asociată cu fișierele audio ale tuturor textelor care au caracteristicile necesare. Căutarea după criterii lexicale și morfosintactice dă drept rezultat toate textele care prezintă elementul căutat (lexem sau formă) care vor fi evidențiate în transcrierea ortografică și care pot fi ascultate. Fiecare lexem, formă sau parte a discursului căutat este furnizat cu frecvența apariției în funcție de oraș și de tipul de discurs

linkuri externe

Lingvistică Portalul lingvistic : accesați intrările Wikipedia care se ocupă de lingvistică