Corpus

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Notă despre dezambiguizare.svg Dezambiguizare - Dacă sunteți în căutarea altor semnificații, consultați Corpus (dezambiguizare) .

Un corpus este o colecție de texte selectate și organizate pentru a facilita analiza lingvistică .

Termenul a fost cunoscut din cele mai vechi timpuri; în acest sens, poate fi util să ne gândim la Corpus Iuris Civilis [1] , Corpus Inscriptionum Latinarum [2] și la multe altele care s-au dezvoltat de-a lungul timpului.

Corpurile pot fi create pe hârtie sau oral; astăzi, însă, rolul computerului în utilizarea corpurilor a devenit atât de preponderent încât termenul corpus în sine nu este rareori sinonim cu corpus electronic (un exemplu - disponibil pe web - este cel care se referă la ziarul „ La Repubblica ").

Domeniul lingvistic în care sunt utilizate corpusuri este cunoscut și sub denumirea de lingvistică corpus . Alte ramuri demne de menționat, în care sunt folosite corpusuri , sunt următoarele: lingvistica istorico-comparată în Italia, Gramatica comparată în Statele Unite și Filologia comparată în Regatul Unit.

Lingvistică corpora

Lingvistica corpusului reprezintă o disciplină științifică care a ajuns acum la finalizare; în cincizeci de ani de activitate, datorită multitudinii de grupuri de cercetare care operează în ea, a reușit să cucerească o poziție de centralitate incontestabilă în panorama științifică națională și internațională.

Folosind instrumente de analiză cantitativă și statistică , el explorează regularitățile lingvistice care apar din texte și care stau la baza descrierii structurii limbajului .

Obiectivul principal este de a dezvolta modele de funcționare a limbajului uman care pot fi traduse în programe care pot fi executate de un computer electronic; în acest fel, poate dobândi abilitățile necesare pentru a comunica direct în limba noastră.

Este un domeniu tipic interdisciplinar de cercetare și muncă. De fapt, pe de o parte, pentru a califica activitățile care vizează dezvoltarea de aplicații bazate pe tehnologii lingvistice, acesta este împletit cu tehnologia informației și inginerie ; pe de altă parte, în schimb, dialogează cu lingvistica , științele cognitive , psihologia , filosofia și științele umane în general, cu care împărtășește obiectivul de a investiga structura, funcționarea și utilizarea limbajului, precum și relația acestuia cu celălalt facultățile cognitive ale omului.

Istorie

Lingvistica corpus s-a născut în a doua jumătate a secolului al XX-lea ca disciplină de frontieră, atât în ​​ceea ce privește lumea umanistă, cât și aplicațiile mai centrale ale științelor informației .

Printre primele rezultate ale disciplinei găsim dezvoltarea de programe de numărare electronică a textelor, calculul frecvenței cuvintelor, compilarea indexurilor și concordanțelor [3] , precum și crearea de repetatoare lexicale electronice, cunoscute și ele ca dicționare electronice .

În anii cincizeci și șaizeci, Roberto Busa SJ a creat primul corpus electronic al operelor lui Tommaso d'Aquino la Centrul pentru Automatizarea Analizei Lingvistice din Gallarate: este un corpus de aproximativ 10 milioane de cuvinte , o cifră enormă pentru capacități a computerelor vremii.

În 1957 , paralel cu răspândirea gramaticii generative , în zona anglo-saxonă a continuat să se dezvolte o tradiție de cercetare lingvistică, ancorată la o metodologie de derivare empiricistă, care întemeiază investigația lingvistică pe culegerea și analiza corpurilor.

Ulterior, în 1964 , la Universitatea Brown din Statele Unite , Henry Kucera și W. Nelson Francis au creat Brown Corpus : lung de aproximativ un milion de cuvinte, este primul corpus electronic conceput și construit pentru studiul unei anumite varietăți lingvistice contemporane ( în cazul specific, engleza americană din anii șaizeci).

Ulterior, dimensiunea corpurilor a crescut din ce în ce mai mult, iar disponibilitatea acestora a devenit o variabilă fundamentală în fiecare fază de dezvoltare și evaluare a instrumentelor pentru TAL [4] . În același timp, creșterea rețelei web - cu cantitatea sa mare de material textual multiform și în continuă evoluție - a făcut necesară dezvoltarea tehnologiilor lingvistice capabile să se ocupe de texte reale și nu mai cu texte de laborator.

Disponibilitatea crescândă a corpurilor textuale a facilitat inovația metodologică în lingvistica corpusului, oferind datele lingvistice [5] necesare pentru o utilizare intensivă a metodelor statistice. Mai mult, primele limbaje standard de marcare a textului (cum ar fi XML ) au îmbunătățit procesul de creare, utilizare și schimb de corpuri: de fapt, astăzi computerul permite stocarea unor cantități inimaginabile de date textuale și interogarea avansată a conținutului corpusului. . În același timp, aceste limbi au făcut posibilă adnotarea lingvistică [6] a textului la scară largă, ceea ce permite să reprezinte într-un mod explicit și detaliat structura și organizarea lingvistică a textului în sine, oferind oportunitatea pentru o reflecție riguroasă asupra naturii datelor adnotate și asupra celor mai potrivite modele interpretative care să justifice acest lucru.

Clasificare

Alegerea textelor se poate face pe diferite criterii.

Generalitate

Gradul de generalitate al unui corpus depinde de măsura în care textele sale au fost selectate în raport cu diferitele varietăți ale unei limbi . Corpusurile specializate sunt orientate spre descrierea unei anumite varietăți lingvistice (sublimbă) sau către un domeniu de aplicație restrâns (gândiți-vă la limbajul jurnalismului, copiilor, dreptului, medicinei etc.); din acest motiv au gradul minim de generalitate. Dimpotrivă, textele corpurilor generale aparțin diferitelor varietăți lingvistice și sunt selectate pentru a compune cadrul descriptiv al limbii în ansamblu. Prin urmare, acestea sunt corpuri multifuncționale care sunt deseori concepute ca resurse de referință transversale pentru studiul unei limbi, de exemplu ca sursă de date pentru dezvoltarea unui dicționar . Corpurile generale sunt adesea articulate în diferite sub-corporații sau în subseturi de texte care aparțin unei anumite varietăți.

Mod

Marea diversitate care caracterizează limbajul scris și vorbit la toate nivelurile face din modul (scris și oral) de a produce texte un parametru extrem de relevant pentru definirea fizionomiei corpusului și, de asemenea, pentru a decide utilizările cele mai adecvate. În ceea ce privește această dimensiune, putem împărți corpurile în:

  • corpusuri de limbaj scris;
  • corpusuri de limbă vorbită;
  • corpuri mixte.

Corpusurile de limbă scrisă conțin doar texte produse inițial în formă scrisă, cum ar fi cărți sau articole de ziar etc. (gândiți-vă, de exemplu, la Corpusul Brown). Corpusurile de limbă vorbită conțin doar texte produse inițial oral și ulterior transcrise, precum conversații spontane, emisiuni radio etc. (de ex. corpusul CHILDES ).

Din acestea din urmă distingem corpusurile audio sau mostrele de limbă vorbită sub forma unui semnal acustic , eventual însoțit de transcrierea lor. Acestea câștigă din ce în ce mai mult importanță ca instrumente pentru dezvoltarea aplicațiilor pentru recunoașterea sau sinteza automată a vorbirii, unde este necesar accesul la date acustice. Un tip de corpus și mai frontalier, dar care se răspândește rapid, este corpusul multimedia (sau corpus audio-vizual), care conține înregistrările audio-video ale schimburilor comunicative. Acestea permit să dobândească date importante nu numai asupra structurii lingvistice, ci și asupra aspectelor gestuale, faciale, emoționale și de mediu ale comunicării. Corpusurile mixte conțin în proporții variate atât textele produse în mod scris, cât și transcrierile limbii vorbite (de exemplu, British National Corpus este compus în acest fel).

Cronologie

Corpurile diferă, de asemenea, prin modul în care sunt selectate textele în raport cu axa timpului. Pe baza cronologiei este posibil să se distingă corpurile sincronice și diacronice. Corpurile sincronice includ texte care aparțin aceleiași ferestre de timp, selectate pentru studiul unei anumite faze a limbii. Corpurile diacronice, pe de altă parte, includ texte aparținând unor perioade diferite, cu scopul de a descrie schimbarea lingvistică.

Limbă

În funcție de limbă, există corpuri monolingve și bilingve (sau multilingve), care se pot distinge în corpuri paralele și corpuri comparabile. Corpusurile monolingve conțin texte dintr-o singură limbă. Corpusurile bilingve (sau multilingve) conțin texte din două (sau mai multe) limbi. Corpusurile paralele includ texte atât în ​​limba lor originală, cât și în traducere în altă limbă. Dacă unitățile lingvistice ale textelor în limba lor originală sunt legate în mod explicit de unitățile lingvistice din textele care sunt traduse într-o altă limbă care constituie traducerile lor, vorbim despre corpuri aliniate în paralel: unitatea tipică de aliniere este propoziția. Corpurile comparabile, pe de altă parte, nu conțin texte în traducere, ci texte originale în diferite limbi. Aceste corpusuri permit compararea a două sau mai multe limbi în raport cu același gen textual sau domeniu tematic; întrucât textele sunt toate originale, datele colectate posedă un grad mai mare de naturalețe, evitând artificialitatea care uneori rezultă din lucrarea de traducere.

Integritate

Corpusurile pot conține texte întregi sau porțiuni de texte cu o lungime prestabilită. De exemplu, Brown Corpus include mostre de 2000 de cuvinte, în timp ce versurile din „Parole” și „Coris” sunt integrale.

Codificare digitală a textelor

Un alt element de diferențiere între corpuri este modul în care sunt reprezentate textele digitale. În corpusurile codificate la nivel înalt, textele sunt îmbogățite cu etichete (coduri) care fac explicite diferite tipuri de informații, cum ar fi structura și compoziția textuală. Tipuri particulare de corpuri codificate sunt corpuri adnotate, în care informațiile codificate se referă la structura lingvistică a textului la diferite niveluri de reprezentare.

Echilibru

În lingvistica corpusului, echilibrarea este asumată ca o condiție esențială pentru a garanta reprezentativitatea unui corpus care dorește să fie multifuncțional și transversal în raport cu diferitele varietăți ale unei limbi. Echilibrarea presupune crearea unei descrieri exacte a populației lingvistice de referință: este, prin urmare, necesar să se definească o hartă a limbii urmărind limitele spațiale și temporale (ce texte sunt incluse sau excluse din populație) și tipul de texte ( articulare în straturi ale populației). O echilibrare corectă necesită o cantitate consistentă de texte selectate pentru diferitele tipologii identificate în populație. Dacă selectarea textelor unui corpus se face bine, aceasta este bine echilibrată și, prin urmare, poate fi reprezentativă.

Reprezentativitate

Un corpus este reprezentativ care ține evidența întregii game de variabilitate a trăsăturilor și proprietăților unei limbi . Aceasta înseamnă că un corpus trebuie să ofere un model al proprietăților lingvistice ale limbii analizate, adică trebuie să fie capabil să ofere o imagine a soiurilor și tendințelor lingvistice cât mai exact posibil, respectând proporțiile lor și permițând astfel generalizarea proprietăților lingvistice. a corpusului către întreaga populație [7] . Cu toate acestea, nu se poate demonstra că un corpus este cu adevărat reprezentativ pentru o anumită secțiune a limbajului și, în consecință, informațiile obținute din analiza unui corpus trebuie luate în considerare la cel mai mult presupuneri rezonabile.

Dimensiune

Mărimea corpusului este determinată de numărul de cuvinte conținute în corpus în sine, în ceea ce privește corpusurile de limbă scrisă și de numărul de ore de înregistrare, în ceea ce privește corpusurile de limbă vorbită. Este posibil să se distingă corpusurile închise și deschise. Primul reprezintă corpusul tradițional standard, în care cantitatea de texte și cuvinte este fixată la începutul proiectului. Corpusurile închise ne oferă un fel de „fotografie” a unei limbi prin textele selectate, dar ele nu sunt potrivite pentru a urmări schimbările și evoluțiile care au loc într-o limbă ca o consecință a naturii sale intrinsec dinamice. Pentru a depăși această limitare, John Sinclair a propus extinderea noțiunii tradiționale de corpus într-un instrument de monitorizare lingvistică. Un corpus de monitorizare este o colecție „deschisă” de texte care se modifică în timp, introducând noi texte selectate conform acelorași criterii utilizate pentru a determina colecția inițială. Acest tip de corpus permite, de exemplu, să monitorizeze dinamica lexicului lingvistic și, prin urmare, poate fi utilizat în contexte lexicografice ca sursă de date pentru a menține dicționarele actualizate.

Evoluţie

Corpurile primei generații , în anii șaizeci și șaptezeci, conțineau milioane de cuvinte. În anii optzeci și nouăzeci, în corpurile a doua generație, găsim zeci de milioane de cuvinte; după 2000 sunt sute de milioane de cuvinte. În corpurile de ultimă generație, astăzi există miliarde de cuvinte.

  1. „Lingviștii au folosit întotdeauna cuvântul corpus pentru a descrie o colecție de exemple de utilizare naturală a unei limbi, constând din câteva propoziții până la o serie de texte scrise sau înregistrări, colectate pentru a efectua studii lingvistice.” (Hunston, 2002: 2)
  2. „O colecție de texte scrise și / sau vorbite stocate pe un computer și utilizate pentru cercetări lingvistice și pentru a scrie dicționare.” (Dicționar englez Macmillan, ediția a doua, 2008)
  3. „Ansamblu de texte vorbite sau scrise utilizate pentru efectuarea cercetărilor care vizează stabilirea anumitor caracteristici ale codului lingvistic în cauză și utilizarea acestuia.” (Corda, Marello 2004: 220)

Tipologie

Corpurile pot proveni din limba scrisă sau din limba vorbită. Exemple de corpuri de limbă scrisă sunt cărțile , ziarele , revistele și paginile web . Conversațiile prin telefon sau față în față, pe de altă parte, reprezintă corpus de limbă vorbită.

Corpuri de limbă italiană

Corpuri de limbă italiană scrisă
Cuvinte

Corpus de referință sincronică echilibrată, al italianului scris contemporan. Corpusul a fost dezvoltat în cadrul proiectului european „Cuvinte” și este comparabil cu alte corpusuri pentru limbile europene.

CORIS / CODIS

Corpusul scrisului contemporan italian (CORIS / CODIS) este un corpus de referință sincronizat echilibrat al italianului scris contemporan. Acesta este un proiect început în 1998 de Universitatea din Bologna , conceput și coordonat de R. Rossini Favretti și Fabio Tamburini. CORIS / CODIS conține 130 de milioane de cuvinte și este actualizat la fiecare trei ani printr-un corpus de monitorizare. Acesta constă dintr-o colecție de texte autentice și recurente în uz, selectate ca reprezentative pentru italianul actual. Corpusul general este structurat în subcorpuri, care reprezintă diferitele varietăți de italiană scrisă. Alături de CORIS, se adaugă Corpul Dinamic al Italiei Scrise (CODIS). Acesta din urmă permite selectarea subunităților și conține aceleași materiale ca și Coris, dar interfața de căutare vă permite să le selectați pe grupuri și cu dimensiuni variabile de grup.

LIF

Lexiconul de frecvență italian (LIF), dezvoltat la Centrul Național Universitar de Calcul Electronic din Pisa în 1971 , reprezintă primul proiect major pentru construirea unui lexic de frecvență pentru limba italiană . Este rezultatul analizei unui corpus de 500.000 de apariții ale limbii italiene contemporane, din care s-au obținut date statistice de diferite tipuri pe aproximativ 5.000 de intrări. LIF a stat la baza compilării Vocabularului de bază (VDB) al limbii italiene a lui Tullio De Mauro , care este compusă, în versiunea actuală, din 7.950 de cuvinte cheie clasificate pe trei niveluri.

LIZ

Literatura italiană Zanichelli (LIZ) este o bază de date textuală care include pe deplin 1000 de texte literare italiene, de la Laudes creaturarum de Francesco d'Assisi până la operele lui Pirandello și D'Annunzio . Autorii majori sunt prezenți cu lucrările complete, cei minori cu cele mai semnificative texte. LIZ vă permite să faceți un număr mare de căutări, producând concordanțe, coincidențe, căutări secvențiale, liste de frecvențe, indici locorum, rime, indici inversi etc.

TLIO

Tezaurul limbii de origine italiene (TLIO) este o bază de date textuală formată din aproximativ 1.780 de texte pentru aproximativ 20 de milioane de cuvinte, preluate din scrieri în italiană înainte de 1375 , în proză și poezie . Bazat pe corpusul textual al italianului antic al OVI (Opera del Vocabolario Italiano), TLIO s-a născut în 1995 și a fost inaugurat în 1998 . De asemenea, reprezintă prima secțiune cronologică a vocabularului istoric italian.

VELI

Vocabularul electronic al limbii italiene (VELI) este un proiect născut în 1989 și condus de Tullio De Mauro . Este format din aproximativ 10.000 de lexeme ordonate în funcție de frecvență în limba italiană , din care sunt posibile consultări cu analize gramaticale, forme flexive, sinonime și cratimare.

CoLFIS

Lexiconul Corpus și Frecvența Italiei Scrise (CoLFIS) a fost construit de Bertinetto , Burani , Laudanna , Marconi, Ratti, Rolando și Thornthon . Se compune din 3.150.075 apariții lexicale preluate din ziare din perioada 1992 - 1994 („ La Repubblica ”, „ La Stampa ”, „ Il Corriere della Sera ”), periodice și cărți de diferite tipuri. În eșantionarea textelor, autorii au cântărit datele ISTAT referitoare la lecturile preferate ale italienilor , pentru a obține un corpus cât mai reprezentativ cu ceea ce citeau de fapt italienii. Lexiconul de frecvență preluat din corpus include două sub-părți: formario și lemmario. Forma conține frecvența fiecărei forme prezente în corpus, fără a face distincția între diferitele leme la care se poate urmări forma. Lemarul, pe de altă parte, conține frecvențele formelor lematizate, adică trasate la lema de origine și indică, de asemenea, frecvența cuvintelor „sintagmatice”. COLFIS diferă de lexicoanele de frecvență anterioare pentru echilibrarea surselor, ceea ce conferă un caracter de non-aleatorie datelor numerice extrase din arhiva lexicală și pentru amploarea sa, în sensul că nu există multe alte exemple de corpuri de această dimensiune este complet lematizată.

Republica

Acest corpus include vinurile ziaruluiLa Repubblica ” din 1985 până în 2000 . Este un corpus mare de italian jurnalistic format din aproximativ 380 de milioane de jetoane. De la mașinile LARL (Laboratorul de analiză a resurselor lingvistice) este posibil să îl accesați cu nume de utilizator și parolă.

ItalNet

Este un corpus diacronic general al limbii italiene scrise. ItalNet este un consorțiu internațional, fondat în 1995 , care organizează și distribuie baze de date și alte materiale de cercetare relevante pentru studiile italiene, făcându-le accesibile prin intermediul internetului către cercetători din întreaga lume .

DiaCORIS

DiaCORIS este un corp diacronic care include texte produse între 1861 și 2001, împărțit în perioade istorice omogene, reprezentativ pentru limba scrisă italiană . Poate fi considerat ca o extensie a structurii și posibilităților de cercetare ale corpusului sincronic al CORIS / CODIS scris italian.

SCRIE

Corpus ne adnotat, produs de o persoană privată. Vă permite să efectuați căutări lexicale și prelucrări statistice pe texte italiene de diferite tipuri produse din secolul al XIII-lea până în prezent. În prezent, este alcătuit din peste 6000 de texte de aproximativ 1000 de autori, pentru un total de 200 de milioane de cuvinte.

Corpuri vorbite în limba italiană
AVI / API / IPar

API / AVIP / IPar sunt proiecte pentru colectarea de materiale de vorbire spontană a limbii italiene , la care au participat laboratorul de lingvistică al Scolii Normale Superioare din Pisa , CIRASS și Institutul Oriental din Napoli , Politehnica din Bari și Universitatea din Piemont în diverse moduri. Est .

CIT

Corpusul televiziunii italiene (CIT) este o colecție de texte transcrise în format electronic din emisiuni de televiziune selectate (au fost excluse ficțiuni , filme , telefilme , scenarii, telenovele etc.), care vizează analiza caracteristicilor lexicale și gramaticale ale difuzării italiene. la televizor . Constând din 250.000 de cuvinte și planificat ulterior extinderea corpusului la 500.000 de cuvinte, proiectul a început în august 1998 și își propune să completeze celelalte corpuri electronice ale italianului care au fost create, în special în ultimii ani, pentru a permite efectuarea analizelor lingvistice ale italianului contemporan. pe baza datelor cantitative structurate și fiabile.

CLIPURI

Corpora Linguistici pentru limba italiană vorbită și scrisă (CLIPS) reprezintă corpusul audio al italianului vorbit de diferite tipuri (dialogic, citit, vorbire televizată, conversații telefonice și corpusuri speciale), echilibrat din punct de vedere diafazic și diatopic. Este al doilea dintre cele opt proiecte ale Clusterului C18 „LINGUISTICĂ COMPUTAȚIONALĂ: CERCETARE MONOLANGUALĂ ȘI MULTILINGVĂ”, finanțat de Ministerul Educației, Universității și Cercetării (MIUR). Se compune din aproximativ 100 de ore de vorbire, împărțite în mod egal între vocile masculine și cele feminine, parțial delimitate și etichetate fonetic. Înregistrările au fost realizate în cincisprezece locații italiene alese pe baza criteriilor de reprezentativitate lingvistică și socio-economică: Bari , Bergamo , Bologna , Cagliari , Catanzaro , Florența , Genova , Lecce , Milano , Napoli , Palermo , Parma , Perugia , Roma , Veneția . Pentru fiecare locație, au fost colectate discursuri radio și televizate, discursuri dialogice, citite de difuzoare neprofesionale, vorbire telefonică și citite de 20 de difuzori profesioniști și înregistrate într-o cameră anecoică.

LABLITA

Laboratorul de limbi străine al Departamentului de Studii Italiene (LABLITA) s-a născut în 1973 și se ocupă de colectarea și gestionarea corpurilor cu standardul de transcriere prin chat . Scopul este studierea limbii italiene orale pe baza corpurilor de vorbire spontane și efectuează cercetări teoretice și experimentale asupra intonației italianului. În acest corpus textele sunt transcrise, dar sunetul este disponibil în format digitalizat (wav).

BUZE

Lexiconul frecvenței limbii italiene vorbite (LIP) este cea mai importantă și cea mai utilizată colecție de texte vorbite în limba italiană în cercetarea lingvistică și este omologul LIF pentru limba italiană vorbită. Corpusul, înființat ca primul lexicon de frecvență al italianului vorbit în 1990 - 1992 , de un grup de lingviști regizat de Tullio De Mauro , este compus din aproximativ 500.000 de cuvinte grafice, transcrieri ale înregistrărilor realizate la Milano , Florența , Roma și Napoli , echivalent la aproape 57 de ore de vorbire. Cuvintele capului celor 469 de texte ale sale au fost colectate în patru orașe ( Milano , Florența , Roma și Napoli ) și pot fi consultate în funcție de frecvență și ordine alfabetică.

Corpuri de limbă italiană transmise

LIR

Lexiconul cu frecvență radio italiană (LIR) este un corpus de aproximativ 60 de ore, transcris ortografic și aliniat cu audio prin intermediul unui software special, creat în 1998 . Gestionat de LABLITA, LIR reprezintă un proiect pentru analiza lexicului și corpusului vorbirii radio.

Corpuri de limbă engleză

Corpuri scrise de limbă engleză

ANC

American National Corpus (ANC) este un proiect american calibrat cu aceleași criterii ca și British National Corpus (BNC). Corpusul conține 100 de milioane de cuvinte împărțite în diferite genuri în funcție de procentele BNC și preluate din texte scrise și transcrieri vorbite.

Corpus maro

Corpusul brun al englezei americane standard (Brown Corpus) este un corpus de referință sincronizat echilibrat al englezei americane scrise, creat de WN Francis și H. Kucera în 1961 și făcut public în 1964 la Universitatea Brown ( Statele Unite ). Corpusul este alcătuit din 500 de texte, preluate din 15 categorii diferite, pentru un total de un milion de cuvinte. Deoarece a fost primul corpus lingvistic electronic al englezei americane , a fost probabil cel mai utilizat în cercetare. Astăzi Corpul maro este fuzionat cu ICAME în ansamblu.

LOB

Corpusul Lancaster-Oslo / Bergen (LOB) conține aproximativ un milion de cuvinte în engleza britanică , în texte datând din 1961 . Corpusul a fost calibrat pentru a fi corespondentul britanic al Brown Corpus și conține 500 de texte de aproximativ 2.000 de cuvinte împărțite în 15 categorii diferite. Este disponibil atât adnotat (pentru părți de vorbire), cât și non-adnotat și este distribuit în întregul set de corpuri ICAME.

OTA

Oxford Text Archive (OTA) este o bază de date cu texte electronice literare și științifice și oferă gratuit corpusuri de dimensiuni medii.

Corpuri vorbite în limba engleză

CIC

Cambridge International Corpus (CIC) este o bază de date foarte mare pregătită de Cambridge University Press . Include corpusul de limbă engleză Cancode, format din 5 milioane de cuvinte; De asemenea, este format din aproximativ 600 de milioane de cuvinte scrise și vorbite engleză britanică și americană, extrase din ziare , romane , eseuri , emisiuni TV și radio .

Corpusuri scrise și vorbite în limba engleză

AM VENIT

Arhiva Internațională a Calculatoarelor de Engleză Modernă și Medievală (ICAME) este un corpus al limbii engleze , pregătit special pentru cercetarea lingvistică, de către Centrul Norvegian de Calcul pentru Umanistice (NCCH) din Bergen , Norvegia . Este o colecție de corpuri diferite de engleză scrisă și vorbită.

BoE

Bank of English (BoE) este un corpus în continuă expansiune (corpus de monitorizare) de texte scrise și vorbite în engleza britanică . Proiectul continuă împreună cu activitatea lexicografică a Collins COBUILD English Dictionary for Advanced Learners ( 2001 ) și a Universității din Birmingham .

BNC

Il British National Corpus (BNC) è un corpus misto, di riferimento bilanciato, sincronico, della lingua inglese britannica . È stato sviluppato tra il 1991 e il 1994 dalla Oxford University Press nel 1991 . È composto da più di 100 milioni di parole, di cui il 90% deriva da testi in inglese contemporaneo scritti e il 10% da trascrizioni di parlato. Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante il programma automatico "Claws" dell' Università di Lancaster ).

Corpora di lingua francese

Corpora di lingua francese scritta

BDLEX

BDLEX (Lexical Data and Knowledge Base of Spoken and Written French) è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).

Corpora di lingua francese parlata

BREF

BREF è un corpus di parlato continuo, ma non spontaneo, composto da testi tratti dal quotidiano francese Le Monde , letti ad alta voce da 120 diversi speaker .

Corpora di lingua spagnola

Corpora di lingua spagnola scritta e parlata

Corpus del español

Il Corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni. Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.

CREA

Il Corpus de Referencia de la Lengua Española Contemporánea (CREA) della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.

Corpora di lingua tedesca

Corpora di lingua tedesca scritta

COSMAS

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992 , all'IDS ( Institut für Deutsche Sprache ) di Mannheim , che oggi conta circa 1.080 milioni di parole.

Negra Corpus

Negra Corpus è un progetto dell' Università del Saarland , relativo a testi degli anni novanta.

Corpora multilingui e paralleli

BAF

French - English Parallel Corpus (BAF) è un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese .

BoLC

Il Bononia Legal Corpus (BoLC) è un corpus di testi giuridici in lingua italiana e inglese . È il risultato di un progetto di ricerca finalizzato alla costruzione ed all'analisi di corpora giuridici paralleli e comparabili. Il progetto è stato ideato nel 1997 , sviluppato all' Università di Bologna e coordinato da R. Rossini Favretti e Fabio Tamburini .

CALLHOME

CALLHOME è un corpus multilingue di parlato conversazionale, che copre spagnolo , cinese , giapponese , inglese americano , tedesco ed arabo .

CHILDES

Child Language Data Exchage System (CHILDES) è un progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio .

C-Oral-Rom

C-Oral-Rom è un corpus audio della lingua parlata spontanea. Il corpus è stato realizzato nel progetto europeo C-Oral-Rom ed è comparabile con altri corpora di spagnolo , francese e portoghese .

Crater

Crater è un corpus trilingue di inglese , francese e spagnolo .

ECI/MCI

European Corpus Initiative Multilingual Corpus (ECI/MCI) è nato nel 1994 con l'obiettivo di creare e diffondere il corpus multilingue.

INTERSECT

INTERSECT (International Sample of English Contrastive Texts) è un progetto dell' Università di Brighton per la costruzione e l'analisi di testi scritti paralleli Inglese-Francese.

MULTEX

MULTEXT (Multilingual Text Tools and Corpora) è un corpus specialistico multilingue ( inglese , francese , tedesco , spagnolo , italiano ) parallelo. I testi sono tratti dall'“ Official Journal of the European Community ”. L'obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

Real Parallel Corpus

Real Parallel Corpus (German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco .

TRIPTIC

TRIPTIC (TRIlingual Parallel Text Information Corpus) è un corpus di inglese , francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

TRACTOR

TRACTOR (TELRI Research Archive of Computational Tools and Resources) è un progetto mantenuto dal Centre for Corpus linguistics dell' Università di Birmingham . Si tratta di un archivio di materiali e software per l'analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche il bulgaro , il ceco , le lingue baltiche , il rumeno , il russo e altre.

Tatoeba

Tatoeba è un corpus parallelo open source che raccoglie frasi in 90 differenti lingue, di cui le prime dieci per importanza sono costituite da inglese, giapponese, esperanto, francese, tedesco, spagnolo, polacco, cinese mandarino, russo e italiano

Altri corpora internazionali usati

CHC

Il Canadian Hansards Corpus (CHC) è un corpus specialistico bilingue ( inglese e francese canadese ) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.

Switchboard Corpus

Lo Switchboard Corpus è un corpus specialistico dell' inglese americano . Basato sulle conversazioni telefoniche, è usato per addestrare i programmi per il riconoscimento automatico del parlato.

HCRC Map Task Corpus

L'HCRC Map Task Corpus è un corpus audio di dialoghi semi-spontanei raccolti col metodo “map task” da parlanti adulti di inglese britannico .

Note

  1. ^ È un'opera monumentale realizzata da una commissione di giuristi diretta da Triboniano, voluta dall'imperatore Giustiniano (527-565) per riordinare il sistema giuridico dell'imperatore. La raccolta è divisa in tre parti: le Istituzioni, che espongono i principi generali del diritto; il Digesto, che contiene gli scritti dei giuristi classici; il Codice, che raccoglie le leggi promulgate dagli imperatori romani, a partire da Adriano.
  2. ^ È una raccolta di iscrizioni latine sino alla caduta dell'impero di Roma, di qualsiasi natura (pubblica, sacra, sepolcrale, onoraria, rupestre, graffiti etc.), e su ogni supporto epigrafico (per lo più pietra e bronzo) tranne che su papiro.
  3. ^ Le concordanze rappresentano una lista delle occorrenze di una parola presenti in un contesto linguistico.
  4. ^ Trattamento Automatico del Linguaggio Naturale.
  5. ^ Rappresentano i prodotti del linguaggio che sono oggetto di un processo di analisi, e che formano l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Fra le fonti dei dati linguistici, troviamo dati linguistici controllati (raccolti in contesti sperimentali e in situazioni idealizzate), i quali si basano sulle intuizioni linguistiche dei parlanti; dati linguistici ecologici , nati da osservazioni degli usi linguistici in contesti e situazioni reali, fondati appunto su testi prodotti dai parlanti; testi, ovvero qualsiasi prodotto dell'attività linguistica dei parlanti, elaborato o trascritto come sequenza di caratteri.
  6. ^ Annotare un corpus significa aggiungere a un corpus codici che rendono esplicita e machine readable l'informazione relativa alla struttura linguistica del testo. È possibile individuare diversi livelli di annotazione linguistica: oltre alla lemmatizzazione, quella sintattica, morfosintatica, semantica, fonetica (per quanto riguarda i corpora di parlato) e così via.
  7. ^ Popolazione linguistica: linguaggio oggetto di studio.

Bibliografia

  • Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli. Testo e computer . ISBN 88-430-3425-1 . Carocci Editore, Roma, 2005
  • Cresti Emanuela, Panunzi Alessandro. Introduzione ai corpora dell'italiano , Il Mulino, Bologna, 2013.
  • Stefania Spina. Fare i conti con le parole. Introduzione alla linguistica dei corpora . Perugia, Guerra, 2001

Altri progetti

Collegamenti esterni

  • CORIS/CODIS , su corpora.ficlit.unibo.it .
  • DiaCORIS , su corpora.ficlit.unibo.it .
  • LIZ , su zanichelli.it . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 31 dicembre 2008) .
  • TLIO , su tlio.ovi.cnr.it .
  • CoLFIS , su linguistica.sns.it .
  • La Repubblica , su dev.sslmit.unibo.it . URL consultato il 6 febbraio 2009 (archiviato dall' url originale l'8 maggio 2009) .
  • ItalNet , su italnet.nd.edu . URL consultato il 4 febbraio 2009 (archiviato dall' url originale l'11 maggio 2009) .
  • API , su parlaritaliano.it . URL consultato il 7 febbraio 2009 (archiviato dall' url originale il 3 maggio 2008) .
  • CIT - non più disponibile
  • CLIPS , su clips.unina.it .
  • LABLITA , su lablita.dit.unifi.it . URL consultato il 19 gennaio 2009 (archiviato dall' url originale il 6 ottobre 2008) .
  • LIP , su languageserver.uni-graz.at .
  • SCRIPTA , su parolescritte.it .
  • LIR [ collegamento interrotto ] , su bebina.net .
  • BoLC , su corpora.ficlit.unibo.it .
  • ANC , su americannationalcorpus.org .
  • BoE , su www2.lingsoft.fi .
  • BNC , su corpus.byu.edu .
  • Brown Corpus , su khnt.hit.uib.no .
  • ICAME , su icame.uib.no .
  • CIC , su cambridge.org .
  • LOB , su khnt.hit.uib.no .
  • OTA , su ota.ox.ac.uk . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 16 gennaio 2009) .
  • BDLEX , su elda.fr . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 10 febbraio 2009) .
  • BREF , su elda.fr . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 3 febbraio 2009) .
  • CORPUS DE L'ESPANOL , su corpusdelespanol.org .
  • CREA , su corpus.rae.es .
  • Tatoeba , su tatoeba.org .
  • COSMAS , su ids-mannheim.de .
  • Negra Corpus , su coli.uni-saarland.de .
  • BAF , su rali.iro.umontreal.ca . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 29 ottobre 2009) .
  • BoLC , su corpora.dslo.unibo.it .
  • CHILDES , su childes.psy.cmu.edu . URL consultato il 22 gennaio 2009 (archiviato dall' url originale l'11 dicembre 2012) .
  • C-Oral-Rom , su lablita.dit.unifi.it . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 1º febbraio 2009) .
  • CRATER , su comp.lancs.ac.uk .
  • ECI/MCI , su elsnet.org .
  • MULTEXT , su aune.lpl.univ-aix.fr . URL consultato il 22 gennaio 2009 (archiviato dall' url originale il 17 marzo 2009) .
  • Real Parallel Corpus , su athel.com .
  • TRIPTIC , su engl.polyu.edu.hk . URL consultato il 7 febbraio 2009 (archiviato dall' url originale l'11 febbraio 2005) .
  • TRACTOR , su tractor.bham.ac.uk . URL consultato il 7 febbraio 2009 (archiviato dall' url originale il 30 gennaio 2009) .
  • CHC , su isi.edu .
  • Switchboard Corpus , su isip.piconepress.com .
  • HCRC Map Task Corpus , su hcrc.ed.ac.uk .
Controllo di autorità Thesaurus BNCF 37532 · LCCN ( EN ) sh2006006393 · BNF ( FR ) cb15997252r (data)