Verificare a ortografiei

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

În informatică , verificarea ortografiei este o aplicație care marchează cuvintele dintr-un document care sunt scrise incorect . Ortografia controlerelor [Nota 1] poate fi, într-adevăr, un program independent (independent, în engleză ) [Nota 2] poate funcționa pe un bloc de text sau poate fi încorporat în aplicații „majore”, cum ar fi un procesor de text , un client de e-mail , un dicționar electronic sau un motor de căutare .

Operațiune

Ortografia greșită a expresiei „Chop Suey” [1] într-un meniu de restaurant ( Kandy , Sri Lanka ).

Verificatoarele ortografice de bază funcționează pe cuvinte unice, verificând dacă fiecare dintre ele este prezent în dicționarul intern al programului, realizând eventual „tematizarea” (stemming) a cuvântului ecranat. Dacă acesta din urmă nu este găsit în dicționar, acesta este considerat incorect și, în consecință, programul sugerează o corectare a intențiilor presupuse ale scriitorului. Un algoritm de sugestie de acest tip constă în gruparea logică a acelor cuvinte ale dicționarului care au o distanță de Levenshtein destul de mică în comparație cu cea tastată, care se formează cu utilizarea tastaturii de către utilizatorul asistat de programul de corecție.

Când este detectat un cuvânt care nu este prezent în dicționar, majoritatea verificatorilor ortografici oferă posibilitatea de a-l adăuga la lista cuvintelor corecte, care ca atare nu sunt evidențiate; prin inserarea cuvântului „greșit” în lista textului principal, voi obține în mod consecvent corectorul să ignore această presupusă eroare în cele ce urmează, extinzând astfel vocabularul mașinii cu care scriu.

Elemente de arhitectură de programare logică

De obicei, o verificare ortografică constă din două părți:

  1. un set de rutine ( rutine de scanare) pentru a analiza secvențial textul prin extragerea cuvintelor nerecunoscute;
  2. un algoritm pentru compararea cuvintelor extrase cu o listă cunoscută de cuvinte scrise corect (adică, deseori denumită un dicționar).

Rutinele de scanare includ uneori algoritmi dependenți de limbă pentru a face față morfologiei . Chiar și într-o limbă modest flexionată , cum ar fi engleza, rutinele de extracție trebuie să ia în considerare fenomene precum contracțiile (de ex. Nu , nu este ) și posesive (de exemplu , întâlnirea de mâine ). Este controversat dacă analiza morfologică aduce un avantaj semnificativ. [2]

Lista cuvânt poate conține doar o listă de cuvinte, sau , de asemenea , informații suplimentare, cum ar fi silabe puncte sau gramaticale sau lexicale atribute.

Pe lângă aceste două componente, interfața cu utilizatorul va permite utilizatorilor să aprobe înlocuiri și, de asemenea, să modifice, dacă este necesar, funcționarea programului.

O excepție de la paradigma pe care tocmai am subliniat-o este dată de acei corectori anumiți a căror utilizare se bazează exclusiv pe informații statistice, de exemplu recurgând la n-grame . [3] Această abordare necesită, de obicei, un efort considerabil pentru a obține suficiente informații statistice și poate necesita o cantitate și mai mare de stocare în timp de rulare . [4] Aceste metode nu sunt în prezent de uz general. În unele cazuri, corectorii folosesc o listă fixă ​​de greșeli de tipar cu sugestiile lor; această abordare mai puțin flexibilă este mai caracteristică acelui surogat de verificare a ortografiei, care în enciclopediile de hârtie este reprezentat de referințe, de asemenea.

Istorie

Verificările ortografice timpurii erau disponibile pe scară largă pe mainframe-uri de la începutul anilor 1970 . Un grup de șase lingviști ai Universității Georgetown au dezvoltat primul sistem de verificare a ortografiei pentru IBM . [5] Primii corectori pentru computerele personale au apărut în 1980 pentru computerele CP / M și TRS-80 , urmate de pachetele de aplicații pentru computerele IBM la debutul acestora din urmă ( anul următor ). Dezvoltatori precum Maria Mariani, Soft-Art, Microlytics, Proximity, Circle Noetics și Reference Software au introdus rapid pe piață (în expansiune rapidă) pachete OEM sau produse pentru utilizatorul final, în special pentru platforma PC, dar nu a lipsit Versiunile Apple Macintosh ., VAX și Unix . Pe PC-uri, aceste verificări ortografice erau programe separate, iar multe puteau fi pornite în modul Terminate and Stay Resident [6] [7] din pachetele de procesare de text de pe mașinile cu memorie suficientă.

Cu toate acestea, piața pachetelor independente a fost de scurtă durată, deoarece la mijlocul anilor 1980 dezvoltatorii de pachete de procesare a textelor de succes - precum WordStar și WordPerfect - au încorporat controlere în pachetele lor, licențiate în mare parte de companiile cu același nume, pe care în curând le-au ar extinde abilitatea de a analiza și corecta limba engleză numai la alte limbi europene și apoi chiar la limbile afro-asiatice . Cu toate acestea, acest lucru a necesitat din ce în ce mai multă sofisticare în rutinele morfologice ale software - ului, în special pentru limbile cu flexiune complexă precum maghiara și finlanda . Deși dimensiunea pieței de procesare a textelor într-o țară precum Islanda nu a justificat, în termeni pur economici, investiția necesară implementării localizării corectorului specific, totuși companii precum WordPerfect au încercat să propună numărul maxim de localizări pentru fiecare limbă , în special în omagiu adus strategiei sale globale de marketing .

Ulterior, verificarea ortografică a încetat să mai fie o prerogativă a procesorelor de text, deoarece browserul Firefox (începând cu versiunea 2.0) oferă asistență ortografică pentru conținutul web „auto-produs”, ca în scrierea Wikitext , [8] a multor mesaje web și site-uri de rețele sociale . Browserul Konqueror și Opera , clientul de e - mail KMail și clientul de mesagerie instant Pidgin oferă suport ortografic, încercând în mod deschis GNU Aspell ca „motor”. [9] MacOS are acum o verificare ortografică în aproape fiecare aplicație pachet , iar multe terțe părți beneficiază și de aceasta. În special, Safari , Mail și iChat (pentru a numi doar cele mai faimoase aplicații ale platformei Apple) au verificare ortografică.

Aspecte ergonomice

Primele verificări ortografice erau mai degrabă „dame” decât „dame”. Nu au oferit sugestii cu privire la modul de corectare a erorilor de scriere. Au fost bine pentru greșelile de tipar în sens strict, dar nu atât de bune pentru erorile logice sau fonetice . (În limba engleză, având în vedere divergența sa clară între ortografie și pronunție, homofonele sunt un fenomen deosebit de insidios.) Provocarea cu care s-au confruntat dezvoltatorii a fost tocmai în dificultatea de a oferi sugestii utile pentru erori de ortografie. Calea a trecut prin reducerea cuvintelor la o formă scheletică și prin utilizarea algoritmilor de potrivire a modelelor . [10]

Ar putea părea logic că, dacă dicționarele de ortografie ar fi construite cu maxima „cu cât mai mult, cu atât mai bine”, cuvintele exacte nu ar fi marcate în mod neașteptat greșite. Cu toate acestea, în practică, o măsură ideală pentru engleză pare să fie în jur de 90.000 de intrări. [Nota 3] Dacă acest prag este depășit, erorile de tastare vor fi mai ușor ignorate, deoarece sunt confundate cu cuvintele existente, dar de utilizare puțin probabilă, în contextul mai predictibil din punct de vedere statistic. De exemplu, un lingvist poate stabili cu ajutorul lingvisticii corpusului [11] că cuvântul „ baht ” este mai frecvent o greșeală de tipar pentru baie (baie) sau liliac (liliac sau chiar liliac), mai degrabă decât o referință intenționată la moneda thailandeză . Având în vedere cele de mai sus, este, în general, de preferat ca puțini oameni care scriu despre moneda thailandeză să fie puțin dezavantajați, mai degrabă decât să permită ignorarea erorilor de tipare (foarte frecvente) ale celor care fac referire la cele două cuvinte recurente ut supra.

Primii verificatori ortografici pentru MS-DOS au fost folosiți în principal în modul „corector” din cadrul pachetelor de procesare de text. După pregătirea unui document, utilizatorul a parcurs textul prin verificatorul ortografic, căutând greșeli de scriere. Mai târziu, însă, procesarea în serie a fost oferită sub formă de pachete precum efemerul coautor [12] al Oracle . Acest lucru a permis utilizatorului să revizuiască rezultatele după ce documentul a fost procesat și să corecteze numai cuvintele pe care utilizatorul le-a recunoscut ca fiind incorecte. Pe măsură ce resursele de memorie și procesare au devenit abundente, verificarea ortografică ar putea fi efectuată în fundal și interactiv , ca în cazul Software-ului sectorului cu 1987 Spellbound, [13] și Microsoft Word începând cu Word 95.

În ultimii ani, corectorii au devenit din ce în ce mai sofisticați; unii sunt capabili să recunoască erori gramaticale simple. În orice caz, chiar și în cea mai favorabilă dintre ipoteze, rareori reușesc să „capteze” toate erorile dintr-un text (ca în ipoteza omonimiei , de exemplu) și în plus, marchează neologismele și anumite cuvinte străine ca erori.

Verificați ortografia în alte limbi decât engleza

O particularitate a englezei este că cuvintele folosite în scrierea formală au în mare parte o singură ortografie, care poate fi găsită într-un dicționar tipic, cu excepția unui jargon sau modificate. Cu toate acestea, în multe limbi, este comun să combinați cuvintele în moduri noi. În germană , cuvintele compuse sunt adesea inventate prin combinarea denumirilor existente. Unele scripturi nu separă exact un cuvânt de altul, necesitând algoritmi specifici. Orice astfel de limbă prezintă provocări formidabile corectorilor de limbi care nu sunt englezești.

Corectori sensibili la context

Pentru a depăși limitele verificării ortografice tradiționale, au fost efectuate studii care vizează dezvoltarea algoritmilor capabili să recunoască un cuvânt scris greșit, chiar dacă acesta este prezent în vocabular, prin analiza contextului reprezentat de cuvintele din jur. În plus față de limitarea posibilității existenței unor neînțelegeri, aceste mecanisme IT ar trebui să conțină dezavantajul ( deja specificat ) care tinde să însoțească extinderea dicționarelor, permițând totuși o recunoaștere generală a cuvintelor scrise greșit în virtutea coerenței (sau inconsecvenței) constatată cu contextul. Cel mai frecvent exemplu de erori descoperite cu trucurile în cauză este dat de homofoane , cum ar fi cuvintele formatate cu caractere aldine în următoarea propoziție:

Venirea lor prea mare , dacă rola ei.

Propoziția, scrisă așa, nu are sens. Ortografia corectă ar fi fost: vin să vadă dacă este reală . („[Ei] vin să vadă dacă este adevărat”). Cele două propoziții sunt pronunțate la fel în engleză, dar doar a doua are sens, chiar dacă toate cuvintele homofonice ale primei sunt existente și corecte, dar nepotrivite pentru contextul specific.

Un exemplu de astfel de algoritmi este opera lui Andrew Golding și Dan Roth, și anume algoritmul de corecție a ortografiei bazat pe Winnow [14] , publicat în 1999 , capabil să recunoască aproximativ 96% din erorile „sensibile la context”, pe lângă erorile normale. ortografice.

Cercetările teoretice au găsit deja aplicații comerciale: un corector sensibil la context apare în Microsoft Office 2007 [15] [16] în Google Wave , [17] în Ginger Software [18] și în Ghotit Dyslexia Software [19] un corector sensibil la context optimizat pentru a ajuta persoanele dislexice .

Critici

Unii critici ai tehnologiei și computerelor au emis ipoteza unei legături între utilizarea verificatorilor ortografici și tendința către o scădere generală a competenței în scris, citire și exprimare verbală. Aceștia presupun că confortul oferit de computere a făcut ca masele să devină leneșe, până la punctul în care mulți ar fi abdicat din recitirea scrierilor lor, înlocuită de o simplă „glisare” cu verificatorul ortografic. Susținătorii informaticii susțin, totuși, că aceste inovații pot beneficia în principal societatea, deoarece facilitează publicul larg să scrie și să învețe noi limbi. Tehnofilii susțin că abilitățile pierdute ca urmare a introducerii corectorilor automați au fost compensate de aptitudini și mai bune, cum ar fi instrumentele de cercetare care sunt superioare în ceea ce privește eficacitatea și viteza. Alți susținători ai tehnologiei susțin că abilitățile de mai sus nu au fost pierdute de cei care le folosesc în mod regulat, cum ar fi autorii, criticii și profesioniștii în limbi străine. [20]

Un bun exemplu al problemelor care pot apărea dintr-o dependență oarbă și completă de abilitățile corectorilor automatici este Poemul de verificare a ortografiei [21] , creat inițial de Jerrold H. Zar în 1991 , cu ajutorul lui Mark Eckman. [22] Poezia originală consta din 225 de cuvinte, dintre care 123 au fost utilizate incorect în mod intenționat. Acesta este un text impecabil pentru majoritatea verificatorilor ortografici, deși majoritatea vorbitorilor de limba engleză ar putea spune dintr-o privire că este plin de erori.

Notă

Adnotări
  1. ^ Pentru comoditate, expresiile „verificare”, „verificator” și „verificator ortografic” sunt considerate echivalente în această intrare.
  2. ^ În acest articol, termenii tehnici sunt raportați, după caz, cu referințele lor în limba engleză.
  3. ^ Oxford English Dictionary din noiembrie 2005 enumeră peste 600.000 de intrări. Al treilea dicționar internațional nou al lui Webster se ridică astăzi la 475.000, indicând faptul că numărul real este mult mai mare. S-a estimat că adaugă 25.000 pe an. (Kister, Ken. „Dicționare definite”. Library Journal, 15.06.92, Vol. 117 Ediția 11, p43, 4p, 2bw)
Surse
  1. ^ Chop Suey (Snopes.com)
  2. ^ Un algoritm morfologic rapid cu ghicirea cuvintelor necunoscute induse de un dicționar pentru un motor de căutare web , articol de Ilya Segalovich (Company.yandex.ru)
  3. ^ Specificație pentru modelele de limbaj stochastic (N-Gram) . Un n-gram este o subsecvență de n obiecte ale unei secvențe date.
  4. ^ RUN-TIME STORAGE, Chuen-Liang Chen (Departamentul de Informatică și Ingineria Informației Universitatea Națională din Taiwan)
  5. ^ Facultate și personal: Centrul pentru limbă, educație și dezvoltare Arhivat 5 februarie 2009 la Internet Archive .
  6. ^ Un exemplu al primei ore a unui program care funcționează în modul "TSR"
  7. ^ Ce este Terminate și rămâneți rezident? (Universitatea Indiana - Servicii de Tehnologia Informației Universitare) . Cu alte cuvinte, modul TSR menționat aici a constituit, în contextul DOS , un expedient eficient pentru a simula o capacitate eficientă de multitasking , cum ar fi cea care ar deveni comună pe computerele din vremurile mai recente.
  8. ^ Ceea ce vedeți este Wiki - WYSIWYG Questioning in the Internet Age Depus la 3 octombrie 2008 în Internet Archive .
  9. ^ Site-ul oficial
  10. ^ O introducere blândă la Haskell, versiunea 98 (Haskell.org) . În informatică, potrivirea modelelor este operația de verificare a prezenței componentelor unui model dat.
  11. ^ Introducere în lingvistică generală (Bmanuel.org) . Este studiul limbajului așa cum rezultă din eșantioane de text (corpuri) din „lumea reală”.
  12. ^ Mina de aur lingvistică Oracle (Lim.nl) , pe lim.nl. Adus la 31 august 2008 (arhivat din original la 15 iunie 2008) .
  13. ^ Sector Software - Istoric (Sectorsoftware.demon.co.uk) , la sectorsoftware.demon.co.uk . Adus la 31 august 2008 (arhivat din original la 11 mai 2008) .
  14. ^ O abordare bazată pe Winnow a corecției ortografice sensibile la context , în „ Învățarea automată ”, februarie 1999, volumul 34, n. 1-3, pp. 107-130
  15. ^ CorrecteurOrthographiqueOffice: Ortografie contextuală în sistemul Microsoft Office 2007
  16. ^ Walt Mossberg, Review , Wall Street Journal, 4 ianuarie 2007. Accesat la 24 septembrie 2010 .
  17. ^ Sistem de operare Google , la googlesystem.blogspot.com . Adus la 25 septembrie 2010 . Google's Context-Sensitive Spell Checker , 29 mai 2009.
  18. ^ Ginger Software - Gramatica și verificatorul ortografic mondial , pe Gingersoftware.com , Gingersoftware.com.com. Adus pe 19 iunie 2011 .
  19. ^ Ghotit Dyslexia Software pentru persoanele cu dizabilități de învățare , pe Ghotit.com . Adus la 25 septembrie 2010 .
  20. ^ Baase, Sara. Un dar de foc: probleme sociale, juridice și etice pentru calculatoare și internet. 3. Upper Saddle River: Prentice Hall, 2007. Pagini 357-358. ISBN 0-13-600848-8 .
  21. ^ Text integral (Paulhensel.org)
  22. ^ The Spell Checker Poem (About.com)

Elemente conexe

Alte proiecte

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT