Recunoaștere optică a caracterelor

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Notă despre dezambiguizare.svg Dezambiguizare - "Recunoașterea optică a caracterelor" se referă aici. Dacă sunteți în căutarea blocului Unicode cu același nume, consultați Recunoașterea optică a caracterelor (Unicode) .
Exemplu de text recunoscut cu software-ul OCR.

Sistemele optice de recunoaștere a caracterelor , numite și OCR (din limba engleză optică de recunoaștere a caracterelor ), sunt programe dedicate detectării caracterelor conținute într-un document și transferului lor în text digital care poate fi citit de o mașină. Conversia se face de obicei printr-un scaner . Textul poate fi convertit în format ASCII simplu, Unicode sau, în cazul sistemelor mai avansate, într-un format care conține și paginarea documentului în sine. Utilizatorul poate modifica rezultatul obținut cu un editor de text normal.

OCR este un domeniu de cercetare al inteligenței artificiale, viziunii artificiale și recunoașterii modelelor , legate de recunoașterea imaginii.

Istorie

Optofon de Fournier d'Albe.
One-Eyed Machine Stenographer de John B. Flowers.

Pionierul tehnicilor de recunoaștere a personajelor tipărite a fost fizicianul irlandez Edmund Edward Fournier d'Albe care, în 1912 , a început experimente în acest sens. Prin exploatarea proprietăților fotoelectrice ale unor compuși, cum ar fi seleniul, a construit o mașină, numită optofon , capabilă să detecteze negrul unei amprente și să o transforme într-un sunet care ar putea fi interpretat de o persoană nevăzătoare [1] . Odată cu descoperirea celulelor de seleniu au existat mulți inventatori și oameni de știință care s-au aventurat în domeniul recunoașterii optice a caracterelor, precum italianul Ciro Codelupi , profesor în științe fizico-matematice, care a brevetat o „mașină de citit” capabilă să transforme senzațiile luminoase în senzații tactile [2] .

În iunie 1916 , revista științifică italiană „ Știința pentru toți ” a publicat un articol în care descria o mașină, probabil, capabilă să citească și să tasteze un text. Știm doar că a fost un brevet al unui tânăr inginer american , John B. Flowers, dar „ mașina care citește și scrie ” se baza pe un principiu simplu și ingenios; a constat în observația că fiecare literă a alfabetului are în forma sa un punct caracteristic care nu este confundat cu nicio altă literă. Deci, prin suprapunerea tuturor literelor una peste alta, a fost întotdeauna posibil să se găsească cel puțin un punct care să distingă fiecare dintre litere. Utilitatea invenției, deși foarte îndrăzneață, era deja îndoielnică la vremea respectivă din cauza unor probleme precum diferitele dimensiuni și stiluri ale fonturilor [3] .

Începând din 1943, pe o perioadă de aproximativ 40 de ani, șase companii din SUA au lucrat la dezvoltarea „mașinilor de citit” pentru nevăzători, cu diferite tipuri de sprijin al guvernului federal. Perchezițiile au fost efectuate în beneficiul veteranilor și al civililor nevăzători. Laboratorul RCA a dezvoltat un optofon modernizat utilizând fototuburi și supape numite A-2 Reader. Între timp, sub patronajul VV - Administrația Veteranilor, laboratoarele Battelle, Haskins și Mauch au fost însărcinate cu reproiectarea cititorului A-2 cu fotodioduri și tranzistori, dezvoltarea unui dispozitiv de sinteză a vorbirii și dezvoltarea unui dispozitiv intermediar capabil să convertească litere. sunete vocale. Rezultatul a fost dezvoltarea unei serii de prototipuri precum Optofono by Battelle Memorial Institute, FM-Slit System de către Haskins Laboratory și Cognodictor , Visotactor , Visotoner și Stereotoner de către Mauch Laboratory.

În anii șaptezeci, Telesensory Systems Inc. a creat un dispozitiv sofisticat și practic numit Optacon, care putea reproduce forma oricărui caracter într-un font ridicat. În aceeași perioadă a fost dezvoltat aparatul de citit Kurzweil Computer Products, primul sistem bazat pe un software de recunoaștere a caracterelor numit omni-font : un program capabil să recunoască textul scris cu orice tip de caracter [4] .

Pictogramă lupă mgx2.svg Același subiect în detaliu: Optofono .

În 1974, Ray Kurzweil a dezvoltat apoi un software OCR omni-font, capabil să recunoască textul tipărit în practic orice font (Kurzweil este adesea considerat inventatorul OCR omni-font, dar în realitate sistemul era deja utilizat, de la sfârșitul anilor șaizeci, de către companii, inclusiv CompuScan [5] ).

Sistemul poștal al Statelor Unite ale Americii folosește sisteme OCR din 1965 . Nevoia de a recunoaște destinațiile mesajelor și de a le organiza automat a determinat cercetarea în sectorul OCR. Sistemele OCR citesc codul poștal scris pe litere și imprimă un cod de bare pe mesajele care reprezintă destinația scrisorii. Pentru a preveni codul de bare să deranjeze citirea adresei și astfel să complice munca poștașilor, codul de bare este tipărit cu o cerneală care este vizibilă numai atunci când este iluminată de o lumină cu lungimea de undă ultravioletă . Codul de bare este utilizat de mașinile de sortat pentru a direcționa corespondența către oficiul poștal corespunzător, care se va ocupa de livrarea acestuia către destinatar. O metodă similară este utilizată de Oficiul poștal italian pentru gestionarea corespondenței.

Citirea optică vs. recunoașterea digitală a caracterelor

Inițial, distincțiile dintre citirea optică a caracterelor (folosind tehnici optice precum oglinzi și lentile) și recunoașterea digitală a caracterelor (folosind algoritmi de separare și analiză a textului) erau mari și, de fapt, erau considerate câmpuri separate. Din moment ce nu a mai rămas aproape nicio aplicație legată de tehnicile de citire optică, termenul OCR a fost extins, ceea ce indică acum recunoașterea caracterelor digitale indiferent de sursa imaginilor.

Tehnică

Instruire

Sistemele OCR necesită o fază de „antrenament” pentru a funcționa corect. În această fază, sistemul este prevăzut cu exemple de imagini cu textul corespunzător în format ASCII sau similar, astfel încât algoritmii să poată fi calibrați pe textul pe care îl vor analiza de obicei. Această instruire este esențială dacă avem în vedere că elementele care analizează textul nu sunt altceva decât rețele neuronale și, ca atare, necesită pregătire pentru a funcționa. Cel mai recent software OCR folosește algoritmi capabili să recunoască contururile și să reconstruiască formatarea paginii în plus față de text.

OCR de caractere tipărite

Recunoașterea exactă a unui text scris în alfabetul latin digital (care poate fi un text scris după tip și scanat ulterior) este acum considerată o problemă rezolvată, cu rate de recunoaștere mai mari de 99%. Recunoașterea scrisului cu mână liberă și recunoașterea alfabetelor nelatine este o problemă care nu a găsit încă soluții cu adevărat satisfăcătoare și face încă obiectul unor studii și cercetări.

OCR scris cu mână liberă

Sistemele de recunoaștere a scrisului de mână au avut un anumit succes comercial atunci când au fost integrate în produse precum PDA-uri sau laptopuri. Precursorul acestor dispozitive a fost dispozitivul Newton fabricat de Apple . Algoritmii acestor dispozitive funcționează în mod adecvat, deoarece necesită ca utilizatorul să învețe să scrie litere urmând un anumit model predefinit pentru a minimiza posibilele cazuri de ambiguitate. Aceste strategii nu pot fi aplicate în documentele scrise pe hârtie: de fapt, recunoașterea cu mâna liberă este o problemă care este departe de a fi rezolvată. Ratele de precizie de 80% -90% pentru fonturile scrise de mână îngrijite și îngrijite pot fi atinse relativ ușor. Dar o rată de precizie atât de scăzută produce câteva zeci de erori pe pagină, ceea ce face ca tehnicile de scriere cu mâna liberă să fie puțin folositoare în majoritatea cazurilor.

OCR de cursiv

Recunoașterea textului scris cu caractere italice este un câmp de căutare activă, iar acuratețea recunoașterii este chiar mai mică decât cea a unui text scris de mână: niveluri mai ridicate de acuratețe, de fapt, nu vor fi posibile până când nu sunt utilizate. Informații suplimentare derivate dintr-un context sau analiza gramaticală a textului.

În primul rând, recunoașterea cuvintelor întregi dintr-un dicționar este mai ușoară decât încercarea de a analiza diferitele personaje în mod individual: în acest fel va fi posibil să se excludă multe dintre acele ambiguități legate de recunoaștere. Cunoașterea contextului scrierii permite eliminarea altor ambiguități: un document care vorbește despre istorie, de exemplu, va conține probabil multe date; atunci o linie verticală urmată de un simbol 9 ne-ar permite să presupunem că linia este 1 în loc de litere mici sau majuscule.

În plus, cunoașterea gramaticii limbii analizate poate ajuta la o mai bună determinare a faptului dacă un cuvânt este un verb sau un substantiv, permițând o mai mare acuratețe. Cu toate acestea, caracterele cursive ale multor litere nu conțin suficiente informații pentru a efectua o analiză corectă (în realitate precizia cu greu poate depăși 98%).

Domenii de cercetare

O problemă deosebit de dificilă pentru computere și oameni este aceea de a recunoaște documentele deteriorate care conțin multe nume sau informații care nu pot fi deduse din context. Paginile pot fi deteriorate de vârstă, apă sau incendiu, iar numele pot fi depășite sau pot conține greșeli de ortografie. Tehnicile de procesare a imaginilor pe computer pot ajuta oamenii să citească texte extrem de vechi, cum ar fi documentele lăsate de Arhimede sau Pergăturile Mării Moarte . Utilizarea computerului ca suport pentru om și invers este un domeniu de cercetare foarte interesant și potențial prolific.

Recunoașterea personajelor a fost un domeniu supus unor cercetări intense de la sfârșitul anilor 1950 . A fost percepută inițial ca o problemă simplă, dar în timp s-a dovedit a fi o problemă mult mai complexă. Va dura câteva decenii de studiu înainte ca computerul să poată recunoaște un text cu aceeași precizie ca o ființă umană, dacă acest lucru este posibil.

MICR

O aplicație în care precizia și viteza de recunoaștere a sistemelor OCR pe caractere depășesc cea a oamenilor este cea a MICR (Magnetic Ink Character Recognition), unde precizia este foarte mare și erorile variază în jurul unei erori detectate în 20.000 - 30.000 de verificări. Această precizie se obține datorită utilizării cernelurilor speciale care conțin material magnetic (oxid de fier).

Notă

  1. ^ EE Fournier, Optofonul de citire de tip, surplusul nostru, navele noastre și nevoia Europei și multe altele ( PDF ), în Scientific American , vol. 123, n. 19, New York, Scientific American Publishing Co., 6 noiembrie 1920, pp. 463-465. Adus la 6 ianuarie 2014 (arhivat din original la 26 aprilie 2012) .
  2. ^ Mașină de citit pentru nevăzători ( PDF ), în Știința pentru toți , Anul XXVIII, n. 2, Milano, Editura Sozogno, 15 ianuarie 1921, p. 20.
  3. ^ Mașina care citește și scrie ( PDF ), în Știința pentru toți , Anul XXIII, n. 11, Milano, Editura Sozogno, 1 iunie 1916, p. 166.
  4. ^ (EN) J. Scott Hauger, Reading Machines for the Blind (PDF), Blacksburg, Virginia, Facultatea Virginia Tech, aprilie 1995, pp. I-II, 11-13. Adus la 6 ianuarie 2014 (arhivat din original la 28 decembrie 2013) .
  5. ^ Revista de prelucrare a datelor , vol. 12, 1970, p. 46.

Elemente conexe

Alte proiecte

linkuri externe

  • Proiectul LAperLA OCR pentru recuperarea textelor într-o stare proastă de conservare a Institutului de Lingvistică Computațională
  • Exemplu de bioemulare a OCR în codul Visual Basic
  • MoreData Un program gratuit de recunoaștere a caracterelor optice care acceptă limba italiană pentru platforma Windows - motorul utilizat este tesseract (opensource by google, un proiect dezvoltat inițial de cercetarea și dezvoltarea HP)
  • MoreDataFast Evoluția simplificată a MoreData și multithreading pentru o viteză mai mare pe grupuri de imagini
  • FreeOCR Versiune precompilată a motorului Tesseract dezvoltat de Google.
Controlul autorității LCCN (EN) sh85095140 · GND (DE) 4310936-6
Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT