Unicode

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare
Unicode
Codificări
UCS
Cartografiere
Text bidirecțional
BOM
Unificarea Han
Unicode și HTML

Unicode este un sistem de codificare care atribuie un număr unic fiecărui caracter utilizat pentru scrierea textelor, independent de limbă , platforma computerului și programul utilizat.

Acesta a fost compilat, actualizat și promovat de Unicode Consortium [1] , un consorțiu internațional de companii interesate de interoperabilitate în procesarea computerizată a textelor în diferite limbi.

Istorie

Origine și dezvoltare Unicode a fost creat pentru a aborda limitările schemelor tradiționale de codificare a caracterelor. De exemplu, deși caracterele definite în ISO 8859-1 sunt utilizate pe scară largă în diferite țări, incompatibilitățile apar adesea între diferite țări. Multe metode tradiționale de codificare au o problemă comună, care este aceea că permit computerelor să gestioneze un mediu bilingv (de obicei folosind litere latine și limbile lor materne), dar nu pot suporta un mediu multilingv în același timp (referindu-se la o situație în care mai multe limbi Poate fi amestecat în același timp).

Codificarea Unicode conține caractere cu diferite stiluri de scriere, cum ar fi „ɑ / a”, „强 / 强”, „acasă / familie / 戸”. Cu toate acestea, au existat controverse cu privire la identificarea polimorfismului în caractere chinezești. Pentru detalii, consultați ideogramele unificate ale Chinei, Japoniei și Coreei.

În ceea ce privește procesarea textului, Unicode definește un cod unic (adică un număr întreg) pentru fiecare caracter, mai degrabă decât un glif. Cu alte cuvinte, Unicode procesează caractere în mod abstract (adică numere) și lasă opera deducerii vizuale (cum ar fi dimensiunea fontului, forma aspectului, forma fontului, stilul etc.) altor software-uri, cum ar fi web de navigare SAU procesor de text.

În prezent, aproape toate sistemele informatice acceptă alfabetul latin de bază și fiecare acceptă mai multe alte metode de codificare. Pentru a fi compatibili cu acestea, primele 256 de caractere Unicode sunt rezervate pentru caracterele definite de ISO 8859-1, astfel încât conversia limbilor europene occidentale existente nu necesită o atenție specială; și un număr mare din aceleași caractere sunt repetate în diferite În codul de caractere, vechea metodă de codare complicată poate fi convertită direct între codificarea Unicode fără a pierde nicio informație. De exemplu, secțiunea de format complet conține formatul complet al literelor majore latine. În glifele chineză, japoneză și coreeană, aceste caractere sunt prezentate în formă completă în loc de forma semi-comună. , Care are un efect major asupra textului vertical și a textului monospațiat.

Când reprezintă un caracter Unicode, acesta este de obicei reprezentat de „U +” urmat de un set de numere hexazecimale. În planul de bază multilingv: (plan de bază multilingv în limba engleză toate caracterele. BMP prescurtat, cunoscut și sub denumirea de "plan zero", plan 0) în interior, folosește patru cifre (adică 2 octeți, pentru un total de 16 biți, ca U + 4AE0, care suportă în total peste 60.000 de caractere); caracterele din afara planului zero trebuie să utilizeze cinci sau șase numere. Versiunea mai veche a standardului Unicode folosește metode de marcare similare, dar cu unele diferențe minore: în Unicode 3.0 se folosește „U-” urmat de opt cifre, iar „U +” trebuie să fie urmat de patru cifre.

Structura codului

Unicode a fost gândit inițial ca o codificare pe 16 biți (patru cifre hexazecimale) care a dat capacitatea de a codifica 65.535 (2 ^ 16 -1) caractere. Se credea că acest lucru este suficient pentru a reprezenta personajele folosite în toate limbile scrise ale lumii. Acum, însă, standardul Unicode, care tinde să fie perfect aliniat cu standardul ISO / IEC 10646 , prevede o codificare de până la 21 de biți și acceptă un repertoriu de coduri numerice care pot reprezenta aproximativ un milion de caractere. Acest lucru pare suficient pentru a acoperi și nevoile de codificare ale scrierilor patrimoniului istoric al umanității, în diferite limbi și în diferitele sisteme de semne utilizate.

Începând cu 2009, doar o mică parte din această disponibilitate a codurilor este alocată. De fapt, 17 „planuri” („planuri”, în engleză) sunt prevăzute pentru dezvoltarea codurilor, de la 00 la 10 hex , fiecare cu 65.536 poziții (patru cifre hexazecimale), dar numai primele trei și ultimele trei etaje sunt atribuite în prezent [2] , iar dintre acestea prima, numită și BMP, este practic suficientă pentru a acoperi toate limbile cele mai utilizate.

În termeni concreți, acest repertoriu de coduri numerice este serializat utilizând diferite scheme de recodare, care permit utilizarea unor coduri mai compacte pentru cele mai frecvent utilizate caractere. Se preconizează utilizarea codificărilor unităților de 8 biți ( octeți ), 16 biți ( cuvânt ) și 32 biți ( cuvânt dublu ), descrise respectiv ca UTF-8 , UTF-16 și UTF-32 .

Podea Interval Descriere Abreviere
0 000000-00FFFF Plan de bază multilingv BMP
1 010000-01FFFF Avion multilingv suplimentar SMP
2 020000-02FFFF Planul ideografic suplimentar ÎNGHIŢITURĂ
3 030000-03FFFF Desemnat preliminar ca plan ideografic terțiar (TIP), dar nu i-au fost atribuite caractere în acel moment [3] . BACSIS
4-13 040000-0DFFFF În prezent nu este atribuit
14 0E0000-0EFFFF Avion suplimentar special SSP
15 0F0000-0FFFFF Zona de utilizare privată suplimentară-A
16 100000-10FFFF Zona de utilizare privată suplimentară-B

Plan de bază multilingv (BMP)

Planul 0, Planul multilingv de bază (lit. „ Planul multilingv de bază ”) sau BMP, este cel în care au fost atribuite majoritatea personajelor. BMP conține caractere pentru aproape toate limbile moderne și un număr mare de caractere speciale. Majoritatea codurilor de caractere atribuite în BMP au fost utilizate pentru a codifica codurile chinezești, japoneze și coreene ( CJK ).

Sisteme de scriere reprezentate

Unicode include aproape toate sistemele de scriere utilizate în prezent, inclusiv:

În plus față de cele menționate, sunt disponibile glifele aparținând multor limbi moarte:

În cele din urmă, Unicode include, de asemenea, multe simboluri, cum ar fi cele matematice și muzicale .

Versiunea istorică

În ultimii ani, o nouă versiune a fost lansată practic în fiecare an, după o medie de peste 1.000 de cereri de modificări pe an.

  • DP 10646 1989 (Proiect de propunere a standardului ISO 10646, independent de Unicode)
  • DIS-1 10646 1990 (Primul proiect al ISO 10646, independent de Unicode)
  • Unicode 1.0.0 octombrie 1991
  • Unicode 1.0. 1 iunie 1992 (Modificat pentru o posibilă aliniere cu ISO 10646)
  • Unicode 1.1.0 iunie 1993 (Unicode și ISO unificate pentru prima dată: cele două coduri sunt identice cu standardul ISO 10646-1: 1993)
  • Unicode 1.1.5 iunie 1995
  • Unicode 2.0.0 iulie 1996 (aliniat la standardul ISO 10646 extins)
  • Unicode 2.1.2 mai 1998 (printre altele, introducerea caracterului euro : €)
  • Unicode 2.1.5 august 1998
  • Unicode 2.1.8 decembrie 1998
  • Unicode 2.1.9 aprilie 1999
  • Unicode 3.0.0 septembrie 1999 (aliniat la standardul ISO 10646-1: 2000)
  • Unicode 3.0.1 august 2000
  • Unicode 3.1.0 martie 2001 (aliniat la standardul ISO 10646-2: 2001)
  • Unicode 3.1.1 august 2001
  • Unicode 3.2.0 martie 2002
  • Unicode 4.0.0 aprilie 2003 (aliniat la standardul ISO 10646: 2003)
  • Unicode 4.0.1 martie 2004
  • Unicode 4.1.0 31 martie 2005
  • Unicode 5.0.0 14 iulie 2006 peste 99.000 de glife [4]
  • Unicode 5.1.0 4 aprilie 2008
  • Unicode 5.2.0 1 octombrie 2009
  • Unicode 6.0.0 10 octombrie 2010
  • Unicode 6.1.0 26 ianuarie 2012
  • Unicode 6.2.0 26 septembrie 2012
  • Unicode 6.3.0 30 septembrie 2013
  • Unicode 7.0.0 16 iunie 2014
  • Unicode 8.0.0 17 iunie 2015
  • Unicode 9.0.0 21 iunie 2016
  • Unicode 10.0.0 20 iunie 2017
  • Unicode 11.0.0 5 iunie 2018
  • Unicode 12.0.0 5 martie 2019

Notă

  1. ^(RO) Pagina oficială a Unicode Consortium
  2. ^ Planuri atribuite (2009):
    1 00-BMP Plan de bază multilingv
    2 01-SMP plan suplimentar multilingv
    3 02-SIP plan ideografic suplimentar
    15 0E-SSP plan suplimentar în scopuri speciale
    16 0F-PUA rezervat zonelor de uz privat
    17 10-PUA rezervat zonelor de uz privat
  3. ^ Foaie de parcurs către TIP
  4. ^ Unicode Consortium caractere Unicode Database 5.0 Lansat Filed pe 05 august 2011 la Internet Archive . , 18 iulie 2006

Elemente conexe

Alte proiecte

linkuri externe

Controlul autorității LCCN (EN) sh98000843 · GND (DE) 4343497-6
Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT