ISO 8859
Standardul ISO 8859 , mai precis ISO / IEC 8859 , este un standard comun ISO și IEC pentru codificarea caracterelor pe 8 biți pentru procesarea textului pe computer. Standardul este împărțit în părți numerotate publicate separat (cum ar fi ISO / IEC 8859-1 , ISO / IEC 8859-2 etc.), fiecare dintre acestea putând fi denumită în mod informal ca un standard autonom. În prezent există 15 părți definite, cu excepția ISO / IEC 8859-12, care a fost abandonată.
Părțile 1, 2, 3 și 4 din ISO / IEC 8859 sunt incluse în standardul internațional ECMA ECMA-94 .
Introducere
Deși secvența de biți a celor 95 de caractere ASCII tipărite (toate literele occidentale neaccentuate) sunt suficiente pentru schimbul de informații folosind limba engleză , multe alte limbi care folosesc alfabetul latin au nevoie de simboluri suplimentare care nu sunt incluse în ASCII, cum ar fi ß ( germana ), ñ ( spaniolă ), å ( suedeză și alte limbi scandinave ) sau litere cu accent italian ( à , è , é , ì , ò , ù ).
ISO 8859 a încercat să remedieze această problemă utilizând cel de-al optulea bit al octetului, permițând definirea altor 128 de caractere. Acest bit a fost folosit anterior pentru informații de protocol de transmitere a datelor sau nu a fost utilizat. Cu toate acestea, au fost necesare mai multe caractere decât s-ar putea încadra în codificarea pe 8 biți, astfel încât au fost dezvoltate mai multe hărți de caractere, dintre care aproximativ zece doar pentru a acoperi limbile latine.
Codurile ISO 8859- n conțin numai caractere tipărite și sunt destinate a fi utilizate împreună cu caracterele de control mapate la valori neatribuite. Multe codificări înregistrate cu IANA includ codurile de control ISO 646 (caractere de control mapate la valorile de la 0 la 31 inclusiv) și codurile de control ale standardului ISO C1 (caractere de control mapate la valorile 127 la 159 inclusiv) ale standardului ISO. 6429 , dând naștere la hărți pe 8 biți în care sunt atribuite toate sau aproape 256 de valori posibile.
Identificatorul MIME preferat pentru aceste codificări este ISO-8859- n sau, alternativ, numele lor canonic. ISO 8859- n și ISO-8859- n scripturile sunt frecvent utilizate interschimbabil. Identificatorul ISO-8859-11 este singurul din acest set care nu este înregistrat la IANA , probabil datorită corespondenței sale aproape totale cu standardul TIS 620 preexistent, al cărui nume este înregistrat în schimb.
Personaje
Standardul ISO 8859 este conceput pentru schimbul fiabil de informații, nu pentru tipografie ; standardul omite simbolurile necesare pentru tipărirea de calitate, cum ar fi ligaturi opționale, ghilimele , liniuțe și alte caractere. Ca urmare, sistemele de imprimare profesionale folosesc adesea extensii proprietare (și incompatibile reciproc) adăugate la ASCII și la standardul ISO 8859 sau Unicode .
În principiu, au fost incluse doar caracterele și simbolurile care au făcut deja parte dintr-un set de caractere utilizat pe scară largă și prezente pe diferitele versiuni naționale ale tastaturilor . Prin urmare, au fost incluse ghilimelele majuscule « și » , utilizate de unele limbi europene, dar nu și ghilimele duble „ și ” folosite de engleză și alte limbi. Insultele œ și Œ , transcrise în mod obișnuit ca „oe”, au fost excluse din franceză. De asemenea, a fost exclusă litera Ÿ, necesară pentru scrierea textului cu majusculă. Cu toate acestea, aceste caractere au fost ulterior incluse, împreună cu simbolul euro „€”, prin codificarea ISO 8859-15 . În mod similar, caracterele olandeze „ij” și „IJ” au fost excluse deoarece sunt de obicei transcrise separat ca „ij”. Literele „Ș / ș” și „Ț / ț” (litere cu virgulă ) au fost inițial excluse din consorțiul românesc , unificat de Consorțiul Unicode cu literele „Ș / ș” și „Ț / ț” (litere cu cedilă ) luând în considerare glifele cu variante simple de virgulă ale celor cu cedilă. Literele cu virgulă au fost ulterior introduse explicit în standardul Unicode și inserate în codificarea ISO 8859-16 .
Majoritatea codificărilor ISO 8859 oferă diacriticele necesare pentru transcrierea în caractere latine a diferitelor limbi europene. Alții oferă, de asemenea, caractere non-latine, cum ar fi greacă , chirilică , ebraică , arabă și thailandeză . Majoritatea codificărilor includ doar caractere spațiate (adică asigură avansarea cursorului), dar cele thailandeze, ebraice și arabe conțin și caractere combinate (adică a căror emisie nu implică avansarea cursorului). Standardul nu oferă suport pentru scripturile din Asia de Est (chineză, japoneză, coreeană), deoarece sistemele lor de scriere ideografică necesită multe mii de caractere. Deși folosește caractere bazate pe alfabetul latin, chiar și vietnamezul nu se încadrează în limita de 96 de caractere (cu excepția diacriticelor) impusă de standard. Cele două sisteme de scriere silabice japoneze ( hiragana și katakana ) ar intra în această limită, dar în orice caz nu sunt incluse în codurile ISO 8859.
Părți ale ISO 8859
Partea 1 | Latin-1 Europa de Vest | Probabil cea mai utilizată parte a ISO 8859, acoperă majoritatea limbilor din Europa de Vest: daneză , feroeză , finlandeză (parțială [1] ), franceză (parțială [1] ), gaelică scoțiană , engleză , irlandeză , islandeză , italiană , norvegiană , olandeză (parțial [2] ), portugheză , romanșă , spaniolă , suedeză și germană . Limbi din alte părți ale lumii sunt, de asemenea, înțelese, cum ar fi: est-european ( albanez ), sud-est asiatic ( indonezian ), precum și limbi africane ( afrikaans și swahili ). Caracterele lipsă € și capitalul Ÿ se află în versiunea revizuită ISO 8859-15. Repertoriul de caractere corespunzător aprobat de IANA ISO-8859-1 este codificarea implicită pentru documentele HTML și pentru documentele transmise prin mesaje MIME , cum ar fi răspunsurile HTTP atunci când tipul documentului este „text” (ca în „text / html”). |
---|---|---|
Partea 2 | Latină-2 Europa Centrală | Acesta acceptă limbile din Europa Centrală și de Est care utilizează alfabetul latin , inclusiv bosniacă , cehă , croată , poloneză , sârbă , slovacă , slovenă , maghiară . Caracterul lipsă € se găsește în ISO 8859-16. |
Partea 3 | Latină-3 Europa de Sud | Folosit pentru turcă , malteză și esperanto . În mare parte înlocuit de ISO 8859-9 pentru turcă și Unicode pentru esperanto. |
Partea 4 | Latină-4 Europa de Nord | Folosit pentru estoniene , letone , lituaniene , groenlandeze și sami . |
Partea 5 | Latină / chirilică | Acoperă majoritatea limbilor slave care folosesc alfabetul chirilic , cum ar fi: bielorusă , bulgară , macedoneană , rusă , sârbă , ucraineană (parțială [3] ). |
Partea 6 | Latină / arabă | Acoperă cele mai comune caractere ale limbii arabe . Nu acceptă alte limbi care utilizează alfabetul arab . Pentru a fi afișat corect, trebuie să fie procesat pentru bidirecționalitate și analiză contextuală. |
Partea 7 | Greacă latină | Acoperă greaca modernă (sistem monoton de accentuare). Poate fi folosit și pentru greaca veche scrisă fără accente (monotonice), dar lipsesc diacriticele pentru sistemul politonic, introdus cu Unicode. |
Partea 8 | Latină / ebraică | Acoperă alfabetul ebraic modern așa cum este folosit în Israel. În practică, există două codificări diferite: ordinea logică (necesită procesare pentru textul bidirecțional) și vizuală (de la stânga la dreapta). |
Partea 9 | Latină-5 turc | În mare măsură similar cu ISO 8859-1, acesta înlocuiește caracterele islandeze rareori folosite cu cele turcești . Este folosit și pentru kurdă . |
Partea 10 | Latină-6 Nordic | O revizuire a Latino-4 (ISO 8859-4). Considerat cel mai util pentru multe limbi scandinave . Limbile baltice folosesc predominant latina-4. |
Partea 11 | Latină / thailandeză | Conține majoritatea personajelor necesare pentru limba thailandeză . La fel ca TIS 620 . |
inexistent Partea 12 | Latină / Devanagari | Crearea unei părți din 8859 pentru Devanagari a fost abandonată oficial în 1997. ISCII și Unicode / ISO / IEC 10646 acoperă Devanagari. |
Partea 13 | Latin-7 Baltic | S-au adăugat câteva caractere pentru limbile baltice care nu erau prezente în latină-4 și latină-6. |
Partea 14 | Latin-8 celtic | Acoperă limbile celtice precum gaela și bretonul . |
Partea 15 | Latin-9 | O revizuire din 8859-1 care elimină unele simboluri slab folosite, înlocuindu-le cu simbolul euro € și literele Š , š , Ž , ž , Œ , œ și Ÿ , care completează acoperirea limbilor franceze , finlandeze și estone . |
Partea 16 | Latin-10 Sud-estul Europei | Destinat pentru albaneză , croată , italiană , poloneză , română , slovenă și maghiară , dar și pentru finlandeză, franceză, germană și irlandeză (ortografie nouă). S-a acordat mai multă atenție literelor decât simbolurilor. Simbolul monedei generice ( ¤ ) a fost înlocuit cu euro ( € ). |
Fiecare parte a ISO 8859 este concepută pentru a fi utilizată cu limbi similare, astfel încât caracterele uneori comune utilizate să fie plasate în aceeași colecție. Cu toate acestea, există unele caractere și combinații de limbi care nu pot fi suportate direct decât prin transcodare.
O atenție deosebită a fost acordată pentru a se asigura că operațiunile de conversie între diferite codificări au fost cât mai ușoare posibil; de exemplu, cele șapte caractere speciale ale germanului ocupă aceeași poziție în toate variantele latine (1-4, 9-10, 13-16), iar pentru multe poziții caracterele diferă, între o variantă și alta, doar pentru diacritice. În special, variantele 1-4 au fost proiectate în comun pentru a se asigura că dacă două variante cuprind același caracter, acesta trebuie să apară în ambele în aceeași poziție.
Masa
Piste | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Spațiu non-break (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | LA | Ħ | LA | Ё | ' | ¡ | LA | ก | " | Ḃ | ¡ | LA | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ' | ¢ | ¢ | ȘI | ข | ¢ | ḃ | ¢ | la | |||
1010 0011 | 243 | 163 | A3 | £ | L | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | L | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | THE | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | L | THE | Ѕ | ₯ | ¥ | THE | ฅ | " | ċ | ¥ | " | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | L | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | L | จ | SAU | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | THE | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ș | ȘI | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | AB | " | Ť | Ğ | Ģ | Ћ | " | Ŧ | ซ | " | ḋ | " | |||||
1010 1100 | 254 | 172 | B.C | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | LA | cratimă moale (SHY) | ญ | TIMID | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | - | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | la | ħ | la | Б | ± | la | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | Și | ฒ | ² | Ġ | ² | Este | ||||
1011 0011 | 263 | 179 | B3 | ³ | L | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | L | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | the | ด | " | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | L | µ | the | Е | ΅ | µ | the | ต | µ | ṁ | µ | " | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | L | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | L | ธ | sau | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | the | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | este | |||
1011 1010 | 272 | 186 | BA | º | ș | Și | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | " | ť | ğ | ģ | Л | ؛ | " | ŧ | ป | " | Ṡ | " | ||||
1011 1100 | 274 | 188 | Î.Hr. | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | - | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | FI | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | LA | Ŕ | LA | LA | Р | ΐ | LA | LA | ภ | LA | LA | |||||
1100 0001 | 301 | 193 | C1 | LA | С | ء | Α | LA | ม | THE | LA | ||||||||
1100 0010 | 302 | 194 | C2 | LA | Т | آ | Β | LA | ย | LA | LA | ||||||||
1100 0011 | 303 | 195 | C3 | LA | LA | LA | У | أ | Γ | LA | ร | Ć | LA | LA | |||||
1100 0100 | 304 | 196 | C4 | LA | Ф | ؤ | Δ | LA | ฤ | LA | |||||||||
1100 0101 | 305 | 197 | C5 | LA | L | Ċ | LA | Х | إ | Ε | LA | ล | LA | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | ȘI | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | THE | Ч | ا | Η | Ç | THE | ว | ȘI | Ç | ||||||
1100 1000 | 310 | 200 | C8 | ȘI | Este | ȘI | Este | Ш | ب | Θ | ȘI | Este | ศ | Este | ȘI | ||||
1100 1001 | 311 | 201 | C9 | ȘI | Щ | ة | Ι | ȘI | ษ | ȘI | |||||||||
1100 1010 | 312 | 202 | CA | ȘI | ȘI | ȘI | ȘI | Ъ | ت | Κ | ȘI | ȘI | ส | Ź | ȘI | ||||
1100 1011 | 313 | 203 | CB | ȘI | Ы | ث | Λ | ȘI | ห | ȘI | ȘI | ||||||||
1100 1100 | 314 | 204 | CC | THE | ȘI | THE | ȘI | Ь | ج | Μ | THE | ȘI | ฬ | Ģ | THE | ||||
1100 1101 | 315 | 205 | CD | THE | Э | ح | Ν | THE | อ | Ķ | THE | ||||||||
1100 1110 | 316 | 206 | EXISTĂ | THE | Ю | خ | Ξ | THE | ฮ | THE | THE | ||||||||
1100 1111 | 317 | 207 | CF | THE | Ď | THE | THE | Я | د | Ο | THE | ฯ | L | THE | |||||
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | SAU | Ň | SAU | SAU | в | ز | SAU | SAU | า | Ņ | SAU | |||||
1101 0011 | 323 | 211 | D3 | SAU | Ķ | г | س | Σ | SAU | ำ | SAU | ||||||||
1101 0100 | 324 | 212 | D4 | SAU | д | ش | Τ | SAU | ิ | SAU | SAU | ||||||||
1101 0101 | 325 | 213 | D5 | SAU | SAU | Ġ | SAU | е | ص | Υ | SAU | ี | SAU | ||||||
1101 0110 | 326 | 214 | D6 | SAU | ж | ض | Φ | SAU | ึ | SAU | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | SAU | Ř | Ĝ | SAU | и | ظ | Ψ | SAU | ุ | Ų | SAU | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | L | Ù | ||||
1101 1010 | 332 | 218 | DIN | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | ANUNȚ | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | Ŭ | Ũ | н | έ | THE | Ý | Ż | Ý | ȘI | ||||||
1101 1110 | 336 | 222 | DE | Þ | Ț | Ŝ | Ū | о | ή | Ș | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | la | ŕ | la | la | р | ـ | ΰ | א | la | la | เ | la | la | |||
1110 0001 | 341 | 225 | E1 | la | с | ف | α | ב | la | แ | the | la | |||||||
1110 0010 | 342 | 226 | E2 | la | т | ق | β | ג | la | โ | la | la | |||||||
1110 0011 | 343 | 227 | E3 | la | la | la | у | ك | γ | ד | la | ใ | ć | la | la | ||||
1110 0100 | 344 | 228 | E4 | la | ф | ل | δ | ה | la | ไ | la | ||||||||
1110 0101 | 345 | 229 | E5 | la | L | ċ | la | х | م | ε | ו | la | ๅ | la | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | Și | æ | ||||
1110 0111 | 347 | 231 | E7 | ç | the | ч | ه | η | ח | ç | the | ็ | Și | ç | |||||
1110 1000 | 350 | 232 | E8 | Și | este | Și | este | ш | و | θ | ט | Și | este | ่ | este | Și | |||
1110 1001 | 351 | 233 | E9 | Și | щ | ى | ι | י | Și | ้ | Și | ||||||||
1110 1010 | 352 | 234 | ESTE LA | Și | Și | Și | Și | ъ | ي | κ | ך | Și | Și | ๊ | ź | Și | |||
1110 1011 | 353 | 235 | EB | Și | ы | ً | λ | כ | Și | ๋ | Și | Și | |||||||
1110 1100 | 354 | 236 | CE | the | Și | the | Și | ь | ٌ | μ | ל | the | Și | ์ | ģ | the | |||
1110 1101 | 355 | 237 | ȘI | the | э | ٍ | ν | ם | the | ํ | ķ | the | |||||||
1110 1110 | 356 | 238 | SI SI | the | ю | َ | ξ | מ | the | ๎ | the | the | |||||||
1110 1111 | 357 | 239 | EF | the | ď | the | the | я | ُ | ο | ן | the | ๏ | L | the | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | ȑ | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | sau | ò | sau | sau | ђ | ْ | ς | ע | sau | sau | ๒ | ņ | sau | |||
1111 0011 | 363 | 243 | F3 | sau | ķ | ѓ | σ | ף | sau | ๓ | sau | ||||||||
1111 0100 | 364 | 244 | F4 | sau | є | τ | פ | sau | ๔ | sau | sau | ||||||||
1111 0101 | 365 | 245 | F5 | sau | sau | ġ | sau | ѕ | υ | ץ | sau | ๕ | sau | ||||||
1111 0110 | 366 | 246 | F6 | sau | і | φ | צ | sau | ๖ | sau | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | sau | ř | ĝ | sau | ј | ψ | ר | sau | ๘ | ų | sau | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ... | ù | ų | љ | ω | ש | ù | ų | ๙ | L | ù | ||||
1111 1010 | 372 | 250 | FACE | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | the | ý | ż | ý | Și | |||||
1111 1110 | 376 | 254 | FE | þ | ț | ŝ | ū | ў | ώ | RLM | ș | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ' | ÿ |
La poziția 0xA0 există întotdeauna spațiu indivizibil ( spațiu care nu se rupe ) și la 0xAD aproape întotdeauna cursa de îmbinare ( cratimă moale ), care este afișată pentru cratimare. Celelalte caractere goale pot fi neatribuite sau sistemul nu le poate afișa.
Există noi adăugiri pentru versiunile ISO / IEC 8859-7: 2003 și ISO / IEC 8859-8: 1999. LRM ( marca de la stânga la dreapta ), marca de la stânga la dreapta (U + 200E) și RLM ( marca de la dreapta la stânga ), marca de la dreapta la stânga (U + 200F), sunt utilizate pentru afișarea bidirecțională.
Relația cu Unicode și UCS
Din 1991 , Unicode Consortium a colaborat cu ISO pentru a dezvolta standardul Unicode și setul de caractere universale (UCS sau ISO / IEC 10646) în paralel. Aceste standarde au fost create pentru a unifica, printre altele, colecția de caractere oferite de codificările ISO 8859 prin atribuirea fiecărui caracter a unui cod numeric unic, inițial la 16 biți. Ulterior, modelul a fost extins prin asocierea unui identificator numeric generic ( punct de cod ) fiecărui caracter și delegarea unor codificări specifice (de exemplu UTF-8 ) sarcina de asociere a secvențelor de biți la punctele de cod.
Cele mai recente ediții ale ISO 8859 sunt exprimate ca hărți de corespondență între cele 256 de codificări posibile care pot fi exprimate cu utilizarea unui singur octet și a caracterelor din colecția Unicode, făcând efectiv fiecare variantă a ISO 8859 un sistem de codificare specific pentru subset extrem de mic (256 de elemente) al setului Unicode; în special, primele 256 de caractere Unicode / UCS coincid cu cele 256 de caractere ale ISO-8859-1.
Seturile de caractere cu un singur octet, inclusiv părți din ISO 8859 și variantele acestora, s-au bucurat de o mare favoare pe parcursul anilor 1990 , având avantajul de a fi extrem de răspândite și mai ușor de implementat: corespondența directă între un octet și un caracter este simplă și, în general, adecvată pentru orice aplicație care trebuie să susțină o singură limbă.
Pe măsură ce costul, în ceea ce privește resursele de calcul, a utilizării mai multor octeți pe caracter a început să scadă, limbajele de programare și sistemele de operare au adăugat suport nativ pentru Unicode la sistemele de codificare mai tradiționale. Odată cu răspândirea progresivă a sistemelor cu suport pentru Unicode, utilizarea ISO 8859 și a altor codificări proprietare a devenit din ce în ce mai puțin frecventă; Deși rămășițele sistemelor de codare cu un singur octet sunt încă prezente în multe dispozitive software și hardware, majoritatea sistemelor moderne folosesc Unicode intern și folosesc tabele de conversie pentru a recoda, dacă este necesar, către sau din alte codificări.
Una dintre utilizările în care nu a fost înlocuită de Unicode este codarea mesajelor Usenet , al căror protocol a fost conceput pentru codificări de șapte biți. Pentru limba italiană se folosește ISO-8859-1 sau ISO-8859-15, dar ISO-8859-3 și ISO-8859-9 sunt de asemenea potrivite.
Starea de dezvoltare
Standardul ISO / IEC 8859 a fost menținut de Comitetul tehnic mixt 1, Subcomitetul 2, Grupul de lucru 3 (ISO / IEC JTC 1 / SC 2 / WG 3). În iunie 2004 , WG 3 a fost dizolvat și întreținerea a fost transferată către SC 2. În prezent, standardul nu mai este actualizat, deoarece singurul grup de lucru rămas al SC 2, WG 2, este dedicat în întregime dezvoltării standardului ISO. / IEC 10646 .
linkuri externe
- Versiunile publicate ale fiecărei părți ale ISO / IEC 8859 sunt disponibile, contra cost, pe site-ul catalogului ISO și din magazinul ANSI eStandards
- Versiunile PDF ale schițelor finale ale unor părți ale ISO / IEC 8859, realizate pentru revizuire și publicare de către ISO / IEC JTC 1 / SC 2 / WG 3 sunt disponibile pe site-ul WG 3 :
- ISO / IEC 8859-1: 1998 - Seturi de caractere grafice codate pe 8 biți cu un singur octet, Partea 1: Alfabet latin nr. 1 (proiect din 12 februarie 1998 , publicat în 15 aprilie 1998 )
- ISO / IEC 8859-4: 1998 - Seturi de caractere grafice codate pe 8 biți cu un singur octet, Partea 4: Alfabet latin nr. 4 (proiect din 12 februarie 1998 , publicat la 1 iulie 1998 )
- ISO / IEC 8859-7: 1999 - seturi de caractere grafice codate pe un singur octeț pe 8 biți, partea 7: alfabet latin / grec (proiect din 10 iunie 1999 ; înlocuit de ISO / IEC 8859-7: 2003, publicat la 10 octombrie 2003 )
- ISO / IEC 8859-10: 1998 - Seturi de caractere grafice codate pe 8 biți cu un singur octet, Partea 10: Alfabet latin nr. 6 (proiect din 12 februarie 1998 , publicat la 15 iulie 1998 )
- ISO / IEC 8859-11: 1999 - Seturi de caractere grafice codate pe un singur octeț pe 8 biți, partea 11: set de caractere latine / thailandeze (proiect din 22 iunie 1999 ; înlocuit de ISO / IEC 8859-11: 2001, publicat la 15 decembrie 2001 )
- ISO / IEC 8859-13: 1998 - Seturi de caractere grafice codate pe 8 biți cu un singur octet, Partea 13: Alfabet latin nr. 7 (proiect din 15 aprilie 1998 , publicat la 15 octombrie 1998 )
- ISO / IEC 8859-15: 1998 - seturi de caractere grafice codate pe un singur octeț pe 8 biți, Partea 15: Alfabet latin nr. 9 (proiect din 1 august 1997 ; înlocuit de ISO / IEC 8859-15: 1999, publicat la 15 martie 1999 )
- ISO / IEC 8859-16: 2000 - Seturi de caractere grafice codate pe 8 biți cu un singur octet, Partea 16: Alfabet latin nr. 10 (proiect din 15 noiembrie 1999 ; înlocuit de ISO / IEC 8859-16: 2001, publicat la 15 iulie 2001 )
- Standardele ECMA , care în intenție corespund exact ISO / IEC 8859, pot fi găsite la:
- ECMA-94 Standard : seturi de caractere grafice codate pe 8 biți cu un singur octet - Alfabete latine nr. 1 până la nr. 4 ediția a doua (iunie 1986)
- ECMA-113 Standard : seturi de caractere grafice codate pe 8 biți cu un singur octet - ediția a treia a alfabetului latin / chirilic (decembrie 1999)
- Standard ECMA-114 : seturi de caractere grafice codate pe 8 biți cu un singur octet - ediția a doua a alfabetului latin / arab (decembrie 2000)
- ECMA-118 Standard : seturi de caractere grafice codate pe 8 biți cu un singur octet - alfabet latin / grecesc (decembrie 1986)
- ECMA-121 Standard : seturi de caractere grafice codate pe 8 biți cu un singur octet - ediția a doua a alfabetului latin / ebraic (decembrie 2000)
- ECMA-128 Standard : seturi de caractere grafice codate pe 8 biți cu un singur octet - Alfabetul latin nr. 5 ediția a doua (decembrie 1999)
- ECMA-144 Standard : seturi de caractere codificate pe 8 biți cu un singur octet - Alfabetul latin nr. 6 ediția a treia (decembrie 2000)
- Tabelele de conversie ISO / IEC 8859-1 în Unicode