KOI8-T
KOI8-T este un sistem de codificare a caracterelor de 8 biți conceput pentru a fi utilizat cu limba tajikă , în special cu versiunea alfabetului tajik care se referă la alfabetul chirilic . [1] Introdus de Michael Davis ca o soluție temporară pentru a umple golurile prezente în sistemele de codare existente atunci în așteptarea afirmării definitive a Unicode , [2] KOI8-T, al cărui nume înseamnă Kod Obmena Informaciej, 8 biți (în rusă Код Обмена Информацией, 8 бит, Cod pentru schimbul de informații, 8 biți ), se bazează pe KOI8-R , un sistem de codare bazat pe KOI8 original și conceput pentru utilizare cu limba rusă și bulgară , prin care înlocuiește unele caractere grafice cu șase Litere tajice în versiunile lor majuscule și minuscule: Қ , Ғ , Ң , Ҷ , Ӯ și Ӣ .
KOI8 și CP-1251 , un alt sistem de codificare a caracterelor pentru limbile care utilizează alfabetul chirilic, sunt încă mult mai utilizate decât ISO 8859-5 , care de fapt nu a găsit niciodată prea multă utilizare, deși astăzi, în marea majoritate a modernelor utilizează, este preferat Unicode .
KOI8 și sistemele derivate din acesta au particularitatea de a avea literele chirilice aranjate în ordine pseudo-latină mai degrabă decât în ordinea comună a alfabetului chirilic, așa cum au de exemplu ISO 8859-5 și Unicode. Deși acest lucru poate părea contraintuitiv, această caracteristică este utilă în sensul că, dacă se oprește cel de-al optulea bit, textul poate fi citit parțial folosind sistemul ASCII și poate fi convertit în text KOI7 corect din punct de vedere sintactic. De exemplu, dacă cel de-al optulea bit este eliminat din scrierea din KOI8-T „Русский Текст”, devine rUSSKIJ tEKST („text rusesc”) și o încercare de a interpreta acest șir cu KOI7 duce la „РУССКИЙ ТЕКСТ”. KOI8 a fost creat pe baza codului Morse rus (care la rândul său a fost creat de codul Morse internațional bazat pe asonanțe), iar conexiunea privind ordinea literelor dintre codul Morse rus și cel internațional este aceeași care există între KOI8 și ASCII.
Masa
Următorul tabel prezintă sistemul de codare KOI8-T. Fiecare caracter este reprezentat în centrul celulei cu echivalentul său Unicode în partea de sus și codul său zecimal în partea de jos.
Controlează personajele | Punctuaţie | ||
Cifre numerice | Personaje alfabetice | ||
Personaje internaționale | Personaje nedefinite | ||
Personaje grafice | Punctuație extinsă |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -LA | -B | -C | -D | -ȘI | -F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0- | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
1- | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
2- | 0020 SP 32 | 0021 ! 33 | 0022 " 34 | 0023 # 35 | 0024 $ 36 | 0025 % 37 | 0026 & 38 | 0027 ' 39 | 0028 ( 40 | 0029 ) 41 | 002A * 42 | 002B + 43 | 002C , 44 | 002D - 45 | 002E . 46 | 002F / 47 |
3- | 0030 0 48 | 0031 1 49 | 0032 2 50 | 0033 3 51 | 0034 4 52 | 0035 5 53 | 0036 6 54 | 0037 7 55 | 0038 8 56 | 0039 9 57 | 003A : 58 | 003B ; 59 | 003C < 60 | 003D = 61 | 003E > 62 | 003F ? 63 |
4- | 0040 @ 64 | 0041 LA 65 | 0042 B. 66 | 0043 C. 67 | 0044 D. 68 | 0045 ȘI 69 | 0046 F. 70 | 0047 G. 71 | 0048 H. 72 | 0049 THE 73 | 004A J 74 | 004B K. 75 | 004C L 76 | 004D M. 77 | 004E Nu. 78 | 004F SAU 79 |
5- | 0050 P. 80 | 0051 Î 81 | 0052 R. 82 | 0053 S. 83 | 0054 T. 84 | 0055 U 85 | 0056 V. 86 | 0057 W 87 | 0058 X 88 | 0059 Da 89 | 005A Z 90 | 005B [ 91 | 005C \ nouăzeci și doi | 005D ] 93 | 005E ^ 94 | 005F _ 95 |
6- | 0060 ` 96 | 0061 la 97 | 0062 b 98 | 0063 c 99 | 0064 d 100 | 0065 Și 101 | 0066 f 102 | 0067 g 103 | 0068 h 104 | 0069 the 105 | 006A j 106 | 006B k 107 | 006C L 108 | 006D m 109 | 006E n 110 | 006F sau 111 |
7- | 0070 p 112 | 0071 q 113 | 0072 r 114 | 0073 s 115 | 0074 t 116 | 0075 tu 117 | 0076 v 118 | 0077 w 119 | 0078 X 120 | 0079 y 121 | 007A z 122 | 007B { 123 | 007C | 124 | 007D } 125 | 007E ~ 126 | 127 |
8- | 049B қ 128 | 0493 ғ 129 | 201A ‚ 130 | 0492 Ғ 131 | 201E " 132 | 2026 ... 133 | 2020 † 134 | 2021 ‡ 135 | 136 | 2030 ‰ 137 | 04B3 ң 138 | 2039 ‹ 139 | 04B2 Ң 140 | 04B7 ҷ 141 | 04B6 Ҷ 142 | 143 |
9- | 049A Қ 144 | 2018 ' 145 | 2019 ' 146 | 201C " 147 | 201D " 148 | 2022 • 149 | 2013 - 150 | 2014 - 151 | 152 | 2122 ™ 153 | 154 | 203A › 155 | 156 | 157 | 158 | 159 |
LA- | 160 | 04EF ӯ 161 | 04EE Ӯ 162 | 0451 ё 163 | 00A4 ¤ 164 | 04E2 ӣ 165 | 00A6 ¦ 166 | 00A7 § 167 | 168 | 169 | 170 | 00AB " 171 | 00AC ¬ 172 | 00AD TIMID 173 | 00AE ® 174 | 175 |
B- | 00B0 ° 176 | 00B1 ± 177 | 00B2 ² 178 | 0401 Ё 179 | 180 | 04E1 Ӣ 181 | 00B6 ¶ 182 | 00B7 · 183 | 184 | 2122 № 185 | 186 | 00BB " 187 | 188 | 189 | 190 | 00A9 © 191 |
C- | 044E ю 192 | 0430 а 193 | 0431 б 194 | 0446 ц 195 | 0434 д 196 | 0435 е 197 | 0444 ф 198 | 0433 г 199 | 0445 х 200 | 0438 и 201 | 0439 й 202 | 043A к 203 | 043B л 204 | 043C м 205 | 043D н 206 | 043E о 207 |
D- | 043F п 208 | 044F я 209 | 0440 р 210 | 0441 с 211 | 0442 т 212 | 0443 у 213 | 0436 ж 214 | 0432 в 215 | 044C ь 216 | 044B ы 217 | 0437 з 218 | 0448 ш 219 | 044D э 220 | 0449 щ 221 | 0447 ч 222 | 044A ъ 223 |
ȘI- | 042E Ю 224 | 0410 А 225 | 0411 Б 226 | 0426 Ц 227 | 0414 Д 228 | 0415 Е 229 | 0424 Ф 230 | 0413 Г 231 | 0425 Х 232 | 0418 И 233 | 0419 Й 234 | 041A К 235 | 041B Л 236 | 041C М 237 | 041D Н 238 | 041E О 239 |
F- | 041F П 240 | 042F Я 241 | 0420 Р 242 | 0421 С 243 | 0422 Т 244 | 0423 У 245 | 0416 Ж 246 | 0412 В 247 | 042C Ь 248 | 042B Ы 249 | 0417 З 250 | 0428 Ш 251 | 042D Э 252 | 0429 Щ 253 | 0427 Ч 254 | 042A Ъ 255 |
-0 | -1 | -2 | -3 | -4 | -5 | -6 | -7 | -8 | -9 | -LA | -B | -C | -D | -ȘI | -F |
In tabelul de mai sus, echivalentul codului Unicode 20 este spațiu caracter în timp ce codul Unicode A0 este non- rupere spațiului .
Notă
- ^ Guido Flohr, Locale :: RecodeData :: KOI8_T - Rutine de conversie pentru KOI8-T , pe metacpan.org , CPAN .
- ^ Michael Davis, Tajiki TrueType fonts for the Web: Frequently Asked Questions , on traveltajikistan.com , Travel Tajikistan, 21 noiembrie 2000 (arhivat din original la 5 octombrie 2001) .
Elemente conexe
linkuri externe
- Totul despre KOI8-R
- Decodor chirilic universal , o aplicație online care poate ajuta la recuperarea textelor chirilice necitite create cu sistemul de codare KOI8-R.
- O scurtă istorie a sistemelor de codificare pentru chirilică
- IBM CDRA