KOI8-T

De la Wikipedia, enciclopedia liberă.
Salt la navigare Salt la căutare

KOI8-T este un sistem de codificare a caracterelor de 8 biți conceput pentru a fi utilizat cu limba tajikă , în special cu versiunea alfabetului tajik care se referă la alfabetul chirilic . [1] Introdus de Michael Davis ca o soluție temporară pentru a umple golurile prezente în sistemele de codare existente atunci în așteptarea afirmării definitive a Unicode , [2] KOI8-T, al cărui nume înseamnă Kod Obmena Informaciej, 8 biți (în rusă Код Обмена Информацией, 8 бит, Cod pentru schimbul de informații, 8 biți ), se bazează pe KOI8-R , un sistem de codare bazat pe KOI8 original și conceput pentru utilizare cu limba rusă și bulgară , prin care înlocuiește unele caractere grafice cu șase Litere tajice în versiunile lor majuscule și minuscule: Қ , Ғ , Ң , Ҷ , Ӯ și Ӣ .

KOI8 și CP-1251 , un alt sistem de codificare a caracterelor pentru limbile care utilizează alfabetul chirilic, sunt încă mult mai utilizate decât ISO 8859-5 , care de fapt nu a găsit niciodată prea multă utilizare, deși astăzi, în marea majoritate a modernelor utilizează, este preferat Unicode .

KOI8 și sistemele derivate din acesta au particularitatea de a avea literele chirilice aranjate în ordine pseudo-latină mai degrabă decât în ​​ordinea comună a alfabetului chirilic, așa cum au de exemplu ISO 8859-5 și Unicode. Deși acest lucru poate părea contraintuitiv, această caracteristică este utilă în sensul că, dacă se oprește cel de-al optulea bit, textul poate fi citit parțial folosind sistemul ASCII și poate fi convertit în text KOI7 corect din punct de vedere sintactic. De exemplu, dacă cel de-al optulea bit este eliminat din scrierea din KOI8-T „Русский Текст”, devine rUSSKIJ tEKST („text rusesc”) și o încercare de a interpreta acest șir cu KOI7 duce la „РУССКИЙ ТЕКСТ”. KOI8 a fost creat pe baza codului Morse rus (care la rândul său a fost creat de codul Morse internațional bazat pe asonanțe), iar conexiunea privind ordinea literelor dintre codul Morse rus și cel internațional este aceeași care există între KOI8 și ASCII.

Masa

Următorul tabel prezintă sistemul de codare KOI8-T. Fiecare caracter este reprezentat în centrul celulei cu echivalentul său Unicode în partea de sus și codul său zecimal în partea de jos.

Legendă
Controlează personajele Punctuaţie
Cifre numerice Personaje alfabetice
Personaje internaționale Personaje nedefinite
Personaje grafice Punctuație extinsă
KOI8-R
-0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -LA -B -C -D -ȘI -F
0-

0


1


2


3


4


5


6


7


8


9


10


11


12


13


14


15
1-

16


17


18


19


20


21


22


23


24


25


26


27


28


29


30


31
2- 0020
SP
32
0021
!
33
0022
"
34
0023
#
35
0024
$
36
0025
%
37
0026
&
38
0027
'
39
0028
(
40
0029
)
41
002A
*
42
002B
+
43
002C
,
44
002D
-
45
002E
.
46
002F
/
47
3- 0030
0
48
0031
1
49
0032
2
50
0033
3
51
0034
4
52
0035
5
53
0036
6
54
0037
7
55
0038
8
56
0039
9
57
003A
:
58
003B
;
59
003C
<
60
003D
=
61
003E
>
62
003F
?
63
4- 0040
@
64
0041
LA
65
0042
B.
66
0043
C.
67
0044
D.
68
0045
ȘI
69
0046
F.
70
0047
G.
71
0048
H.
72
0049
THE
73
004A
J
74
004B
K.
75
004C
L
76
004D
M.
77
004E
Nu.
78
004F
SAU
79
5- 0050
P.
80
0051
Î
81
0052
R.
82
0053
S.
83
0054
T.
84
0055
U
85
0056
V.
86
0057
W
87
0058
X
88
0059
Da
89
005A
Z
90
005B
[
91
005C
\
nouăzeci și doi
005D
]
93
005E
^
94
005F
_
95
6- 0060
`
96
0061
la
97
0062
b
98
0063
c
99
0064
d
100
0065
Și
101
0066
f
102
0067
g
103
0068
h
104
0069
the
105
006A
j
106
006B
k
107
006C
L
108
006D
m
109
006E
n
110
006F
sau
111
7- 0070
p
112
0071
q
113
0072
r
114
0073
s
115
0074
t
116
0075
tu
117
0076
v
118
0077
w
119
0078
X
120
0079
y
121
007A
z
122
007B
{
123
007C
|
124
007D
}
125
007E
~
126


127
8- 049B
қ
128
0493
ғ
129
201A

130
0492
Ғ
131
201E
"
132
2026
...
133
2020

134
2021

135


136
2030

137
04B3
ң
138
2039

139
04B2
Ң
140
04B7
ҷ
141
04B6
Ҷ
142


143
9- 049A
Қ
144
2018
'
145
2019
'
146
201C
"
147
201D
"
148
2022

149
2013
-
150
2014
-
151


152
2122

153


154
203A

155


156


157


158


159
LA-

160
04EF
ӯ
161
04EE
Ӯ
162
0451
ё
163
00A4
¤
164
04E2
ӣ
165
00A6
¦
166
00A7
§
167


168


169


170
00AB
"
171
00AC
¬
172
00AD
TIMID
173
00AE
®
174


175
B- 00B0
°
176
00B1
±
177
00B2
²
178
0401
Ё
179


180
04E1
Ӣ
181
00B6

182
00B7
·
183


184
2122

185


186
00BB
"
187


188


189


190
00A9
©
191
C- 044E
ю
192
0430
а
193
0431
б
194
0446
ц
195
0434
д
196
0435
е
197
0444
ф
198
0433
г
199
0445
х
200
0438
и
201
0439
й
202
043A
к
203
043B
л
204
043C
м
205
043D
н
206
043E
о
207
D- 043F
п
208
044F
я
209
0440
р
210
0441
с
211
0442
т
212
0443
у
213
0436
ж
214
0432
в
215
044C
ь
216
044B
ы
217
0437
з
218
0448
ш
219
044D
э
220
0449
щ
221
0447
ч
222
044A
ъ
223
ȘI- 042E
Ю
224
0410
А
225
0411
Б
226
0426
Ц
227
0414
Д
228
0415
Е
229
0424
Ф
230
0413
Г
231
0425
Х
232
0418
И
233
0419
Й
234
041A
К
235
041B
Л
236
041C
М
237
041D
Н
238
041E
О
239
F- 041F
П
240
042F
Я
241
0420
Р
242
0421
С
243
0422
Т
244
0423
У
245
0416
Ж
246
0412
В
247
042C
Ь
248
042B
Ы
249
0417
З
250
0428
Ш
251
042D
Э
252
0429
Щ
253
0427
Ч
254
042A
Ъ
255
-0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -LA -B -C -D -ȘI -F

In tabelul de mai sus, echivalentul codului Unicode 20 este spațiu caracter în timp ce codul Unicode A0 este non- rupere spațiului .

Notă

  1. ^ Guido Flohr, Locale :: RecodeData :: KOI8_T - Rutine de conversie pentru KOI8-T , pe metacpan.org , CPAN .
  2. ^ Michael Davis, Tajiki TrueType fonts for the Web: Frequently Asked Questions , on traveltajikistan.com , Travel Tajikistan, 21 noiembrie 2000 (arhivat din original la 5 octombrie 2001) .

Elemente conexe

linkuri externe

Informatică Portal IT : accesați intrările Wikipedia care se ocupă cu IT