Java认证之Java中编码以及Unicode总结(4)
- ^3 ^# K/ l* F* n6 pCP1252
/ y: K# f% U1 Z 1100
& U" g# k2 l" w+ b0 w9 ]3 o: a SAP Latin-1 – ISO8859-1 – code page
" Y% @+ k' N. _# b! w3 S2 b ISO-8859-21 q' j: c9 t1 l; e- t
1402+ d! X9 Z' w( a* D; H
SAP Latin-2 – ISO8859-2
& A# C; v, }) }1 ^; z! O ISO-8859-5% n T$ e& a) D! D
1500
1 ^: N% j" Z/ G* m9 w SAP Cyrillic – ISO8859-5 @% u/ |1 s+ B! J! n
CP1254: U" J2 `7 P; e% j0 ?4 J
1610$ j6 q& b6 t6 I4 f: p o+ `6 b2 Q
SAP Turkish – ISO8859-9
; [4 K: M; o4 T0 w% ? CP1253: _3 z+ x+ }+ f5 D9 c
1700
( {( @3 i9 c% y3 }- l& L/ \, S0 g8 w4 A0 v SAP Greek – ISO8859-7 – Not a complete match( U" R- w: _0 r, S x
CP1255
4 \/ ]! ~3 ?/ `% w) q1 p c9 K 1800) f4 |. u* h( ?9 k5 p, Q* {
SAP Hebrew – ISO8859-8 – Not a complete match
5 Z; C/ X$ P% w& [6 I: p CP9327 P3 s# X, ?" m
8000
$ a' N7 T: {, m5 w4 a 6
; V$ J9 R" G% [+ ~+ j+ ^9 k SAP Shift-JIS( k0 l- L/ w. b& T* {
CP9502 m/ l m1 S$ Q
8300 y. b6 o) ]/ n/ N5 _' {6 B1 _5 E! {
SAP Taiwanese3 {5 D. \ P; W- `9 P9 h
CP936
- ]5 V+ X+ f5 l5 R+ {" G 8400" T7 f* `; _3 L; A
SAP Chinese
) V7 C- T+ r8 k CP949
; o7 e5 L+ m8 q5 W* d. f# ^2 P 8500
7 _* M5 D- e! s$ t' V9 w/ g4 w SAP Korean9 c- E5 Y* g7 j2 v/ r: p; r+ |9 }2 k
CP874
/ y0 [1 s% c) P; D- k 8600$ t/ Z5 a* [& O/ `/ J
SAP Thai* P& S$ H v% ^* |! `
3、
. Z3 d% c4 Y8 P( J( z Unicode历史
- e. b; {1 A& x9 {3 U9 i: S 1991年,Unicode联盟与ISO的工作组终于起头谈判Unicode与UCS的合并问题。最终,两者统一了抽象字符集(即任何一个在 Unicode中存在的字符,在UCS中也存在),对于码空间,两者赞成以一百一十万为限,Unicode将码空间扩展到了一百一十万,而UCS将永远性的不使用一百一十万往后的码位。UCS和Unicode都指的是编码字符集,而不是字符集编码。
# v ]3 A3 a8 h+ B) m1 s 字符集编码抉择了若何将一个字符的整数编号对应到一个二进制的整数值,有的编码方案简单的将该整数值直接作为其在计较机中的暗示而存储,例如英文字符就是这样,几乎所有的字符集编码方案中,英文字母的整数编号与其在计较机内部存储的二进制形式都一致。当初Unicode与UCS还没成家瞬息,UCS也是需要人爱,需要人疼的,没有自己的字符集编码怎么成。UCS-2与UCS-4就饰演了这样的脚色。 UCS-4与UTF-32除了名字分歧以外,思惟完全一样。而UCS-2与UTF-16在对前65536个字符的措置上也完全不异,独一的区别只在于 UCS-2 不撑持surrogate pair机制,即是说,UCS-2只能对前65536个字符编码,对厥后的字符毫无法子。 |