a我考网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 132|回复: 0

[专业语言] Java认证之Java中编码以及Unicode总结(2)

[复制链接]
发表于 2012-8-4 12:44:44 | 显示全部楼层 |阅读模式
Java认证之Java中编码以及Unicode总结(2)2 \, I; {. E" [0 M, _- o* d
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及 0xC94A)、“嗀”(0xDCD1及0xDDFC)。
: s. {! O+ K# i, K: a. i  Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码范围 0xA1-0xF9,低位字节的编码范围0×40-0×7E及0xA1-0xFE。各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。& G8 T. x  g" ~) U+ |/ \; H
  2.2.5 GB18030字符集
0 b4 W$ X+ h* {  GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。GB 18030-2000收录了27533个汉字,GB 18030-2005收录了70244个汉字。GB18030的总编码空间超过150万个码位。
- r! O  v* {% Z, ?, [/ ]* `2 w  GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了 27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
% _4 l9 ]6 m- V6 ]) u$ h  GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。) K4 J& f' C3 C
  双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80 个、双字节编码的欧元符号等。四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。
& n/ Y: y$ [/ n/ ?0 K; s. j  2.2.6ANSI编码: ^* D6 }. s/ H% @  G, c: ^
  不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各9 a  B2 j2 `+ B! ]. `
  3
5 [$ u9 w5 m4 h3 j- B7 |  自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。”DBCS”(Double Byte Charecter Set 双字节字符集)。在DBCS系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127的,那么就认为一个双字节字符集里的字符出现了。
+ H" G' l# p- z) ^  汉字编码范围
+ v, M( t4 [% R4 L' b0 {6 O  名称 第一字节 第二字节& u3 n  n, ]1 i
  GB2312 0xB0-0xF7(176-247) 0xA0-0xFE(160-254)
2 }2 H8 f) i/ {$ Q0 e  GBK 0×81-0xFE(129-254) 0×40-0xFE(64-254)
% F& [5 S1 z9 ?5 e9 K  Big5 0×81-0xFE(129-255) 0×40-0×7E(64-126)或者0xA1-0xFE(161-254)
1 v* \9 R; Y- E  2.3 字符集编码(Character Set Encoding)
" y$ B  f+ b" v3 w( B9 x( }! ~+ \" ]  ASCII,GB2312,GBK,BIG5,GB18030, UCS,Utf-8,utf-16,utf-32 都有自己不同的规则,都有自己的对应规则,但都兼容ASCII。在使用时要注意这些编码相互之间的转换规则。对于没有转换规则的编码体系之间进行转换只能依靠查编码表进行。8 \0 D& D, E. t' z
  2.4 ISO的编码体系
% ~: c7 V/ f6 x; ]1 U6 g  ^8 u  2.4.1 ASCII编码
) Y( o  U6 n1 ?* ?( b  ASCII的编号是ISO-646。8 a+ Z: `2 S$ H. @
  2.4.2 ISO8859编码
6 Z; ^% i7 n6 c* R0 |0 m1 X  ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了17个字符集。
0 @0 Q* g. w) Z2 t2 E  * ISO 8859-1 (Latin-1) – 西欧语言1 ]/ r6 G/ Z) V  D
  * ISO 8859-2 (Latin-2) – 中欧语言) z; B1 Y' A! G0 p' L5 ]  {, @# H
  * ISO 8859-3 (Latin-3) – 南欧语言。世界语也可用此字符集显示。
' H  c( @5 j8 {9 M' ?8 k  * ISO 8859-4 (Latin-4) – 北欧语言
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Woexam.Com ( 湘ICP备18023104号 )

GMT+8, 2024-5-13 20:32 , Processed in 0.258503 second(s), 21 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表