a我考网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 118|回复: 0

[其他] JAVA技巧:Java中编码以及Unicode总结(2)

[复制链接]
发表于 2012-8-4 12:28:23 | 显示全部楼层 |阅读模式
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集一再地收录了两个不异的字:“兀”(0xA461及 0xC94A)、“嗀”(0xDCD1及0xDDFC)。
. _- {1 u+ P" b" Y/ M+ L* E  Big5码使用了双字节储存体例,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码规模 0xA1-0xF9,低位字节的编码规模0×40-0×7E及0xA1-0xFE。各编码规模对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及非凡符号,此外于0xA259-0xA261,存放了双音节怀抱衡单元用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。4 E( z) ~1 O* V  R2 H# ^' h
  2.2.5 GB18030字符集
7 p: f$ z  A' y) s( N3 S  GB 18030的全称是GB18030-2000《信息交流用汉字编码字符集根基集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家尺度,2001年8月31日后在中国市场上发布的软件必需合适本尺度。GB 18030-2000收录了27533个汉字,GB 18030-2005收录了70244个汉字。GB18030的总编码空间跨越150万个码位。% T6 q: u. P, p* K/ u, C: u
  GB 18030字符集尺度解决汉字、日文假名、朝鲜语和中国少数平易近族文字组成的大字符集计较机编码问题。该尺度的字符总编码空间跨越150万个编码位,收录了 27484个汉字,笼盖中文、日文、朝鲜语和中国少数平易近族文字。知足中国大陆、喷香港、台湾、日本和韩国等东亚地域信息交流多文种、大字量、多用途、统一编码名目的要求。而且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。而且与以前的国家字符编码尺度(GB2312,GB13000.1)兼容。
, D$ t) K0 |8 @4 o- B) f$ L  GB 18030尺度采用单字节、双字节和四字节三种体例对字符编码。单字节部门使用0×00至0×7F码(对应于ASCII码的响应码)。双字节部门,首字节码从0×81至0×FE,尾字节码位分袂是0×40至0×7E和0×80至0×FE。四字节部门采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其规模为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。. f/ N$ I! n4 V  e& m  Q6 n
  双字节部门收录内容首要搜罗GB13000.1全数CJK汉字20902个、有关标点符号、表意文字描述符13个、填补的汉字和部首/构件80 个、双字节编码的欧元符号等。四字节部门收录了上述双字节字符之外的,搜罗CJK统一汉字扩充A在内的GB 13000.1中的全数字符。  g9 X0 b& D- y' s7 Q. j! [9 G
  2.2.6ANSI编码
& I1 \7 s5 U  C* g- _  分歧的国家和地域拟定了分歧的尺度,由此发生了 GB2312, BIG5, JIS 等各/ @. I0 n3 S9 B% P! J' X" r
  30 ^; r' T+ o3 T6 U/ G
  自的编码尺度。这些使用 2 个字节来代表一个字符的各类汉字延长编码体例,称为 ANSI 编码。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。”DBCS”(Double Byte Charecter Set 双字节字符集)。在DBCS系列尺度里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于统一套编码方案里,是以他们写的轨范为了撑持中文措置,必需要注重字串里的每一个字节的值,如不美观这个值是大于127的,那么就认为一个双字节字符集里的字符呈现了。
5 D2 E2 m# @7 ^; p1 L+ R  汉字编码规模( Z& \/ L' c7 Z' v7 U
  名称 第一字节 第二字节% v+ |: ~- E" T. ^' j0 \' @
  GB2312 0xB0-0xF7(176-247) 0xA0-0xFE(160-254)+ `4 d1 a8 h$ S  q' [7 O
  GBK 0×81-0xFE(129-254) 0×40-0xFE(64-254)* X3 J' b. x. `; x# j
  Big5 0×81-0xFE(129-255) 0×40-0×7E(64-126)或者0xA1-0xFE(161-254)) G: t6 t" O8 J" ?$ i4 T1 y
  2.3 字符集编码(Character Set Encoding)
; F6 [1 J) s  Z* G' g  ASCII,GB2312,GBK,BIG5,GB18030, UCS,Utf-8,utf-16,utf-32 都有自己分歧的轨则,都有自己的对应轨则,但都兼容ASCII。在使用时要注重这些编码彼此之间的转换轨则。对于没有转换轨则的编码系统之间进行转换只能依靠查编码表进行。
, w4 O, T! \( i+ a. T1 r+ [  2.4 ISO的编码系统! ~/ T+ h4 S6 R7 c* l
  2.4.1 ASCII编码: x5 u+ p1 M' U& u# L
  ASCII的编号是ISO-646。
" Y# N" I- z1 m0 U) U. c* R  2.4.2 ISO8859编码' x5 W$ s) O# f: u0 ?+ A
  ISO 8859,全称ISO/IEC 8859,是国际尺度化组织(ISO)及国际电工委员会(IEC)连系拟定的一系列8位字符集的尺度,现时界说了17个字符集。
0 G8 m* K# C% s9 g  K  * ISO 8859-1 (Latin-1) – 西欧说话
: b/ Z! ?, q4 F. o  * ISO 8859-2 (Latin-2) – 中欧说话4 ~" S, _9 O: @) d: N/ I
  * ISO 8859-3 (Latin-3) – 南欧说话。世界语也可用此字符集显示。
. ?) B# K8 L. x* e  * ISO 8859-4 (Latin-4) – 北欧说话
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Woexam.Com ( 湘ICP备18023104号 )

GMT+8, 2024-5-4 08:23 , Processed in 0.222632 second(s), 21 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表