Java认证之Java中编码以及Unicode总结（8）

会计考友 · 发表于 2012-8-4 12:44:44

Java认证之Java中编码以及Unicode总结（8）
11
　　字节序
　　根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。例如：
　　Unicode编码 ║ UTF-16LE ║ UTF-16BE ║ UTF32-LE ║ UTF32-BE
　　0×006C49 ║ 49 6C ║ 6C 49 ║ 49 6C 00 00 ║ 00 00 6C 49
　　0×020C30 ║ 43 D8 30 DC ║ D8 43 DC 30 ║ 30 0C 02 00 ║ 00 02 0C 30
　　BOM
　　那么，怎么判断字节流的字节序呢？Unicode标准建议用BOM（Byte Order Mark）来区分字节序，即在传输字节流前，先传输被作为BOM的字符”零宽无中断空格”。这个字符的编码是FEFF，而反过来的FFFE（UTF- 16）和FFFE0000（UTF-32）在Unicode中都是未定义的码位，不应该出现在实际传输中。下表是各种UTF编码的BOM：
　　UTF编码 ║ Byte Order Mark
　　UTF-8 ║ EF BB BF
　　UTF-16LE ║ FF FE
　　UTF-16BE ║ FE FF
　　UTF-32LE ║ FF FE 00 00
　　UTF-32BE ║ 00 00 FE FF
　　5、
　　java中使用的Unicode
　　5.1 内部编码
　　Java中，字符只以一种形式存在，那就是JVM内部的内部表示，Unicode码编号（U+0000~U+10FFFF）。JVM的唯一确定一个字符使得一个编码在进入jvm或者从jvm输出时需要进行编码转换。也就是编码转换只发生在JVM和OS以及网络传输的交互地带，也就是IO的各种 byte或者 reader/writer输入输出发生作用的地方。在JVM和OS以及网络流交互的时间，Reader和Writer只是适用默认编码进行了默认的编码转换，来转换为字符流。面向字符是指系统文件中的字符和内存中的要一致。而面向字节是要保证系统中的二进制内容和读入JVM内部的二进制内容要一致。
　　5.2 utf-16
　　总共17个平面
　　0×0000~0×10FFFF 1114112-2048=1112064个码位
　　Unicode已定义的码位是238605个
　　平面15之定义了占65534个码位的专用区，0xF0000~0xFFFFD。
　　平面16之定义了占65534个码位的专用区，0×100000~0×10FFFD。
　　平面0中定义了6400个专有区，0xE0000~0xF8FF。
　　238605-65534*2-6400-2408=99089余下的分布在平面0、1、2、14上。
　　12
　　平面0上定义了52080个字符；
　　平面1上定义了3419个字符；
　　平面2上定义了43253个字符；
　　平面14上定义了337个字符。
　　平面2的43253个字符都是汉字，平面0上定义了27973个汉字。
　　基本平面 0×0000~0xFFFF
　　1~14平面 0×10000~0xEFFFF 0xD800~0xDBFF高位 DCOO~DFFF低位
　　15平面 0xF0000~0xFFFFF 0xDB80~0xDBBF高位 DCOO~DFFF低位
　　16平面 0×100000~0×10FFFF 0xDBC0~0xDBFF高位 DCOO~DFFF低位
　　5.3高位序列和低位序列的判断
　　java.lang.String#getBytes（String）的源代码
　　java.lang.StringCoding.encode 的源代码，再通过其底层类库的字符集类sun.io.CharacterEncoding 可以找出 Unicode 的转换器，是采用sun.io.CharToByteUnicode 这个类的，这个类的 sun.io 包是读取file.encoding.pkg 这个系统属性拼接字符串反射而来的。

		自动登录	找回密码
密码			立即注册

[专业语言] Java认证之Java中编码以及Unicode总结（8）