a我考网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 140|回复: 0

[专业语言] Java认证:Java中编码以及Unicode总结(3)

[复制链接]
发表于 2012-8-4 12:44:44 | 显示全部楼层 |阅读模式
* ISO 8859-5 (Cyrillic) – 斯拉夫说话
& {: T5 Z. e+ t) G  * ISO 8859-6 (Arabic) – 阿拉伯语) m' |8 H  w, X$ y
  * ISO 8859-7 (Greek) – 希腊语
( b; y" C1 f8 O* n5 W# ^+ }  * ISO 8859-8 (Hebrew) – 希伯来语(视觉挨次)
2 l. }# q# [9 ?% [8 ?  * ISO 8859-8-I – 希伯来语(逻辑挨次)7 ]5 W5 [( p+ c; f* S2 N
  * ISO 8859-9 (Latin-5 或 Turkish) – 它把Latin-1的冰岛语字母换走,插手土耳其语字母。
6 b7 R- E' F  n3 g  * ISO 8859-10 (Latin-6 或 Nordic) – 北日耳曼语支,用来庖代Latin-4。8 d% f" C# M) y6 H5 D( l& j
  * ISO 8859-11 (Thai) – 泰语,从泰国的 TIS620 尺度字集演化而来。
+ A5 G" m5 n; E! |& A0 o8 y  * ISO 8859-13 (Latin-7 或 Baltic Rim) – 波罗的语族4 P6 A) g4 `& }, T
  * ISO 8859-14 (Latin-8 或 Celtic) – 凯尔特语族( O6 L0 t5 u0 @+ ^+ D) q
  * ISO 8859-15 (Latin-9) – 西欧说话,插手Latin-1欠缺的法语及芬兰语重
0 H& L. p- l$ Y/ ~6 y- Z5 e5 m  4
1 n/ x% n9 ]/ U( C+ a  音字母,以及欧元符号。, }8 g& i# `- A7 p, v8 u
  * ISO 8859-16 (Latin-10) – 东南欧说话。首要供罗马尼亚语使用,并插手欧元符号。
; f* B+ l2 H( `+ t0 U  2.4.3ISO10046(UCS)编码与Unicode
  c0 S; Z  r/ l% l) y: z  UCS :
! e4 t' I. ?/ L1 K8 ]  通用字符集(Universal Character Set,UCS)是由ISO拟定的ISO 10646(或称ISO/IEC 10646)尺度所界说的字符编码体例,采用4字节编码。+ A( r  S3 z/ S4 `* B/ P
  Unicode:
2 R/ e8 p: J% G' ~- Z# X" X  Unicode(统一码、万国码、单一码)是一种在计较机上使用的字符编码。  S" T; N1 x* h: J
  它是http://www.unicode.org 拟定的编码机制,要将全世界常用文字都函括进去。它为每种说话中的每个字符设定了统一而且独一的二进制编码,以知足跨说话、跨平台进行文本转换、措置的要求。1990年起头研发,1994年正式发布。跟着计较机工作能力的增强,Unicode也在面世以来的十多年迈获得普及。但自豪unicode2.0起头, Unicode采用了与ISO 10646-1不异的字库和字码,ISO也承诺ISO10646将不会给超出0×10FFFF的UCS-4编码赋值,使得两者连结一致。Unicode的编码体例与ISO 10646的通用字符集(Universal Character Set,UCS)概念相对应,今朝的用于适用的Unicode版本对应于UCS-2,使用16位的编码空间。也就是每个字符占用2个字节,根基知足各类说话的使用。现实上今朝版本的Unicode尚未填布满这16位编码,保留了大量空间作为非凡使用或未来扩展。
* U- g' I  D) b, X7 g* ~  UTF:
. b: b9 W! i& c  Unicode 的实现体例分歧于编码体例。
; V0 w7 n6 V& G/ y" v  一个字符的Unicode编码是确定的,可是在现实传输过程中,因为分歧系统平台的设计不必然一致,以及出于节约空间的目的,对Unicode 编码的实现体例有所分歧。Unicode的实现体例称为Unicode转换名目(Unicode Translation Format,简称为 UTF)。
& e; [3 O, O* H0 @: S8 ~) @  UTF-8: 8bit变长编码,对于大大都常用字符集(ASCII中0~127字符)它只使用单字节,而对其它常用字符(出格是朝鲜和汉语会意文字),它使用3字节。0 l$ j) t, s$ s1 ~1 J
  UTF-16: 16bit编码,是变长码,大致相当于20位编码,质ё仝0×0000到& H# i! V$ U4 G
  0×10FFFF之间,根基上就是Unicode编码的实现,与CPU字序有关。/ @& c7 u! D! Q1 p# P1 |, z1 E! l/ f, \
  UTF-32:32bit编码,定长编码对应于字符的Unicode暗示。
4 _' E/ M  s+ U- M  Unicode big endia:
# l$ B' {& O' x& i  \" L+ [' _  在Windows系统中保留文本文件时凡是可以选择编码为ANSI、Unicode、Unicode big endian和UTF-8,这里的ANSI和Unicode big endia是什么编码呢?% X9 O' n' W+ G: g: Y" h
  UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在诠释一个UTF-16文本前,首先要弄清嚣张每个编码单元的字节序。1 C* I: q4 `! v  J- h
  Unicode规范中举荐的标识表记标帜字节挨次的体例是BOM(即Byte Order Mark)。  o" g9 T3 v# y2 V' u0 D0 E- v, z
  在UCS编码中有一个叫做”ZERO WIDTH NO-BREAK SPACE”的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该呈此刻现实传输中。UCS规范建议我们在传输字节约前,先传输字符”ZERO WIDTH NO-BREAK SPACE”。( M+ J* q7 Y. }+ V
  如不美观领受者收到FEFF,就剖明这个字节约是Big-Endian的;如不美观收到FFFE,
  |" a3 o. G' [6 x- P6 B  e  5# L; S, V+ U/ y4 S" {$ `! Q( L
  就剖明这个字节约是Little-Endian的。是以字符”ZERO WIDTH NO-BREAK SPACE”又被称作BOM。Windows就是使用BOM来标识表记标帜文本文件的编码体例的。
' u1 y0 S. J# |! U( m  2.5 codepage的编码系统
( x* r6 k& F2 v! h- J- w  codepage 指的是一个经由遴选的以特定挨次枚举的字符内码列表,对于早期的单字节内码的语种,codepage中的内码挨次使得系统可以按照此列表来按照键盘的输入值给出一个对应的内码。对于双字节内码,则给出的是MultiByte到Unicode的对应表,这样就可以把以Unicode形式存放的字符转化为响应的字符内码。近似unicode,只是此外一种字符编码体例,注重ASP和SAP中的codepage的区别。
1 O5 Y6 l; ?2 T3 d, ]  ASP中:
& @5 n! ?. T: p/ D/ z  CodePage的浸染,是抉择页面以何种编码体例显示动态内容。当页面被处事器措置之后,页面将以CodePage设定的编码输出到客户端。当然,CodePage的参数需正确,否则,将发生错误信息“CodePage 值无效。指定的 CodePage 值无效。”(事务ID: 0204)。如不美观CodePage没有设置,则处事器使用默认的CodePage加载到你的Session琅缦沔,使用轨范代码: Response.Write(Session.CodePage)可以查看你当前使用的CodePage。
4 d" {" p* t. |/ x, U; O: H3 a  SAP中:最经常我们使用的篡夺数据的体例就是使用GUI_UPLOAD这个FM.在这个FM中有个CODEPAGE,是用来指定代码页的。, [1 i8 w6 v9 K% l0 T
  Siebel Value+ v! r& q! I* J3 t% m# O% y
  SAP Code page8 v  K: q, i7 j" U4 @  |) H
  Description
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Woexam.Com ( 湘ICP备18023104号 )

GMT+8, 2024-4-29 19:25 , Processed in 0.494958 second(s), 21 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表