XML语言基础知识0 J" K. r2 P! ^3 N% c) s
A.概述性问题7 R0 R% a9 H7 w) w6 z% i- k
A.1 什么是XML?9 F9 u( h1 o# o' C* E8 _" E V
XML 全称是“可扩展标识语言“(Extensible Markup Language)。之所以称之为可扩展,是因为它不像HTML 那样只有固定的形式。它是被用来使SGML 能在万维网上能应用自如。
@1 o0 z4 a8 q9 J m9 n XML并不是一个独立的,预定义的标识语言。它是一种元语言。它是用来描述其他语言的语言。它允许你自己设计你的标识。(HTML 是一种预定义的标识语言。HTML 只是在一类特定的文件中定义了一种描述信息的方法。而XML 能允许你在不同的文件中定义你自己设计的标识语言。)这是因为XML 是用SGML (“通用标识语言标准”国际标准的标识元语言)书写的。
- B5 `4 P+ g% N0 U0 g A.2 XML的目的是什么?
5 W2 {* q6 Q6 H XML是被设计用来使SGML 能在万维网上能自如应用的:方便地定义文件类型,方便地制作和管理用SGML定义的文件,在网上方便地传输和共享这些文件。 . R& l; Q% z$ S1 Q: z# F2 a$ T
A.3 什么是SGML?
# `; e1 I1 M" L2 `( b SGML的全称是“Standard Generalized Markup Language“(通用标识语言标准)。它是国际上定义电子文件结构和内容描述的标准。在往上有以下相关资源:# u; h: J' v5 ?2 Y( w
SGML FAQ: http://www.infosys.utas.edu.au/info/sgmlfaq.txt" J" G J0 X! h- g* N$ J% h7 Z& O9 ?0 @
SGML 主页: http://www.oasis-open.org/cover/sgml-xml.html
% c" R7 g3 K- f& N4 y A.4 什么是HTML?$ C6 g( [( L y$ K! n
HTML的全称是“HyperText Markup Language “(超文本标识语言)。它是SGML在网络上的一个特殊应用。 g" a4 U9 j3 p
A.5 XML,SGML,HTML是不是一回事?
! }5 @. U) r$ M0 k, h 不竟然。SGML是XML和HTML的母语言。SGML的覆盖面很广。它几乎涉及人们生活的每一个领域。它被用来描述成千上万中文件。HTML只是其中一种文件类型,是一种在网上最常用的类型。它定义了一种简单而固定且含标识的文件类型。, I9 A$ h4 ~5 I
XML是SGML的简化版。为了实现更加方便地编写和理解应用程序,更加方便地在网络上传输信息,更加方便地实现互操作性,XML申略了一些SGML中复杂和不常用的部分。但XML还能和SGML一样通过解析。
8 P' g2 ?$ F: P0 ` A.6 SGML/XML 和C/ C++?什么不同?, c' {5 i! F% k$ ~2 A1 @2 Q
C和C++和Fortran, Pascal, Basic, 或是Java一样都是编程语言。是用来制定运算和操作的。0 t6 w; l) X' M8 V
而SGML和XML标是说明性的语言。它们是用来表现信息的。它们使得信息能被程序正常地存储传输和处理。就它们本身而言,并不能产生什么操作。操作要由应用程序来实现。 9 A5 c8 \" B4 N6 W' G
A.7 是由谁负责XML?! }% H+ N: k' i3 x3 d. @
XML是W3C(World Wide Web Consortium 万维网络联盟)的一个项目。XML不是任何一家公司的私有财产。 ) C* D& t3 s6 V* x1 ^0 f
A.8 为什么XML是一项重要的技术?$ ~/ Q' W" p2 {) R6 h% g
应为它解决了两个制约网络发展的问题:
) ?# p! C9 f( U* l* J3 N 1.基础是单一固定的文件类型。(HTML);
7 `9 B" {" C) V; ~" y 2.完整的SGML过于复杂。
& B# `7 j! o( `' |$ F7 g A.9 为什么不只是扩展HTML?1 D7 f; }3 z& T& g, ]
不同的厂家在开发HTML时产生了许多有趣但却不兼容的发明。这已使HTML不堪重负。因为这使得你只能用一种方法表现你的信息。XML却允许许许多多的个人与组织来创造他们自己的标识语言。应用这些标识语言他们可以在自己的领域内自由地交换信息。HTML在表现信息方面是有缺陷的。当然我们必须承认它现在仍然扮演着重要的角色。但许多新的应用领域需要更加强大和灵活的工具。 / D$ U! Z' x* s
B.SGML的使用(包括HTML的各种浏览器) 5 L" j, ~4 }( `: s- E" A
B.1 为什么我们要推荐XML而不主张HTML?: a* C {9 L; K9 `: }
1.我们可以用XML设计自己的文件类型。
+ Q8 v+ ^; Y e; t" ^1 d" I; Q 2.信息的内容将更加丰富,更加方便使用。在XML中超文本链接的能力比HTML更强。/ m* l6 ~ n/ M) m K
3. XML能使得浏览器的表现形式更加丰富。
3 e- s) Z% f1 l# W, A 4.处理XML文件比.处理SGML文件来得简单。信息的开放性和重复使用的性能斗将提高。/ f0 W* v7 Q/ a( r' c
5.合法(Valid 参见D中Valid与-formed)的XML文件在SGML中也是合法的。+ ?8 Y, ^$ L$ N- F2 y( q+ x" @
B.2 我是不是必须由SGML或是HTML转向XML?
4 t& g% m- Y3 X" i7 ?, s6 R8 k/ J6 T) P 不是的。现存的SGML和HTML的应用软件仍能正常处理现有的文件。 ) s1 o0 j8 k6 |' y4 h9 S% c( G
C. SGML 和HTML的编写- B5 K4 p6 k, h2 Z ^
C.1 XML是否已取代了HTML?, J2 x% e+ P* v( Q3 B
没有。XML并没有取代HTML。它只是给了你一种新的选择。HTML将仍在一段时间内广泛地被使用。HTML的DTD(参见C中DTD)将既有XML版本,又有SGML版本。但XML版本更加简单。 , E. G3 F" H* C& q1 ]. I
C.2 XML文件是怎样的?
0 G% F7 P0 P: N) ? 它的基本结构和SGML和HTML差不多。XML文件可以非常简单。它可以不需要文件类型说明,而直接就是你自己设计的内嵌式标识。 C.4 既然说XML是SGML的子集,我能不能用SGML的工具直接处理XML文件?
2 H% }1 x" [+ b 是的.而且非常简单。一个结构完整的XML文件和HTML文件非常相像。当然也有一些小的而且是重要的不同。在实际操作当中最大的不同就是XML文件必须摇遵守一定的法则。HTML的浏览器可以允许一些小的错误。而如果是XML就行不通了。5 x2 k; X2 X% p& j
C.5 什么是DTD?我能在哪儿找到?1 m; [% A$ K- y7 _+ u
DTD的全称是“Document Type Definition“(文件类型定义)。具体地说,DTD是一个或是一些用XML书写的文件。它包含了对一种文件的正式定义。它定义了文件中的元素能用什么名字,能放在什么位置,应该怎样组合。在这里举一个简单的例子。比如说你想要你的文件可以描述一组,其中每个由可以包含若干个。那么你的DTD中应该有以下语句:) |: n7 O5 c$ \- O3 _ x8 k
; x# e2 r! K* r8 x
这样一个框架定义了一个表(list),它可以包含若干个项(items)。每一个项只能包括文本的内容。当处理器处理XML文件时将自动检查DTD,以此确定文件中元素从哪而来,以及它们之间是什么关系。上面的框架允许你生成下面的一个表:' J( f+ j0 n1 P' ~" ?& n0 c
ChocolateMusicSurfing) ]4 a7 F, d4 i+ X1 C1 `
而这样一个表在屏幕上是怎样一个表象,取决于你的样式表(Stylesheet)。在HTML中你要在文件中指定应是怎样的形式。使用DTD表明你能够确定一类文章的结构和格式。7 z' p$ b0 C" A5 _/ P/ J* Z' d
要想找一个DTD看看吗?实际上,各个领域里的SGML DTD由成千上万。你可以参看SGML 的网页。 ; t1 V% P$ ], z5 g
C.6 我总是听说DTD的替代者Schema,它到底是什么?
& \% c, P9 Y) P( B# ~' q R 有许多XML的开发者并不满意XML的规范。原因有两点:
g! K2 [0 _4 b* F$ E) ~ 1.既然XML在说明结构信息是有很多好处,那么用来描述文件类型的结构的文件(这就是Schema)为什么不是也用XML书写的呢?这样做的好处不光是统一,而且便于用正规的文件工具编辑管理Schema。$ q7 \+ R! o5 J
2.过去的DTD对数据的限制不够。比如说你想要一个元素只取负值,或是必须有一个值,DTD很难做到。 8 p+ {5 }) f {3 B4 r0 E$ w
C.7 我能用XML作算术运算吗?
- r2 C* V4 N; U; N5 q5 P! P 只要你的文件类型提供算术类型,知识可以的。W3C已经有了一个MathML(Mathematical Markup Language数学标识语言)的计划。清参看W3C最新(1999年7月)发布的MathML规范。: h6 A# C1 h6 G3 A1 K
C.8 在XML中,我能使用Java, ActiveX吗?
9 s( q( ^2 I5 d; K/ [ 这取决于浏览器制造者运用的工具. XML是用来描述信息的; 描述性语言和用来描述内嵌函数功能的语言的目的是使得信息能在客户端被操作.. XML本身提供了一种定义标识的方法,而这些标识是描述性语言所必需的. XML是一个中立的标准.他不支持或是反对任何一种描述性语言.所以说它是一个开放的领域. 描述性语言是在”Extensible Style Language”XSL (可扩展类型语言).计划中提出的.; K0 P6 M3 `% ^) d
C.9 我能用Java编写或是管理XML文件吗?
; G9 x5 ^! X% ^) M7 w7 F 可以.我们可以用任何一种编程语言从任何一种XML格式的信息中提取数据.! p7 Z' _- m; h+ i9 ^% a3 l! Y
* D k: q- f' ?) e" m. c
D.高级开发者和应用者(包括网络管理员和服务器操作人员)
2 U' E7 t# t4 I8 W% U/ U5 j; W$ n4 w D.1哪儿可以找到XML的规范?) R/ y, t: ~" i/ H
请参见: http://www.w3.org/TR/REC-xml
Y8 P* i( D3 X% m# _ D.2 "DTDless" ,"valid",和"well-formed"这些术语是什么意思?+ o- r3 E" @: o3 p) W0 g8 \) {
在完整的SGML中,我们用DTD描述特定文件中的各种标识.但DTD的生成是一件极其复杂的工作.所以XML被设计成可以缺省DTD. DTDless表示您可以创造一个标识而不需正式的定义.当然这也要付出代价.您不能在其他的文件中对同样的形式采用自动的处理. DTDless的文件是以一种非正式的方式定义它的标识的.标识是在哪儿出现的就在哪儿定义它.但当一个比方说是浏览器的XML应用程序打开了一个DTDless的文件,它必须要有办法来理解文件的结构.但它又没有DTD,所以规则上有了一些改变. 举一个例子:" b* d$ J$ z1 n
HTML中的<img> 是被定义为”EMPTY”(空)的.它并不需要”end-tag”(结尾标签). DTD 的XML应用程序在打开一个缺省DTD. 的文件,读到<img>时不知道是否需要一个”end-tag”.所以”well-formed”(结构良好)的定义也变得重要了. ”well-formed”可以使得一般元素和”EMPTY”元素区分开来.# G4 x, v$ G% x9 q' E [
D.2.1 ”well-formed”(结构良好的)文件
! l) B! k2 |' ? 1.如果一个文件没有DTD,它必须在开头处有一个"Standalone Document Declaration"(独立文件声明):
' _: u. [3 a* L3 R3 S , ]6 ^$ [+ m: |0 o N
: G0 K& I& g$ }2 E7 g4 }0 p/ I
. ......* S I( U% P$ g1 y8 `2 i2 K- N
5 K5 K$ e7 @3 X/ D
2.除了空素以外, 标记必须前后匹配.
) m$ V% l2 N$ `& f. w' c4 ?( N+ p& T 3.所有的”attribute”值都要用引号括起来.+ S- L+ _8 n: g4 e' Q) i7 S7 L
4. ”EMPTY”元素的tag要么用”/>”结尾,要么要补成”non-EMPTY”(非空)的元素. 比如说:
9 z0 e) M* q k. B要么写为. K, k, |$ F, m$ a2 s/ \
或是# h( X9 ?- A0 }2 i; h E
</BR>
+ ^* @" s: ^! Q
7 Q4 E6 Y0 P. D) l# g& i- | V 5.文件中必须不能出现”markup-start “(标识开始符), 比如” |