解压缩格式,介绍格式标准的数据

您可能听 IT 部门的人员说过“标准格式”的 XML。标准格式的 XML
文件遵循一组管理 XML 的、非常严格的规则。如果文件不遵循这些规则,XML
就会停止运行。例如,在上面的代码示例中,每一个开始标记都有对应的结束标记,因此该示例遵循一种标准格式的规则。如果您删除一个标记,然后尝试在一个
Office
程序中打开该文件,您将会看到一条错误消息,并且该程序会阻止您使用该文件。

Microsoft Office 2003 和 2007 Office 发布版的专业版都提供强大的 XML
支持。

简介

您不必了解创建标准格式 XML 的规则,但确实需要记住:只有在 XML
数据采用了标准格式的情况下,才可以在程序和系统之间共享该数据。如果某个
XML 文件无法打开,则该文件很可能不是标准格式的。

-Office Excel 2007、Office Word 2007 和 Office PowerPoint 2007 都使用
XML 作为默认文件格式,此更改具有多种优点。 -较小的文件大小。与 Office
早期版本中使用的二进制格式相比,新格式使用 ZIP
和其他压缩技术使文件大小减少 75%。
-简化了信息恢复过程并具有更强的安全性。XML
是用户可读的,因此如果文件已损坏,您可以在 Microsoft
记事本或其他文本阅读器中打开该文件,然后至少可以恢复一些信息。另外,新文件会更安全,因为它们不能包含
Visual Basic for Applications 代码。如果您使用新格式创建模板,则所有
ActiveX 控件和 VBA
宏都驻留在文件中的单独且更安全的部分中。另外,您还可以使用文档检查器等工具删除所有个人数据。有关使用文档检查器的详细信息,请参阅从
Office 文档中删除隐藏数据和个人信息一文。 -更强的可移植性和灵活性。由于
XML
以文本格式而不是专用的二进制格式存储数据,因此客户可以定义他们自己的架构并以多种方式使用您的数据而无须支付版税。有关新格式的详细信息,请参阅开放式
XML 文件格式简介。 -每个 Office 程序都附带不同的工具集。您在 Word
中使用的用户界面和过程与您在 Excel 或 PowerPoint
中使用的用户界面和过程不同。这是为什么?因为适用于 Word
的功能不一定适用于 Excel,等等。 -只要 XML 是标准格式的,Office
程序就可以使用其他供应商的架构、转换和数据。 -某些 Office 程序在后台使用
XML,而某些程序(如 Microsoft Office OneNote™)根本不支持 XML。了解
Office 程序如何支持 XML 的最好方法是启动相应程序的联机帮助,并搜索 XML。

Microsoft Office Word 2007提供了一种新的默认文件格式,叫做Microsoft
Office Word XML格式(Word XML格式)。这种格式基于开放打包约定(Open
Packaging
Conventions),XML
Paper
Specification (XPS)也是基于这个约定。Microsoft
Office 97到Microsoft Office
2003中使用的二进制文件格式仍然可以作为一种保存格式来使用,但是它不是保存新文档时的默认文档。

XML 还不受平台的限制,这意味着,无论硬件或操作系统是什么,为使用 XML
而构建的任何程序都可以读取和处理 XML 数据。例如,利用正确的 XML
标记,就可以使用桌面程序打开和处理大型机中的数据。另外,无论是谁创建了
XML 数据体,您都可以通过若干 Microsoft Office 2003 和 Microsoft Office
专业版 2007 程序(包括 Microsoft Office Access 2007、Microsoft Office
Word 2007、Microsoft Office InfoPath 2007 和 Microsoft Office Excel
2007)处理相同的数据。由于 XML
具有可移植性,它已成为用于在数据库和用户桌面之间交换数据的最受欢迎的技术之一。

目前为止没什么问题,但是,如果 XML 数据没有架构会怎么样呢?支持 XML 的
Office 程序有办法帮助您处理数据。例如,如果您在 Word
中打开没有附加架构的 XML 文件,Word
将同时显示标记和数据,并允许您在文件创建者或 IT
部门提供转换的情况下应用转换。至少,您可以查看文件中的标记和数据。

在1999年发布的,Microsoft通过Microsoft Office Excel
2002中的SpreadsheetML,将XML引入了Microsoft Office
XP当中。SpreadsheetML是一个良好的开始,但是它没有提供完全真实的功能。在下一个版本的Microsoft
Office产品中,Microsoft Office Word
2003引入了WordprocessingML。WordprocessingML是非常重要的一步,因为它是Microsoft
Office提供的第一个完全真实的XML文件格式。通过Microsoft Office
2003,您可以解析WordprocessingML文件,向其中添加、更新或处理数据。但是,仍然存在着一些限制。例如,您必须将二进制文件(例如图
片)编码为XML文件中的文本,如果文件中包含大量图片的话,这必然会增加文件的尺寸。另外,Word
2003直接将所有自定义XML数据嵌入到描述文档的WordprocessingML当中。这样使得自定义XML难于访问和处理所有的外部过程。

图片 1

相反,如果您打开没有架构的 XML 文件,Excel
将自行推断架构,随后会允许您选择将此数据加载到只读文件中,或将数据映射到
XML 列表(在 Microsoft Office Excel 2003 中)或 XML 表(在 Office Excel
2007 中)中。您可以使用 XML 列表和表对数据进行排序、筛选或计算。

Word
2007中新的文件格式将文件分成一些文档部件,其中每个部件定义了文件的部分内容,这样就解决这些问题。当您希望更改文件当中的一些内容的时候,您可以
简单的查找您希望更改的文档部件,例如页眉,然后无需影响其它基于XML的文档部件,就可以编辑它。类似的,所有的自定义XML数据都有它自己的部件。现
在,处理自定义的XML就更加简单的。这允许您使用很少的代码来生成文档。新的文件格式更加的强大,并且可以更为简单地处理自定义XML,而且它比二进制
文件格式要更小。新的文件格式使用开放打包约定,利用ZIP技术。本篇文章将浏览Word
2007文档中这种新文件格式的结构。

除了使用标准格式的标记数据之外,XML
系统通常还使用其他两种组件:架构和转换。以下部分将介绍这两种组件的工作方式。

Office 专业版 2007 和 Microsoft Office 2003 都提供相同的 XML 工具集。在
Office 专业版 2007 中,必须先启用 XML
支持,然后从不同的位置启动这些工具。不过,在启动这些工具后,它们在
Microsoft Office 2003 和 Office 专业版 2007
中的工作方式相同。以下步骤介绍如何启动 Office Excel 2007 和 Office Word
2007 的 XML 工具。

Word 2007 文档包

Word
2007中的文件格式由一个压缩的ZIP包组成,称为包。这个包中包含了文档中的所有内容。通过这种包格式,可以减少Office文档文件的容量,因为它
是使用ZIP压缩的。新的格式也更加的稳定,而避免了传输或处理中可能出现的错误。它允许您使用工业标准的ZIP工具,来处理文档的内容。最为简单的查看
这咱新文件格式的方法是,将一个Word
2007文档保存为这种新的默认格式,然后将这个文件重命名为.zip扩展名。双击文件,打开并查看它的内容。

注意 为了理解基于Microsoft Office Open XML格式(Office
XML格式)的组成,您可以将它的所有部件提取出来。要打开这个文件,您需要在您的计算机中安装一个ZIP工具,例如WinZip。您可以通过以下步骤在
Word 2007中打开一个Word XML格式:

1.

创建一个临时目录来存储文件和它的部件。

2.

创建一个Word
2007文档,包括文本,图片,以及其它元素,保存为一个.docx文件。

3.

在文件名的末端添加一个.zip扩展名。

4.

双击文件。这时将会在ZIP应用程序当中打开该文件。您可以查看组成文件的每个部件。

5.

将这些部件提取到刚才创建的临时目录当中。

6.

集成的ZIP压缩可以将文件的尺寸减少百分之75。文件最终被分成一些模块化的文件结构,它使得数据的恢复更为可行,并且增强了安全性。新的格式将文件分成了不同的组件,从而可以独立的管理和修复。以新格式创建的文件也根据不同的文件类型,拥有一些特殊的扩展名。

表 1. Word 2007 文件类型的扩展名

Word 2007 文件类型

扩展名

Word 2007 XML 文档

.docx

Word 2007 XML 启用宏的文档

.docm

Word 2007 XML 模板

.dotx

Word 2007 XML 启用宏的模板

.dotm