XML 中的 ﹤![CDATA[ ]]>，及其解析

关键要点

CDATA（Character Data）是 XML 中的一种特殊部分，用于包含不被解析为 XML 标记的纯文本。
<![CDATA[ ]]> 的语法允许直接包含特殊字符（如 <, >, &），无需转义。
解析时，CDATA 内容被视为字符数据，不会被解释为 XML 元素或实体。

什么是 CDATA 及其用途

CDATA 部分以 <![CDATA[ 开始，以 ]]> 结束，目的是在 XML 文档中包含一段文本，使其不被 XML 解析器解析为 XML 标记。这特别适用于文本中包含 XML 保留字符（如 <, >, &）的情况，避免需要手动转义这些字符。例如，在代码片段或脚本中，CDATA 可以简化处理。

如何解析 CDATA

当 XML 解析器遇到 CDATA 部分时，它会将 <![CDATA[ 到 ]]> 之间的内容视为纯文本，不进行进一步的 XML 解析。这意味着里面的 < 和 & 不会被视为标签或实体引用，而是直接保留为原始字符。

示例说明

例如：

<example>
  <![CDATA[
    This is some text with <tags> and &entities;.
  ]]>
</example>

解析后，内容会被视为字符串 This is some text with <tags> and &entities;.，而不是 XML 标记。

详细调研笔记

XML 中的 CDATA（Character Data）部分是一个重要的特性，特别是在处理包含特殊字符的文本时。以下是关于 <![CDATA[ ]]> 的定义、用途、解析方式以及相关细节的全面分析，基于最新的研究和权威资料。

CDATA 的定义与语法

CDATA 意为“字符数据”，是 XML 文档中用于包含不被解析为 XML 标记的文本块的机制。其语法为：

开始标记：<![CDATA[
结束标记：]]>

根据 W3C 的 XML 规范（可参考 W3Schools – XML DOM CDATASection），CDATA 部分允许在 XML 文档中直接包含特殊字符（如 <, >, &），而无需使用实体引用（如 <, >, &）。这在处理代码片段、脚本或其他可能包含 XML 保留字符的文本时非常有用。

例如：

<example>
  <![CDATA[
    <script>alert("Hello & Welcome");</script>
  ]]>
</example>

在这里，<script> 和 & 不会被解析为 XML 标记，而是作为纯文本处理。

CDATA 的用途

CDATA 的主要用途是避免对文本中的 XML 保留字符进行手动转义，尤其在以下场景中：

包含代码或脚本：如 JavaScript 或 HTML 片段，里面可能有大量的 <, >, &。
嵌入 XML 片段：当需要在 XML 文档中嵌入另一个 XML 文档时，CDATA 可以防止嵌套解析。
简化维护：相比于手动转义大量字符，使用 CDATA 可以使文档更易读和易维护。

根据 TutorialsPoint – XML CDATA Sections，CDATA 部分被解析器视为“字符数据”，不会被解释为标记或实体引用，这使得它成为处理复杂文本的理想选择。

CDATA 的解析过程

当 XML 解析器处理文档时，遇到 <![CDATA[ 时，会进入 CDATA 模式，直到遇到 ]]> 为止。在此模式下：

解析器不会将内容解析为 XML 元素、属性或实体。
所有字符（包括 <, >, &）都被视为字面意义上的字符数据。
解析后的结果通常作为元素的内容返回，供应用程序使用。

例如，使用 Python 的 xml.etree.ElementTree 库解析：

import xml.etree.ElementTree as ET

xml_string = '''
<example>
  <![CDATA[
    This is some text with <tags> and &entities;.
  ]]>
</example>
'''

root = ET.fromstring(xml_string)
print(root.text)  # 输出：This is some text with <tags> and &entities;.

从输出可以看出，CDATA 内容被完整保留，没有被解析为 XML 标记。

根据 [Stack Overflow – What does < 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传，CDATA 部分的内容在解析后被视为纯文本节点，应用程序可以直接访问这些数据，而无需担心 XML 解析的干扰。

限制与注意事项

尽管 CDATA 非常实用，但也有一些限制需要注意：

不能嵌套：CDATA 部分不能包含在另一个 CDATA 部分内，否则会导致解析错误。根据 GeeksforGeeks – XML CDATA Sections，嵌套 CDATA 是无效的。
禁止 ]]>：CDATA 内容中不能包含 ]]>，因为这是 CDATA 的结束标记。如果需要包含类似序列，必须通过其他方式处理（如分割内容）。
HTML 中的特殊处理：在 HTML 中，CDATA 通常被视为注释，不会被显示（参考 MDN – CDATASection），但这不适用于 XML 上下文。

此外，根据 Wikipedia – CDATA，CDATA 部分不影响 XML 文档的结构，但需要确保内容不会意外包含结束标记，以避免解析错误。

实际应用场景

CDATA 在实际开发中有广泛应用，例如：

Web 开发：在 SOAP 或 REST API 的 XML 响应中，CDATA 常用于包含未经解析的 HTML 或脚本内容。
数据交换：当 XML 用于数据传输时，CDATA 可以确保特殊字符不被误解。
文档存储：在存储代码片段或日志时，CDATA 可以简化处理。

例如，SoapUI 文档 – Working with CDATA 提到，在功能测试中，CDATA 常用于处理未解析的文本块，确保测试数据正确传递。

对比与争议

与手动转义字符相比，CDATA 提供了一种更简洁的方式，但也存在争议：

性能影响：一些开发者认为，过多的 CDATA 使用可能会增加文档大小，影响解析效率，但研究表明（参考 InformIT – Bypassing Parsing with CDATA），这种影响通常可以忽略。
可读性与维护：CDATA 提高了可读性，但如果滥用，可能导致文档结构复杂化，特别是在需要嵌套 XML 时。

目前，主流观点认为，CDATA 在适当场景下（如包含大量特殊字符的文本）是最佳选择，但需要根据具体需求权衡。

总结与建议

CDATA 是 XML 中处理特殊字符的强大工具，通过 <![CDATA[ ]]> 语法，可以轻松包含不被解析的纯文本。解析时，内容被视为字符数据，保留原始格式，适用于代码片段、脚本等场景。使用时需注意不能嵌套和避免包含 ]]>。对于开发者，建议在需要处理复杂文本时优先考虑 CDATA，以简化维护和提高可读性。

以上分析基于 2025 年 8 月 7 日的最新资料，确保信息的准确性和权威性。

关键要点

什么是 CDATA 及其用途

如何解析 CDATA

示例说明

详细调研笔记

CDATA 的定义与语法

CDATA 的用途

CDATA 的解析过程

限制与注意事项

实际应用场景

对比与争议

总结与建议

likuolei

发表回复取消回复

2026 年 6 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关键要点

什么是 CDATA 及其用途

如何解析 CDATA

示例说明

详细调研笔记

CDATA 的定义与语法

CDATA 的用途

CDATA 的解析过程

限制与注意事项

实际应用场景

对比与争议

总结与建议

likuolei

发表回复 取消回复

相关文章

发表回复取消回复