GBK编码表

关键要点

  • GBK编码表是GBK字符编码方案中所有字符及其编码值的列表,适用于简体中文字符。
  • 它扩展了GB 2312,包含约21,886个字符,包括中文、日文、英文等。
  • 编码分为单字节(0x00–0x7F)和双字节(0x81–0xFE)形式,具体范围复杂。
  • 可通过在线资源查看完整列表,推荐可靠网站。

GBK编码表简介

GBK(国家标准扩展)是一种用于简体中文的字符编码,扩展自GB 2312,包含GB 13000.1-93(相当于Unicode 1.1)中的所有统一汉字。它支持约21,886个字符,包括简体中文、繁体中文、日文、英文、俄文等,广泛用于旧系统,但已被GB 18030取代。

编码范围与结构

GBK编码分为单字节和双字节:

  • 单字节:0x00–0x7F,与ASCII相同,包含95个字符(包括33个控制字符)。
  • 双字节:第一个字节为0x81–0xFE,第二个字节为0x40–0xA0(排除0x7F)或0xA1–0xFE,具体取决于不同级别。

查看完整编码表

由于GBK编码表庞大,建议访问以下在线资源:

更多信息

如需了解GBK的背景、历史和与GB 18030的关系,可参考:


详细报告

GBK编码表是GBK字符编码方案中所有字符及其对应编码值的完整列表,广泛用于简体中文字符的表示。它是GB 2312的扩展,包含了GB 13000.1-93(相当于Unicode 1.1)中的所有统一汉字,约21,886个字符,支持简体中文、繁体中文、日文、英文、俄文等语言。尽管GBK已被GB 18030取代,但仍在某些旧系统和应用中使用。

GBK编码的定义与历史

GBK全称“Guobiao Kuozhan”(国家标准扩展),于1993年定义,作为GB 2312的扩展。1995年,发布了GBK 1.0版本,增加了95个新字符(映射到Unicode的私有使用区,PUA)。微软在Windows 95和Windows NT 3.51中实现了GBK,作为代码页936(CP936),成为事实上的标准。根据2022年10月的统计,GBK在中国的网页服务器中使用率为1.9%,与GB 2312结合为5.5%,全球使用率低于0.07%。

GBK的继任者是GB 18030-2000(后更新为2005版),增加了四字节序列以支持更多字符,但GBK仍兼容GB 18030的单字节和双字节部分。

编码结构与范围

GBK是一种变长编码方案,字符可以由1个或2个字节表示,具体如下:

  • 单字节编码:范围0x00–0x7F,与ASCII相同,包含95个字符,其中33个为控制字符(如NULL、START OF HEADING等)。
  • 双字节编码:第一个字节范围为0x81–0xFE,第二个字节范围为0x40–0xA0(排除0x7F)或0xA1–0xFE,具体取决于GBK的不同级别。

GBK的编码分为多个级别,具体如下表所示:

级别范围代码点数量
GBK/1A1–A9, A1–FE846(718在GB 18030)
GBK/2B0–F7, A1–FE6,768(所有版本)
GBK/381–A0, 40–FE(除7F)6,080(所有版本)
GBK/4AA–FE, 40–A0(除7F)8,160(CP936为8,080)
GBK/5A8–A9, 40–A0(除7F)192(GBK 1.0为166)
用户定义1AA–AF, A1–FE564
用户定义2F8–FE, A1–FE658
用户定义3A1–A7, 40–A0(除7F)672

总计:GB 18030为23,940,GBK 1.0为21,887,CP936为21,886,GB 2312为21,791,GBK/1+2级别为7,445。

微软在CP936中添加了欧元符号(0x80),但不在GBK 1.0中;GBK 1.0增加了95个PUA字符,不在CP936中。

字符示例与映射

以下是GBK编码表的部分示例,摘自相关资源:

  • 控制字符:NULL(U+0000)编码为0x00,START OF HEADING(U+0001)为0x01。
  • 符号:货币符号(U+00A4)编码为0xA1E8,段落符号(U+00A7)为0xA1EC。
  • CJK字符:第一个CJK表意文字“一”(U+4E00)编码为0xD2BB,私有使用区第一个字符(U+E000)为0xAAA1。
  • CJK兼容表意文字:如U+F92C(郎)编码为0xFD9C。

完整的字符列表和映射可在以下资源中找到:

  • Complete Character List for GBK:提供了从控制字符到CJK兼容表意文字的完整列表,包括编码值和Unicode引用。
  • GBK Character Map:详细列出0x8140到0x8FFF范围内的字符映射,每行16个字符,需安装中文字体才能正确显示。

使用与兼容性

GBK主要用于简体中文,也支持部分传统中文、日文、希腊文等。现代浏览器通常将GBK标记的文档解码为GB 18030,但Safari和Edge在GB_2312标签下可能例外。W3C规范定义GBK编码器为GB 18030编码器,单字节支持欧元符号(0x80),但不使用四字节序列;解码器则完全解码为GB 18030。

相关资源与参考

如需深入了解GBK的背景和技术细节,可参考以下链接:

  • GBK (character encoding) – Wikipedia:提供了GBK的定义、历史、编码范围和使用统计。
  • IANA字符集注册:https://www.iana.org/assignments/character-sets/character-sets.xhtml
  • 微软CP936文档存档:https://web.archive.org/web/20021001194325/http://www.microsoft.com/typography/unicode/936.txt
  • 中国编码分布:https://w3techs.com/technologies/segmentation/sl-cnter-/character_encoding

总结

GBK编码表是简体中文字符编码的重要资源,包含约21,886个字符,分为单字节和双字节编码。完整列表可在Complete Character List for GBKGBK Character Map查看,背景信息可参考GBK (character encoding) – Wikipedia

类似文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注