GBK编码表
关键要点
- GBK编码表是GBK字符编码方案中所有字符及其编码值的列表,适用于简体中文字符。
- 它扩展了GB 2312,包含约21,886个字符,包括中文、日文、英文等。
- 编码分为单字节(0x00–0x7F)和双字节(0x81–0xFE)形式,具体范围复杂。
- 可通过在线资源查看完整列表,推荐可靠网站。
GBK编码表简介
GBK(国家标准扩展)是一种用于简体中文的字符编码,扩展自GB 2312,包含GB 13000.1-93(相当于Unicode 1.1)中的所有统一汉字。它支持约21,886个字符,包括简体中文、繁体中文、日文、英文、俄文等,广泛用于旧系统,但已被GB 18030取代。
编码范围与结构
GBK编码分为单字节和双字节:
- 单字节:0x00–0x7F,与ASCII相同,包含95个字符(包括33个控制字符)。
- 双字节:第一个字节为0x81–0xFE,第二个字节为0x40–0xA0(排除0x7F)或0xA1–0xFE,具体取决于不同级别。
查看完整编码表
由于GBK编码表庞大,建议访问以下在线资源:
更多信息
如需了解GBK的背景、历史和与GB 18030的关系,可参考:
详细报告
GBK编码表是GBK字符编码方案中所有字符及其对应编码值的完整列表,广泛用于简体中文字符的表示。它是GB 2312的扩展,包含了GB 13000.1-93(相当于Unicode 1.1)中的所有统一汉字,约21,886个字符,支持简体中文、繁体中文、日文、英文、俄文等语言。尽管GBK已被GB 18030取代,但仍在某些旧系统和应用中使用。
GBK编码的定义与历史
GBK全称“Guobiao Kuozhan”(国家标准扩展),于1993年定义,作为GB 2312的扩展。1995年,发布了GBK 1.0版本,增加了95个新字符(映射到Unicode的私有使用区,PUA)。微软在Windows 95和Windows NT 3.51中实现了GBK,作为代码页936(CP936),成为事实上的标准。根据2022年10月的统计,GBK在中国的网页服务器中使用率为1.9%,与GB 2312结合为5.5%,全球使用率低于0.07%。
GBK的继任者是GB 18030-2000(后更新为2005版),增加了四字节序列以支持更多字符,但GBK仍兼容GB 18030的单字节和双字节部分。
编码结构与范围
GBK是一种变长编码方案,字符可以由1个或2个字节表示,具体如下:
- 单字节编码:范围0x00–0x7F,与ASCII相同,包含95个字符,其中33个为控制字符(如NULL、START OF HEADING等)。
- 双字节编码:第一个字节范围为0x81–0xFE,第二个字节范围为0x40–0xA0(排除0x7F)或0xA1–0xFE,具体取决于GBK的不同级别。
GBK的编码分为多个级别,具体如下表所示:
级别 | 范围 | 代码点数量 |
---|---|---|
GBK/1 | A1–A9, A1–FE | 846(718在GB 18030) |
GBK/2 | B0–F7, A1–FE | 6,768(所有版本) |
GBK/3 | 81–A0, 40–FE(除7F) | 6,080(所有版本) |
GBK/4 | AA–FE, 40–A0(除7F) | 8,160(CP936为8,080) |
GBK/5 | A8–A9, 40–A0(除7F) | 192(GBK 1.0为166) |
用户定义1 | AA–AF, A1–FE | 564 |
用户定义2 | F8–FE, A1–FE | 658 |
用户定义3 | A1–A7, 40–A0(除7F) | 672 |
总计:GB 18030为23,940,GBK 1.0为21,887,CP936为21,886,GB 2312为21,791,GBK/1+2级别为7,445。
微软在CP936中添加了欧元符号(0x80),但不在GBK 1.0中;GBK 1.0增加了95个PUA字符,不在CP936中。
字符示例与映射
以下是GBK编码表的部分示例,摘自相关资源:
- 控制字符:NULL(U+0000)编码为0x00,START OF HEADING(U+0001)为0x01。
- 符号:货币符号(U+00A4)编码为0xA1E8,段落符号(U+00A7)为0xA1EC。
- CJK字符:第一个CJK表意文字“一”(U+4E00)编码为0xD2BB,私有使用区第一个字符(U+E000)为0xAAA1。
- CJK兼容表意文字:如U+F92C(郎)编码为0xFD9C。
完整的字符列表和映射可在以下资源中找到:
- Complete Character List for GBK:提供了从控制字符到CJK兼容表意文字的完整列表,包括编码值和Unicode引用。
- GBK Character Map:详细列出0x8140到0x8FFF范围内的字符映射,每行16个字符,需安装中文字体才能正确显示。
使用与兼容性
GBK主要用于简体中文,也支持部分传统中文、日文、希腊文等。现代浏览器通常将GBK标记的文档解码为GB 18030,但Safari和Edge在GB_2312标签下可能例外。W3C规范定义GBK编码器为GB 18030编码器,单字节支持欧元符号(0x80),但不使用四字节序列;解码器则完全解码为GB 18030。
相关资源与参考
如需深入了解GBK的背景和技术细节,可参考以下链接:
- GBK (character encoding) – Wikipedia:提供了GBK的定义、历史、编码范围和使用统计。
- IANA字符集注册:https://www.iana.org/assignments/character-sets/character-sets.xhtml
- 微软CP936文档存档:https://web.archive.org/web/20021001194325/http://www.microsoft.com/typography/unicode/936.txt
- 中国编码分布:https://w3techs.com/technologies/segmentation/sl-cnter-/character_encoding
总结
GBK编码表是简体中文字符编码的重要资源,包含约21,886个字符,分为单字节和双字节编码。完整列表可在Complete Character List for GBK和GBK Character Map查看,背景信息可参考GBK (character encoding) – Wikipedia。