湘里妹子学术网

 找回密码
 注册
查看: 5011|回复: 3

GBK 代码集和方正超大字符集定义表

[复制链接]
发表于 2005-7-30 15:34:27 | 显示全部楼层 |阅读模式
作者:郑永晓
来源:http://www.lotus-eater.net/
2005-7-19 13:43:47      

--------------------------------------------------------------------------------
【内容提要】    像笔者这样的文字工作者经常遇到冷僻字难以输入,在某些情况下,明明知道系统字库中收有该字,但即使是“全拼”输入法也难以找出此字。在这种情况下,就只好到GBK 字符集中去寻找,如果GBK字符集中仍找不到,就应该到“方正超大字符集”中寻找,该字符集中收录汉字65,531个。涵盖GB18030 (以及ISO10646-2000或Unicode 3.0) 中编入的汉字。虽然编制方法不甚科学,但该字符集仍能帮助我们输入绝大部分汉字。如果该字符集仍然没有你需要的字符,就只好造字或到日本“文字镜”中查询了。因而,只要我们能细心查询,一般情况下极少会遇到不能输入的汉字。某些网站,甚至是很有知名度的网站,在其所提供了电子文本下载中,经常会使用汉字偏旁组合以指代某个汉字,给使用者带来极大麻烦。衷心希望这些网站能从用户的利益出发,纠正那些并非不能输入的汉字录入问题,将电子文本制作得更加规范。此处整理的《GBK 代码集字符定义表》和《方正超大字符集》所收汉字有六万之多,根据笔者的使用体会,应该能够解决绝大部分汉字的录入问题。

      GBK字符定义表使用说明:①在windows中安装区位输入法。②点击输入法的工具条,使其变成GBK内码输入状态。③在相关页码中找到所需字符后,按照左上角(两位数字)—下方(一位)—上方(一位)之顺序组成的四位数字键入即可完成输入。当然,最简单的方法即直接复制到word 中。笔画索引是笔者制作,偏旁后面的数字是本字符在本文件中的页码。该索引不很完备,用户在使用时需注意。

      方正超大字符集使用说明:据微软的office 帮助文件中说明,利用微软拼音输入法 2003,用户可以通过输入汉字的Unicode(或Surrogate)来输入汉字。如在Word 2003 中,可以直接键入Unicode码,然后按Alt+X 转换成汉字。对于扩展B的汉字,请将前面两个“0”去掉。比如说,针对例子“𠀀”,Unicode 是00020000,则输入020000 ,然后按Alt+X即可。要想知道每个字符的Unicode,也可以将光标定位在汉字后面,然后按ALT+X,相应的Unicode码则会显示出来。笔者的方法是,查询《康熙字典》或《汉语大辞典》,找到其字所在页码,而后根据该页码在“超大字符集”中搜索此字。当然,此道高手可以编制自己的输入法,那就更是上上之策了。

      注:“GBK”是继 简体中文Windows3.2 之后的简体中文 Windows 所使用之代码页,它涵盖了 Unicode 所有 20902 个中文字符以及中国国家标准化组织添加的大约 80 个中文字符。此前之“GB-2312”是简体中文 Windows 3.2 的代码页,仅含有 6763 个汉字。“GBK” 包含了“Big5”的繁体中文字符和“GB2312”中的简体中文字符。国际标准化组织在 ISO10646-2000 的基本平面(BMP 或者 Unicode 3.0, 下简称 Unicode)编入了27,564 汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),即2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为扩展A。该组织还在ISO10646-2000 的第二平面扩展了42,711汉字(又称为扩展B)。由于这42,711汉字编排在ISO10646-2000 的第二平面,所以编码需要4个字节。为了能够存取处理这些4字节字符,在Unicode 中引入了Surrogate 机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制, 在Unicode中用两个16位编码就可以对ISO10646-2000 第二平面中的汉字进行存取。

Windows 98 、Winme 等微软早期操作系统不能支持超大字符集。自Windows 2000始可使用该字符集,但需安装相关补丁。在WindowsXP 、Windwos 2003 server 等操作系统中,配合安装Office 2003 ,使用方正超大字符集最为方便。在安装Office 2003时需选择自定义安装,选择共享工具中的超大字符集即可。

    本文档之附件1为 GBK 字符表;

                 附件2为本人选取之GBK 难字表,按笔画排列;

                 附件3为 超大字符集第1部分;

                 附件4为 超大字符集第2部分。

   以上附件均为不加密Word 文档,使用方便。

                 如有疑问请与笔者联系:

                  literature@cass.org.cn
发表于 2005-7-30 20:26:45 | 显示全部楼层
因而,只要我们能细心查询,一般情况下极少会遇到不能输入的汉字。某些网站,甚至是很有知名度的网站,在其所提供了电子文本下载中,经常会使用汉字偏旁组合以指代某个汉字,给使用者带来极大麻烦。衷心希望这些网站能从用户的利益出发,纠正那些并非不能输入的汉字录入问题,将电子文本制作得更加规范。

我曾下载过几篇这样的电子文本,每次的确先要找出几个生僻字来代替文中的偏旁组合。

不过,就算那些网站用了方正超大字符集,问题也不是就此解决了的。据我所知,阅读者除了要安装方正超大字符集外,还要修改注册表才能看到网页那些生僻字的。我想要方正超大字符集和偏旁组合齐用。
发表于 2005-7-30 23:00:44 | 显示全部楼层

多谢getright指教

对于汉字编码的使用,我现在又多学了一点.

[ 本贴由 mengqinghao 于 2005-8-27  00:34 最后编辑 ]
发表于 2005-8-26 18:21:04 | 显示全部楼层
要处理好汉字,使用unicode才是最终解决方法。GB18030实际上是Unicode的中文4字节编码解决方案。
GBK汉字只有2万多汉字,方正超大字符集收录6万多汉字,而GB18030定义了十多万汉字。
GBK是2字节编码方案,处理异体、繁体肯定会出现很多问题的。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-20 10:16 , Processed in 0.185820 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表