湘里妹子学术网

 找回密码
 注册
查看: 3306|回复: 1

二代证遭遇生僻字背后的中文信息化悬案

[复制链接]
发表于 2006-3-13 21:24:39 | 显示全部楼层 |阅读模式
—— 从一篇晚报报道引出的话题
来源:www.china-language.gov.cn/ 2006-3-9

张轴材先生答中国语言文字网记者问

    2006年2月21日北京晚报发表了一篇报道《敲不出生僻字办不了二代证》,说是一位19岁的孩子因为他的名字里有个生僻字“鈶”(据晚报说读yí),电脑打不出来。报道还说,孩子的家长指出这个生僻字虽然在电脑中敲不出来,但是可以在Word文档中通过‘插入符号’来输入,而工作人员却盯着电脑上的字说:“‘这是查出来的而不是敲出来的字,所以还是无法输入。’” ,“记者从市公安局人口管理处了解到,目前二代证字库执行的是国家标准,有些生僻字在字库里不存在,公安机关也不能擅自更改。”

      2006年3月5日,北京晚报在“热线追踪”中又发表了一篇题为《新发明破解电脑汉字输入难题》的报道,说是河南大学一位教授研究的输入方法有所突破,终于解决了这个问题。

     许多读者被这两篇报道搞得一头雾水,弄不清楚这个所谓发音为“yí”的生僻字在电脑中到底是存在还是不存在?在国家标准中这个字究竟有没有位置?如果有,为什么敲不出来?难道真是要专家来发明什么新方法才能输入这个汉字吗?在二代证中,这样的问题有多少?

      2006年3月6日,语言文字网记者带着这些问题采访了书同文数字化技术有限公司总裁张轴材先生。书同文数字化技术有限公司是中文信息化的专业公司,张轴材先生长期在国际标准化组织中专职主持中日韩汉字(CJK)统一编码工作,张先生的解答可谓全面深入。

电脑中到底有没有这个字?原来是有繁体无简体!

    记者:张先生,您能不能先澄清一下,到底这个据说发音为“yí”的汉字在电脑中存在不存在?

    张轴材:首先,我们要分清楚,这个左边为金字旁、右边为台的汉字,到底是繁体字形式,还是简体字形式?我想,这个孩子原来的身份证上,可能手写的是简体字,他平常书写的也极有可能是简体字,即“钅台”。这个字是“鈶”的简化字,在迄今为止的国家标准(无论是GB 2312-1980,还是GB 1300-1993,甚至正在审批中的GB 13000-200x)中还没有码位。

   记者:在国际标准中,所谓超大字符集中,有这个字吗?

    张轴材:也没有这个简体字。实际上,目前的国际标准ISO/IEC 10646:2003(工业上称作Unicode)和我们的国家标准GB 13000-200x是完全等同的(identical)。七万字的国际标准中没有这个字、对应国际标准中也没有这个字。很遗憾。

     记者:那么,为何报道中说又可以“插入”或者用什么新发明输入呢?

     张轴材:我想他们指的是“钅台”这个字对应的繁体字“鈶”,而这个繁体字是有标准编码的。在中日韩统一编码汉字中,第一批20902个CJK汉字里它就有了编码,是U+9236。从1995年开始,从Windows95起,在许多厂商的CJK字库里都有这个字;许多输入法中都能输入这个汉字,许多字体的字库都能显现这个汉字。2月21日的晚报就是显印的这个繁体字:鈶。那位家长“查出来的字”,和河南教授输入法输入的字,估计就是这个繁体的字“鈶”,而不是简体的“钅台”。误解就是从这里开始的。

为何输入难?原来是读音就不对!

     记者:为什么输入不了?

    张轴材:主要原因是人们不认得,太生僻了啊,不能正确地读音。我查了一下我们的《四库全书》、《四部丛刊》、《康熙字典》和《汉语大字典》电子版,这个字在古籍中的频度很低啊,8亿字次中才出现了24次,亿分之三啊,而且基本上都是在字书中重复出现的,不是在文本中出现的。更重要的是,这个字的读音有好几个,sì 和tái(枱,鉈),从来没有读yí的记载。如果你用微软全拼输入法,用si和tai都可以输入这个字;用微软拼音输入法,只能用si找到它,因为作为低频字,第二个音tái被忽略了。

    记者:谁会知道那么多读音?

     张轴材:这就是纯粹的音码的局限性了。按拼音输入可以解决99.9%的汉字输入问题,但是对这类冷僻字,确实勉为其难。实际上,形码(按字形信息或主要按字形信息的输入方法)在这种情况下是一个很好的补充,你不信试试“四库流行码”、“书同文巧笔”、“方正点码”和“郑码”等等输入方法,他们早就解决了数万陌生字的输入问题,这不是什么新课题,也不是什么新突破。最好媒体别再有意无意地误导文字专家们去“发明”什么汉字电脑输入难题了。坦率地说,中文信息界的精英们在这方面浪费的时间精力实在太多了,低水平重复也实在太多了!

电脑中有繁无简的问题与类推简化汉字

     记者:在国际标准中、在电脑中,这种有繁无简的情况究竟多不多呢?

      张轴材:也多也不多。对于常用字,甚至次常用字,每个简体字,都有它对应的一个或多个繁体字(反之亦然);但是对于罕用字、生僻字,就不是这样了,往往是有繁体字而无对应的简体字,数以万计吧,主要是那些馬、鳥、金、言、食、糸为偏旁的字。

      记者:这多不平衡啊,这个问题是怎么产生的?

       张轴材:这个不平衡涉及到一个中文信息技术的悬而未决的问题:怎样处理《简化字总表》之外的“类推简化字”问题。《简化字总表》列出了不到2000个简化字,但是没有、也不可能枚举所有可能简化的汉字。“钅台”就是种类推简化字,即是按照简化字总表的规则推导出来的新字。在汉字应用演变的历史长河中,原来它并不存在,但是今天出现了。统计表明,凡是我们遇到一个所谓计算机的“外字”,十有五六就是这种类推简化字。

       记者:难道国家没有规定解决这个问题吗?

       张轴材:迄今为止还没有明确的规定。1986年重新颁布的《简化字总表》,“要求社会用字以《简化字总表》为标准:凡是在《简化字总表》中已经被简化了的简体字,应该用简化字而不用繁体字”;但是没有规定《简化字总表》之外还没有简化的字怎么处理。那个时候还没考虑信息化嘛。

      记者:这有什么困难吗?

      张轴材:两难啊。如果把这些《总表》之外的繁体字,按照简化规则,采用可做简化偏旁的132个简化字和14个简化偏旁,一气呵成地全部简化,将会生成一大批、不是数千,而是数万个新的简化字!如果不简化吧,就会出现简繁混用的不规范状态。当然,这主要是政策问题,本质上不是技术问题。

    记者:这和国际标准、国家标准汉字编码有什么关系吗?

    张轴材:关系很大。国际标准制定之初,在中日韩汉字的统一编码时就达成了广泛共识:简繁汉字分别编码、简繁汉字不认同。如果我们需要把所有已经编码的繁体汉字统统简化,就需要赋予这些汉字数万个码位;更困难的是,汉字进入标准要有依据(evidence),我们从哪里去找这些类推简化字的书面依据呢?他们从来没在官方文件、出版物、字词典中出现过;一一甄别、检验这些新造出来的字,将需要大量的人力物力资源。

类推简化汉字的信息化解决方案建议

    记者:有什么出路吗?

    张轴材::目前就是个案处理。来一个解决一个。最早是朱镕基的“镕”字,在GB 2312没有,在《简化字总表》和《现代汉语通用字表》中也没有,但是从80年代后期开始,这个字成了高频字,我们作了特别技术处理,在CJK中编码了。后来你会偶尔看到一些人的名字,出现在报刊上,特别是人代会、党代会的名单中,极个别的字是临时拼造的字型,或者有的是繁体形式,比如王选夫人陈堃銶的“銶”等等,往往都是这种类推简体字。这次提到的“钅台”字,几年后有可能会在CJK_C中编码纳入标准,那也只是类推简化汉字的个例。

    记者:依目前的技术,造字不是很容易吗?

     张轴材:是的,造字很容易。不要说排版的专业系统,就是一个普通的Windows或Linux操作系统,都会提供一个小工具让你造字。但是,造出来的字是不标准的,虽然它在你造字的那台机器上可以正确地显印出来,却不能在其他的电子设备上正确显印出来。用专业一点的话说,就是不具备“可交换性”,或不具备“可互操作性”(interoperability)。

      记者:电子排版没问题?

     张轴材:对,电子排版、电子印刷都没问题,然而电子出版、电子交换、电子政务、电子商务却完全行不通。所以造字对这些类推简化字(“外字”的主要成分)不是一条很好的出路。为了深入地了解这一点,你需要知道电子排版与广义的电子出版的差别。

     记者:电子排版,电子出版,就差一个字啊!您能解释一下吗?

      张轴材:扼要地说,电子排版的目的只为了文字的呈现(显印,present),让人们的肉眼可以识读文字图像传载的信息,而广义的电子出版则是为了用标准的代码表示(represent)实现广泛的信息交换,要让各种目的的应用可以正确地解读承载文字的代码。再通俗一点,我们天天首发的短信、电子邮件的文本中的汉字,就都是以标准的代码表示的。

     记者:明白了。随便造出来的字,包括类推简化字,是不利于正确交换的。

     张轴材:这对于网络环境,麻烦很大啊。回到第二代身份证,你不要以为它只是表面上那张印有你照片、出生地、出生日期的卡片。这只是可视形式,它还有机读形式呢!那就是在它下面,第某层,还嵌有一张非接触式的IC卡,上面记载了你的基本信息,可以用专用的设备读取,那是用来做信息交换的。它以后的用途非常多,在社会安全、保险业、银行业、汽车驾照、出入境,甚至商业上,都有可能使用到这些信息。如果这IC卡上的信息与你身份证上面的可视信息不一致,或者不可读,那不是很误事吗?

      记者:那么,对于类推简化汉字的编码,您有什么建议?

      张轴材:这是中文信息标准化中的一个遗留的基础问题,需要政府部门主导立项来解决。我这个草民的意见是,一不要夸大这个问题,毕竟只是亿分之几、千万分之几的出现率;二是别拖了,早点决断;三是宽容一点,对极个别情况,就让它简繁并存吧。

     记者:有什么技术上的招数吗?

     张轴材:最重要的是要摸清底数,规范化地做好统计工作:看看这类字到底有多少?分门别类地总结出来。不要把类推简化字和那些早就解决了的问题(错别字、废除了的第二批简化字、已经编码但不会输入的汉字)搅在一起。正确地记录这些字,也有个标准化问题。实际上,国际标准有一套办法,可以用已经编码的字符记录未编码的字符,这就是汉字结构符和汉字构件的组合序列。

      记者:汉字结构符是什么?

      张轴材:这在Unicode中已经规定了,汉字的上下结构符、左右结构符等等。
比如这个“钅台”字,可以规范化地表示为序列“⿰钅台”,而不必五花八门地表示为“yi”、或“鈶的简化字”、或“左钅右台”。这样便于统计分析处理。汉字结构符虽然有12个之多,但是我们在十亿字次的典籍数字化工程的外字记录中发现,最有用的是左右结构和上下结构,他们占了90%以上。

给姓名中使用了类推简化汉字的朋友出主意


      记者:对于那些名字已经使用了类推简化字的同胞,您可以提出个建议吗?

      张轴材:只是建议,可不是让你放弃姓名自由啊。我直截了当地说吧,快点更名换字!第一,你那个生僻字,即使可以申报到ISO-GB成为标准代码,也要很长的流程,可能要几年吧;第二,即使有了标准,也要有人给你在字库中实现啊,厂商也不可能在多种字库里给你专门做这个罕用字及其输入方法的。第三,更名换字,最好要找同音同义的异体字、通假字,常用的简体字和传承字。

      记者:什么是传承字?

      张轴材:传承字,在这里就是特指那些无所谓简繁的汉字,其实汉字中并不是非简即繁,还有相当一部分是这种比较稳定的汉字,如“天地人日金木水火土”。你想把名字起得有特异性,与众不同,这是可以理解的,但是别去找生僻字啊。你的名字每个字可能很一般,但搭配起来就未必没特点啊。我的名字,轴和材,都特普通,但是组合起来成“轴材”,到现在也没遇到过重名的呢!

      记者:还有就是别用单字的名,那样重复的可能性就太大了。

      张轴材:说的是。而且选字、起名字最好从国际标准的“CJK汉字基本子集”(IIcore)里去选。这个IIcore,是International Ideograph Basic Subset (http://www.cs.cuhk.hk.edu/~irg ),只有1万字,但是使用频度很高,涵盖了现代汉语语料的99.9%,古汉语的97%。现在和以后的手机都会支持它。你只有使用了常用字,才能充分享用现在电脑、手机、网络上的资源,与人们无障碍地交流。比如,你给朋友发短信,怎么落款写你的名字啊?你的朋友想通过书同文彩书,给你刻一枚手机图章(http://caishu.sina.com.cn ),可是输入不了你的名字,多可惜啊!当然最麻烦的莫过于到银行取不了款、到边境受到责难。哲人说:自由是对必然的认识。如果您认识到了冷僻字、类推简化字对您必然造成困扰,早点行动,更名换字,可能就获得自由了!

      记者:谢谢您!从这个字的话题说起,讲了这么多中文信息处理的道理。

      张轴材:不用客气。这也是许多朋友问过我、我愿意讨论的问题;同时也算是我的博客吧。顺便把我今天从典籍中查到的关于这个“金台”字的信息附在后面供参考。欢迎来信共同探讨:joe.zhang@unihan.com.cn ! TEL:13901335095

-----------------------------
附:典籍中的[鈶]
● 《四部丛刊》出现5次
    玉篇  鈶(辝理切亦作耜)
    广韵  鈶(鋌鈶)
    新修龙龛手鉴  鈶(音似鋋也)
●《四库全书》出现19次
   类篇 鈶 詳兹切博雅柄也又盈之切耒耑也又象齒切矛屬文一重音二
●《汉语大字典》鈶sì 枱,鉈 tái
●《中华古汉语字典》 鈶[cí]古代农具耒或镰刀的柄。《管子·轻重己》:鉊鈶乂橿。
发表于 2006-3-17 15:48:06 | 显示全部楼层
最近看到新聞說大陸政府戶籍真的要管這事,覺得好玩;照我這學物理的人來看,就都用數學編號嘛,從1到13億號不會重覆的。

但仍然对231个生僻字无法识别

在技術上說不過去的↑臺灣也在換證,但碰到的問題是原住民名字太長(24字),已解決。那大陸各處號稱的70000餘字跟Unicode鄉容的的擴字運動是搞什麼?

公安部着手户籍改革 起名禁用生僻字 自由迁徙暂难实行?

来源:中国青年报(06/03/17 08:09)  

  本报北京3月16日电(记者何春中)公安部治安管理局副局长鲍遂献今天在公安部举行的新闻发布会上表示,关于户籍改革的问题,公安部正在抓紧时间研究,并将向国务院提出改革建议。国务院在作出户籍改革的决策后,户籍立法问题将很快被提上议事日程。

  鲍遂献说,户籍立法的出台,取决于我国现行户籍制度的改革。我们现在用的是1958年的户籍管理条例,调整现行的户籍管理条例,必然会触及到城乡二元分割的户籍管理制度。

  去年,公安部法制局有关负责人曾表示,制定户籍法的目的在于,让新的户籍制度适应当前社会形势下的人员流动,保障我国所有公民的平等自由权。户籍法的制定牵涉到以前相关的一些户籍管理法规,制定的程序较为严格,公安部一直在紧锣密鼓地进行调研论证。

  中国人民公安大学余凌云教授认为,户籍改革的最终目的是要把户籍放在控制人口的个人信息上,而不是强加给户籍许多附加值。现阶段完全放开让公民自由迁徙,则会给城市带来很大的压力,公共设施、医疗、就业和教育等很难跟上。

  对于呼声渐高的户籍立法,中国人民公安大学王太元教授说:“只有先解决我国社会发展过程中的公平、发展、稳定等社会问题,才能水到渠成地出台一部统一的户籍法。”

公安部起草姓名条例  起名将限制使用生僻字
北京青年报:毛羽 (06/03/17 02:55)

  本报讯 公安部正在起草姓名条例,对姓名用字的范围作出规定。今后公民起名将禁止使用规定范围外的生僻字。

  昨天,公安部治安管理局副局长鲍遂献在公安部新闻发布会上表示,姓名中的生僻字给身份证制发带来诸多问题,下一步将通过制定有关姓名条例解决此问题,一旦立法就意味着生僻字将限制使用。

  记者从北京市公安局人口管理处获悉,为了解决一些居民姓名中含有生僻字,北京市警方对现有制证字库进行了升级,升级后的字库文字含量有较大幅度的提升,但仍然对231个生僻字无法识别。

[ 本贴由 Artvine 于 2006-3-17  16:12 最后编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 17:03 , Processed in 0.087019 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表