湘里妹子学术网

 找回密码
 注册
查看: 6241|回复: 6

论信息时代的汉文字改革

[复制链接]
发表于 2004-9-3 00:25:04 | 显示全部楼层 |阅读模式
作者:陈明然
第七次汉字书同文学术研讨会”2004年8月16日  中国  上海
来源:《语言文字网站联盟》(www.yywzw.com)
2004/08/31


[center]引 言 [/center]

      面临已经到来的以计算机技术在社会各领域广泛应用为特征的信息时代,汉文字的改革运动应该沿着什么方向前进?是走拉丁化道路呢,还是走继续简化的道路?或者将会有别的什么新的内容?这是摆在我们汉民族面前的一个新课题。
      一切事物的运动,都有其内在的不以人们主观意志为转移的客观规律。汉文字的改革当然也不能例外,因此,对汉文字的改革必须要顺应汉文字自身发展变革的规律。而要对汉文字进行符合其自身发展变革规律的改革,使其适应时代的要求,就必须首先系统、全面地考察汉文字在历史上的发展演变轨迹,找出其运动发展的内在客观规律,进而以此为依据,指导我们正确地认识汉文字在未来一个时期内的必然发展趋势,从而对它进行符合其自身运动规律的改革。

[center]一、汉文字演变的直接动因   [/center]
1.1 汉语言的记录符号

      文字是记录语言的书面符号。
      汉文字是记录汉语言的书面符号。
      我国历史上各个不同时期的汉语言记录符号即汉文字,有着很大的差异。从迄今为止已经发现的最早的汉文字甲骨文起,汉语言的记录符号经历了甲骨文、金文、大篆、小篆、隶书直至楷书这样一系列的演变过程,其间还出现了草书,行书等字体。

1.2 汉语言的记录工具和记录手段

      我国夏、商时期的甲骨文,大多是用刀刻在龟甲、兽骨上的。商、周时期的金文,大多铸在铜器上;这些文字也是先用刀刻在范上,然后再经过浇铸成形。
      大约在战国时,毛笔的应用开始普及,逐渐取代刀成了人们写字的主要工具。开始是把字写在简牍、缣帛上。到汉代发明了纸,人们就把字写在纸上了。用毛笔写字还要用到墨。开始用的是自然墨(矿物墨或植物墨),后来使用人工墨。
      当代电子计算机汉字处理技术的发明,使得汉文字能够输入计算机,可以在计算机的终端屏幕上显示并由打印机打印输出,还可以利用电磁原理和光电原理存储在磁盘和光盘上。
      远古的刀、中古到现代的笔、当代及未来必将越来越普及的电子计算机,都是汉语言的记录工具。龟甲、兽骨、钟鼎、简牍、缣帛、纸以及磁盘,光盘等都是汉语言的记录(存储)介质。墨、磁、光、电是汉语言的记录材料。刻、写、击键(或计算机输入方式中的手写、朗读)等行为则是汉语言的记录手段
      记录工具、记录介质、记录材料和记录手段之间存在着密切的联系:刀、龟甲、兽骨、钟鼎和刻相联系;笔、墨、简牍、缣帛、纸和写相联系;计算机、光、电、磁、光盘、磁盘和击键(或手写、朗读)相联系。它们各自组成了各个不同时代汉语言的记录工具族,其中刀、笔、机则是各工具族的代表性工具。
  本文以下提到的“刀”、“笔”、“机”,均取其广义,即均指以其为代表的工具族。

1.3 汉语言的记录方式

1.3.1 汉语言的几何记录方式
      在电子计算机传入我国之前,汉民族前后有过两种主要的语言记录工具,一种是刀,另一种是笔。无论刀还是笔,在使用方法上都有一个共同的特点,即都是以刀尖或者笔尖(锋)在记录介质(龟甲、兽骨、简牍、缣帛或者纸)表面上运动形成曲线轨迹再进而组成的图形作为汉语言记录符号的。我们把上述过程进行抽象:刀尖和笔尖(锋)可以看作是“点”,各种记录介质的表面可以看作是“面”。这样,用刀或者用笔记录汉语言的过程就可以看作是点在面上的几何运动。本文把汉语言的这种记录方式称之为汉语言的几何记录方式;把与之相应的历史时期称为汉语言记录方式的几何时代

1.3.2 汉语言的电磁光记录方式
    电子计算机处理文字的原理,与人们用刀刻字或者用笔写字有根本上的区别。
计算机的工作能源是电,它所处理的各种信息在机内的CPU、存储器和I/O端口之间用表示二进制数的电脉冲进行传送;读写磁盘时应用的是电磁原理;在光盘的刻写和读取过程中应用的是光电转换技术。本文把这种计算机处理汉文字的方式称之为汉语言的电磁光记录方式;把与之相应的历史时期称为汉语言记录方式的电磁光时代

1.4 隶变的发生和汉语言记录工具变革的关系

      如1.1节所述,汉文字的演变,从甲骨文算起,主要经历了金文、大篆、小篆、隶书、楷书这么几个发展阶段,其间还产生了草书、行书等字体。楷书於汉末、魏晋出现并定形后,至今约1800年一直未变,成为汉文字的规范书写体。而在甲骨文至今3000多年的历史中,从篆到隶的变化即“隶变”是学术界公认的古、今汉文字的分水岭。汉文字发生“隶变”的年代,学术界也已有统一的认识,应是开始于战国晚期而完成于东汉。秦统一六国后,实行“书同文”,以小篆作为全国的统一文字。1975年在湖北云梦睡虎地出土的秦代竹简已是用古隶书写。至今已发现的大量的东汉碑刻均用的是汉隶。这些考古发现是可以证明这一点的。
      那么,什么是促使汉文字发生隶变的直接动因呢?通过考察隶变中汉文字字形的演变及其同期的汉语言记录工具的变更情况可以找到这个问题的答案。
      我们先来看汉语言记录工具的变更情况。
      甲骨文时期,绝大部分文字是用刀刻在龟甲、兽骨上的。甲骨文之后的金文,是先用刀把字刻在范上,然后再经过浇铸成形。隶书及其后的草、行、楷等文字,书写时使用的工具是毛笔。也就是说,在春秋战国至秦代,汉文字的记录工具发生了从以刀为主到以毛笔为主的革命性变化。
      至今为止,考古上已发现的年代最早的毛笔实物,是1954年在湖南省长沙市左家山楚墓里出土的一支竹杆毛笔[ 1 ]。1975年又在湖北睡虎地秦墓出土了三支秦笔(中国社科院考古所 1984 :P391)。左家山楚墓和睡虎地秦墓中出土的两种笔,已表现出一定的工艺水平,说明最初发明毛笔的年代还要略早于战国时期,然而,早期的毛笔和秦以后的毛笔在制作工艺上是有明显不同的。左家山楚墓的毛笔,其制作方法是把笔杆一端劈成数开,笔毛夹在中间,然后用丝线缠绕,外面涂漆来巩固。睡虎地秦笔是把笔杆一端镂成腔状,把笔毫制成的实心笔头纳入腔内。显然,这两种不同工艺决定了两种笔在使用特性上有很大的不同。
      在晋人张华所著的《博物志》中有“蒙恬造笔”的记载。南朝周兴嗣的《千字文》中也有“恬笔伦纸”的说法。宋人葛立方在《韵语阳秋》中记载:“蒙恬造笔,以狐狸毛为心,兔毛为副,心柱遒劲,锋芒调和,故难乏而易使”。毛笔到底是否是蒙恬发明,尚无定论。但这些记载可以说明兼毫笔的出现当在战国时期。
      这里需要一提的是:在已出土的甲骨文中,也有“写”了未刻的文字和“写”了整个文字而仅刻了部分“笔画”的,但不能据此就可以说殷商时期就已经有了竹杆毛笔。笔者认为,当时使用的可能是具有类似毛笔功能的一种工具,充其量只能说是笔的萌芽。欧阳中石先生认为是“诸如茅草、动物的皮毛等”器物(欧阳中石 2000 :P65)。所以,本自然段第一句话中段应表述为:“……也有描了未刻的文字和描了整个文字而仅刻了部分线条的,……”。
      诚然,毛笔的发明确实比汉文字发生隶变的年代要早,但这并不能否定毛笔的使用同隶变的发生这二者之间的必然的因果关系,这是因为,汉语言记录工具的变革对汉语言记录符号的能动作用,是通过整个工具族来实现的。当人们还没有使用简牍作为汉语言的记录介质以前,由于龟甲、兽骨的坚硬和不吸水的特性,即便已经有了笔,也只能用刀作为主要记录工具,以刻划为记录手段以求得到满意的记录效果。只有当人们发明了简牍以后,由于竹木纤维较好的吸水特性,用笔为主要记录工具,以书写为手段的汉语言记录方法才有可能实现。即使在毛笔成为汉语言的主要记录工具以后,也还有一个记录材料——墨的问题。墨的使用,经历了从自然墨到人工墨的过程。在属于新石器时代的陕西临潼姜寨遗址出土的数块黑色颜料(氧化锰)是迄今为止可确知的最早的矿物墨(欧阳中石 2000 :P67)。除了矿物墨,当时人们还使用植物墨及动物墨。元代陶宗仪在《缀耕录》中说:“上古无墨,竹挺点漆而书”。《史记•孔子世家》中有孔子读易,“韦编三绝,漆书三灭”的记载。人工墨的实物发现,当以睡虎地秦墓中出土的松烟墨为最早(欧阳中石 2000 :P68)。可见西周至战国初期,记录材料还是以漆为主,更早的则是矿物墨如朱砂、石墨等。人工墨的出现当在战国至秦代这一时期。自然墨远没有人工墨好用。如漆液粘稠,不能如人工墨那样用毛笔蘸着自如地书写,应该说还只能是“描画”而已,记录速度要比使用人工墨慢得多。只有当人工墨被发明出来并和毛笔一起被普遍使用以后,才能谈得上真正意义上的书写。
      历史上工艺成熟的毛笔出现并逐渐普及使用的年代和汉文字经历隶变的年代基本一致,这绝不只是一种历史的巧合,二者之间有着必然的联系。
      下面,我们再来考察隶变中汉文字字形的演变情况。
      观察三种主要古文字甲骨文、金文和大篆,可以发现它们的一个共同特点,就是在同一“篇”内的字,线条的粗细都一样。我们的视觉告诉我们,这是诸如刀这些硬物的运动所留下的痕迹。金文的线条较甲骨文的线条粗肥,这是钟鼎浇铸工艺所决定的,因为如果范上的刻痕太细的话,金属溶液就不容易灌入,这样,铸成的钟鼎上的文字就会不清晰。
     古文字中的小篆,线条婉转曲折,非硬物所能为,当应是汉语言记录工具从刀向笔转变中的过渡时期用毛笔所写;而它基本等宽的线条,则是此前长期用刀刻字形成的历史习惯所致。任何一个新事物,都会不可避免地带上其脱胎而来的旧事物的痕迹。
      再看今文字的始祖隶书,“轻拂徐振,缓按急挑”[ 2 ],非制作精良的毛笔不能胜任。
      从笔画笔顺方面来看,当人们用右手执笔书写时,横向从左往右为顺笔,从右向左则是逆笔;纵向从上往下是顺笔,而从下往上却是逆笔,因此,篆书中凡是从右往左横向连带竖笔的笔形,都随着汉语言记录工具从刀到笔的转变而隶变为从左往右的横笔和从上往下的竖笔两笔(见图一)[ 3 ]。

[center][/center]


[center]图一 篆隶笔形对比之一 [/center]

      曲笔不如直笔好写,长笔没有短笔快捷,所以篆书中的曲线大都变成了隶书中的直笔,不少长笔被改成了短笔(见图二)

        

 

[center]图二 篆隶笔形对比之二[/center]

      我们再以“口”字为样本作进一步分析:小篆“口”的字形是“ ”[ 4 ],用两笔写成。隶书的字形是“口”,要写三笔。主要的变化是小篆字体左、右和下方原来形似上开口抛物线的线条在隶书中变为左右两竖和下方一横,右边的一竖又与上方横笔被连写为折笔。这种变化,正是为了适应人们用右手执笔书写的需要。原来小篆“ ”的“
”笔写到从下端向右上方运笔时,是由下及上的逆笔,不便书写,于是就被分成了左、右两边的“丨”和下端的“一”三笔;而右边的竖笔又与上面的横笔连起来写成折笔,运笔方向是先从左往右继折而向下,这样,原来的逆笔就变成了顺笔。
      又以“宀”(音miǎn  ,俗称“宝盖”)为例分析:小篆的“宀”写成“”,其点笔以下部分的运笔,从左下方到上方正中一段为逆笔,隶书改成左边一短竖和横折两笔。在原来小篆的写法中,两端下垂甚长,右边笔端下行写到头后,再提笔回到上方当中写“ ”下中部的其它笔画,就感觉距离太远且又是逆向,为了快速方便地转换书写位置,就改为了短折;又为了字形的匀称平衡,左边也相应改短,这样“”就演变成了“ ”。
不难举出更多类似的例子,限于篇幅,就不一一例举了。
      记录工具毛笔、记录介质简牍及记录材料人工墨的配合使用,使汉语言的记录工具发生了从刀到笔的革命性变化,由此而引发了汉语言记录符号——汉文字从篆到隶的变革。
      汉文字在经历了由篆到隶的转变后,笔形继续向平直方正的方向发展,形成了横平竖直的笔画系统,最终产生了作为汉文字规范字形的楷书。至此,汉语言的记录符号完成了对于记录工具从刀到笔这一变革的适应过程。从魏晋至今约1800年,楷书作为汉文字的规范字体,十分稳定,没有再发生显著变化,这是因为这一时期内汉语言的记录工具一直是笔,没有发生新的革命性的变化。
      通过对工艺成熟的毛笔开始普及使用的年代与汉文字形体演变过程中隶变发生年代的比照考证及对篆、隶文字体势、形态的比较分析,可以得出这么一个结论:毛笔替代刻刀这一汉语言记录工具的变革,是汉语言记录符号——汉文字发生隶变的直接动因

1.5 汉文字简化运动与汉语言记录工具的关系

      隶变完成后,汉语言记录符号和其记录工具的矛盾基本上得到了解决,但汉文字的变革却不曾有一刻的停止。在字体上,它继续演变直到楷书才稳定下来。此后的汉字改革,主要方向转向对汉字的简化。汉字的简化,也并不是现代才有的事情,而是古已有之。秦代实行“书同文”,“罢其不与秦文合者”,以李斯《仓颉篇》、赵高《爰历篇》、胡毋敬《博学篇》为范本,“皆取史籀大篆或颇省改,所谓小篆者也”,(许慎 汉:后叙)说明小篆是对史籀大篆的简化。同时秦国下层官吏中为应付“官狱职务繁”而开始使用隶书体,“以趣简易” (许慎 汉:后叙),说明隶变不仅是字体演变的过程,也是对小篆的简化过程。隶变完成及至楷书定型以后,汉文字的形体稳定下来了,至今基本没有变化,但是汉文字的简化却一直没有停止,在历代都产生了一些简化字。新中国成立以后,党和政府高度重视文字改革工作,国务院于1956年公布了《汉字简化方案》。汉字简化,实质上也正是笔这个汉语言记录工具对汉文字这种汉语言记录符号的必然要求。人们用笔写字,少一笔总比多一笔来得方便快捷。
      综上所述,隶变也好,楷化也罢,加之简化,都是刻刀换成毛笔这一汉语言记录工具的变革所引起的必然结果。

1.6 汉语言记录符号变革的直接动因

      通过上述分析可以使我们清楚地认识到,作为汉语言记录符号的汉文字,其变革的直接动因,在于它和汉语言记录工具之间的矛盾运动。
      随着社会生产力的发展,出现了新的比之原来所使用的更高级的汉语言记录工具。新工具在记录汉语言过程中表现出来的不同于旧工具的新的使用特性,会和原来在使用旧工具过程中形成的汉语言记录符号系统发生矛盾。这种矛盾必然要求汉语言的记录符号进行一定程度的变革调整来适应新的工具。所以,汉语言记录工具的变革是汉文字演变的直接动因

1.7 汉文字不变的“表意”内核

      尽管几千年来汉文字的形体发生了由甲骨文、金文、大篆、小篆、隶书、乃至楷书这样复杂的变化,从甲骨文到楷书,可以说已经面目全非,但其“表意”的内核却始终没变;对绝大多数的单字来说,其内部的构造成份也基本没变。以“男”字为例:不管是甲骨文还是楷书,均由“田”和“力”两部分构成(见图三)。这一事实告诉我们,几千年来,汉文字的变革始终是在表意文字的大框架内进行的。


                 
     (拓片)[ 5 ]      (摹写)       ( 楷书)
[center][/center]

附  注
[ 1 ]  另有一说是湖北随州擂鼓墩曾侯乙墓发现的春秋时期毛笔。
[ 2 ]  见成公绥《隶书体》。转引自吴颐人《常用汉字演变图说》,上海书店出版社(1994年7月)。
[ 3 ]  插图一、二取自秦永龙《汉字书写漫谈》。《语文建设》(1997年1~12期)。
[ 4 ]  文中所用小篆字形均取自许慎《说文解字》,中国书店(1989年1月)。
[ 5 ]  拓片照片采自《甲骨文合集》第二册,编号3457。
 楼主| 发表于 2004-9-3 06:33:18 | 显示全部楼层

二、信息时代汉语言记录符号与记录工具的矛盾

2.1 信息时代汉语言电磁光记录方式的特点

      电子计算机的诞生,标志着人类社会信息时代的开始。当计算机这一新事物进入中国并在价格和体积上都达到了普及水平时,就因其无与伦比的优越性能在汉文字处理领域被广泛使用,正在逐步成为继笔以后记录汉语言的又一新工具,同时也给汉文字的使用和改革带来了新的课题。
      在汉语言记录方式的几何时代,人们是使用通过刀尖或笔尖(锋)这个“点”在龟甲、兽骨、简帛、纸张等“面”上的运动这种几何方式来记录汉语言的。在对语言的记录过程中,是以单个汉文字为单位,写完一个字,再写下一个字。在某一个单字的书写过程中,是一个线条一个线条或者按习惯的说法是一个笔画一个笔画进行的。这种几何方式决定了在这一时期内汉文字变革的内容是汉文字几何形态的变化和线条(笔画)数的增减。故而才有从篆到隶的古今汉文字分水岭的产生及其后的楷化;才有从古至今的汉文字简化运动。
      学术界一直流行着一种观点,认为汉文字变革发展的总趋势是“由繁趋简”。其实,由繁趋简只是在对汉语言的记录采用几何方式这一特定历史阶段中的总发展趋势(诚然,这个历史阶段是足够长的,已有近四千年历史),当汉民族开始采用电子计算机为工具,以全新的电、磁、光方式来记录自己的语言时,就出现了新的情况,遇到了新的矛盾。汉文字的变革趋势也必将会发生新的变化。
      在汉语言记录方式的电磁光时代,人们采用电磁光方式来记录汉语言。由于所有交给计算机处理的信息,包括文字、图形、图像、声音乃至视频,在机内都必须以二进制形式存储和传送,所以,汉文字处理过程中所用到的机内码、显示字形码、打印字形码和交换码[ 6 ]也均无例外。在采用GB2312-80标准或GBK标准条件下,每一个汉文字不论笔画数,其机内码均占用二个字节;在    ISO10646多八位编码字符集中,每一个汉文字不论笔画数,均占用4个字节。字库方面,以点阵字库为例,显示字库一般采用16×16点阵,每一个汉文字的字形码均占用同等的32个字节空间;打印字库一般采用24×24点阵,每一个汉文字的字形码均占用同等的72个字节空间。不管是用笔写字时只有1笔的“一”,还是有24笔的“鑫”,无一能够例外。因此,所有的汉文字,不论其笔画数的多少,在主频和字长[ 7 ]相同的计算机内的处理速度都是相等的。即便在不同配置的两台计算机中,由于计算机极高的运算速度,由处理器主频和字长的差异所引起的处理速度上的差异,与用手执笔书写时由于笔画多寡引起的速度上的差异相比,也完全可以忽略不计。也就是说,在计算机处理汉字的过程中,原来用手执笔写字时由于字与字之间笔画多寡带来的记录速度上的差异完全消失了;原来用手执笔写字时不同字体在书写方便程度上的差异也消失了。由于汉文字在机内被转化成了二进制的数字形式,所以在整个的机内处理过程中,几何方式下的“点”、“线”和“面”也都消失了。据此,我们说汉文字在机内的整个处理过程对用户来说是透明[ 8 ]的,可以认为汉文字在计算机内的整个处理过程与用户无关。只有当在显示器上显示输出和在打印机上打印输出时,人们才能又看到自己所熟悉的汉文字。然而,汉文字在计算机显示器屏幕上以及打印纸上的形成过程,也已经跟几何方式下汉文字在记录介质上的形成过程完全不同了。显示器是经过逐行扫描在屏幕上显示汉文字的,每扫描一行,是显示文本中该行所有文字处于同一扫描行上的点,而不是以单个汉字为单位显示,更不是逐笔逐笔地显示。打印过程和显示过程相似,也不是以单个字符为单位进行的。打印头每运动一次,不一定都能打印出一行文字的全部,可能只打印出一行文字的半行,或者小半行,也或者是大半行。换句话说,就是同一行文字中的每个字可能都只被打印出了半个,或者小半个或大半个(见图四)。由于打印头的匀速运动和各个汉文字在打印纸上所占面积相等,每个汉文字不论其笔画多寡在同一台打印机上的打印速度都是相等的。至于在磁盘和光盘上的存储,就完全是利用电磁原理或光电原理以数字方式进行了。笔画数相异的两个汉文字,由于其二进制代码所占字节数相同,所以在存储设备上的读写速度也完全相同。
         

                        图四 计算机控制下打印机的打印头运动一次的一种结果

     由以上分析可知,电磁光方式下汉语言记录过程的特点与几何方式下汉语言记录过程的特点已完全不同了,所以,在电磁光方式下汉语言记录符号与记录工具的矛盾,较之几何方式下汉语言记录符号与记录工具的矛盾,有着全新的内容和表现形式。它们必然会要求作为汉语言记录符号的汉文字进行相应的变革以适应之。
      那么,在电磁光方式下,汉语言记录符号与记录工具的矛盾究竟有哪些具体内容呢?这一矛盾的运动对汉文字的改革又有什么要求呢?让我们在下面的章节中来作进一步的探讨。

2.2 信息时代汉语言记录符号与记录工具的主要矛盾
      计算机处理信息,主要经过三大环节:输入、处理、输出。如上节所述,计算机机内对汉文字的处理过程对用户来说是透明的,其显示和打印输出也都由机器自动完成,所以,使用计算机记录汉语言过程的关键环节在于输入。
      汉文字的计算机输入方式,主要有键盘输入、手写输入、语音输入和扫描输入四种方式。
      键盘输入方式,是使用计算机标准配置中的通用键盘输入汉文字。手写输入是为计算机增配专门的硬件(手写板和手写笔)和软件,用平常在纸上写字的方法在手写板上写字来输入汉文字。语音输入是通过对着与计算机相联的话筒朗读文本来输入汉文字。扫描输入是通过扫描仪把汉文字输入计算机中。
      上述四种方式中,手写输入、语音输入和扫描输入所使用的专用硬件和软件不是每台计算机都有的,不是计算机的一般配置(这里暂且不论这三种输入方式所达到的实用程度)。手写输入和语音输入又都有一个用户的笔迹和口音的差异问题,一般在技术上由相关软件的自学习功能来解决;在这种情况下,如果同一台机器换了一个新用户,或者同一个用户换用非本人专用的机器,都会发生机器对输入信息的识别困难。扫描输入主要用于印刷文本。因此这三种输入方式下汉文字与计算机的矛盾不具一般性。另一方面,手写输入的过程与人们用笔写字的过程并无不同;语音输入在输入过程中使用的是语音,与字形无关;扫描输入的信源是书面文本,是对汉语言的二次记录,所以在这三种输入方式下汉文字与计算机之间的矛盾不是汉语言记录符号和记录工具之间的新矛盾。键盘是计算机的标准配置,无论哪台计算机上都有。任何一个人,在世界任何地方的任何一台安装了中文操作系统的计算机上处理汉文字时,在不另加专用软硬件的情况下,可以使用的输入设备就只有键盘;而键盘上却又没有汉文字键。如何通过没有汉文字键的键盘把汉文字输入计算机,就成了用计算机处理汉文字的首当其冲的普遍性问题,因此,键盘输入方式下汉文字与计算机的矛盾是信息时代汉语言记录符号与记录工具的普遍性的或者说是主要的矛盾。近十年来出现的汉文字计算机键盘输入编码方案的“万码奔腾”现象,正是这一矛盾的集中表现。
      通过以上讨论,我们可以得出:在汉语言记录方式的电磁光时代,汉语言记录工具对汉文字改革的主要要求,是汉文字要适应计算机键盘输入的需要。本文以下凡是提到计算机汉文字处理,均指汉文字的计算机键盘输入。

2.3 汉文字与计算机键盘的矛盾及其解决途径

2.3.1 汉文字与计算机键盘字符键在数量上的矛盾

      通过计算机键盘输入汉文字,首先遇到的是汉文字与键盘上字符键在数量上的矛盾。
      我们先看汉文字的情况。现代通用汉字约有7000。如果把历史上存在和使用过的都算进去,汉文字的数量又有多少呢?从历代辞书的收字数来看,收字最多的是中华书局1994年出版的《中华字海》,共收85000字。1986 年至1990年陆续出版的八卷本《汉语大字典》收字数为54678。
      再看计算机。计算机键盘打字键区的字符键有:26个拉丁字母键、10个阿拉伯数符键以及21 个常用符号键(包含32 个符号)。21个常用符号键中,有10个符号处于数符键的上档,另有11个键每个键均有二个符号分处上、下二档,所以共有21个符号处于键的上档。上档的符号输入时须按Shift键,操作上不方便,所以不能用作汉文字的输入键;其余符号在文档中经常用作标点符号,所以须留作专用。这样,可以用来输入汉字的字符键就只有10个数字字符键和26个字母字符键。而数字字符和字母字符分属不同的符号集,一般不混用,所以,在输入汉字时,要么用26个字母键,要么用10个数符键(也有个别键盘输入编码方案混合使用字母键和数符键)。
      10个数符键或26 个字母键对数万汉文字,悬殊是何等之大!即便把用字范围限制在GB2312-80《信息交换用汉字编码字符集-基本集》(以下简称《基本集》)内,计算机键盘仍然面对着6763这个巨大字数。如果采用10个数字字符键输入汉文字,键数与字数的比例为1比676.3;如果采用26个字母字符键输入汉文字,键数与字数的比例约为1比260。怎么解决这个矛盾,就成了首要问题。

2.3.2 关于汉文字拉丁化的思考

      由于计算机键盘字符键数量与汉文字数量的尖锐矛盾,人们自然就想到早就由汉字拼音化改革论者们提出的汉字拉丁化主张。如果改革表意的汉文字为表音文字,用计算机键盘上的26个拉丁字母作为汉民族文字,问题不就彻底解决了吗?
      那么,这个办法到底是否可行呢?这个问题,必须通过考察汉文字与它所记录的汉语言的关系来回答。
      汉文字之所以至今没有走上拼音文字的道路,而保持表意文字的体系历数千年而不衰,总有她的道理,这个道理,就是因为她“跟汉语相适应”(张志公1998:P725)。汉语是非形态语言,不需要用音素来表示形态变化。汉语又是主要以单音节语素为发音单位的,而现代汉字是“表意体系的语素文字”(李禄兴2003:P142)。在绝大多数情况下,它用一个符号来表示汉语中的一个语素,记录一个语素的语音和语义,用起来很方便。所以,“汉字是不应当废除的,也是废除不了的。”(张志公 1998:P728)作为自源文字的汉字是“不可能突变为拼音文字”的(李葆嘉  2001)。
      从卢戆章1892年发表《一目了然初阶》到1923年钱玄同的《汉字革命》,再从1931年海参威的《中国新文字第一次代表大会》直到如今,100多年来汉文字拉丁化运动收效甚微的历史实践也说明:用拉丁文字记录汉语这条路行不通,起码在可以预见的历史时期内是这样。

2.3.3 解决汉文字与计算机键盘字符键数量矛盾的途径

      既然在可以预见的历史时期内用拉丁文字代替表意的方块汉文字还行不通,那么我们就必须立足于现行表意的汉文字体系来解决其与计算机键盘字符键在数量上的尖锐矛盾。解决的办法就是利用数学上的排列组合原理来为汉文字编码。
      根据排列组合原理,对m个元素,每次取其n个,设其中任一元素均可重复取用,则共可产生  个不同的元素组合。也就是说,要让10个数字字符键或26个字母字符键担当输入至少6763个汉文字的任务,就必须用若干个键符的组合来表示一个汉文字。以使用数字字符集的10个数字符为例,如果每组用4个数字符,则共可产生104=10000种不同的代码组合,就可以表示10000个汉文字。
定义2。1:用小规模符号集(数字字符集或字母字符集)的元素组合序列表示大规模汉文字集元素(单个汉文字)的过程称作对汉文字的编码[ 9 ]。
      编码是我们解决键符和汉文字之间数量矛盾的唯一可行的办法,所以,在信息时代,汉文字必须适应编码的需要
      为了探究现代汉文字与编码需要之间的适应性程度和尚待解决的矛盾,我们需要分别探讨汉文字编码原理和汉文字的相关特性。

-----------------------------------------------
[ 6 ]  关于计算机使用的汉字机内码、字形码、交换码,请参阅钱培德《计算机中文信息处理技术》P6~ P18及周浩华《计算机汉字系统的设计与实现》P10~ P22。
[ 7 ] “主频”指计算机中央处理器(CPU)的时钟频率即每秒脉冲数。“字长”指计算机中央处理器(CPU)一次能直接处理的二进制位数。这两项是决定计算机运算速度的主要指标。
[ 8 ]“透明”一词在IT业专业术语中可解释为“感觉不到”。
[ 9 ]  GB5271.4 – 85 中对“编码”的定义是:“用数据处理机可接收的符号形式来表示数据或计算机程序。”
 楼主| 发表于 2004-9-3 07:22:33 | 显示全部楼层

三、汉文字编码

3.1汉文字编码原理

3.1.1名词、术语及定义

      为了便于讨论,我们先给出若干概念的定义。
      定义3.1:在某种特定的汉文字编码方案中,用来为汉文字编写代码的符号称为码符
      所有码符构成的集合称为码符集
      定义3.2:在某种特定的汉文字编码方案中,所有用来为汉文字编写代码的单位符号是该方案中的代码元素,简称码素。所有码素构成的集合称为码素集。[10]
      定义3.3:从单个汉文字中分解出来的与该字代码中某码素相对应的编码单位称为码元。某种特定的编码方案中所使用的所有码元的集合称为该编码方案的码元集
      如《五笔》输入法中的“字根”就是本文所指的“码元”,所用字根的集合就是一个码元集。
      定义3.4:一种编码方案所能产生的代码总数称作该方案的编码空间
      定义3.5:单个汉文字的代码中所包含的码符数称作该代码的码长
      设码符集元素个数为  ,码素集的元素个数为  ,每个代码中码素数为,码素长度为  ,代码集空间大小为,码长为  ,  则有:
  
                                               (1)

     当码素中码符可以自由排列时有:

                                                  (2)

当代码中码素可以自由排列时有:


                                                 (3)

      当码素中的码符和代码中码素均可以自由排列时,由(1)可得:  

     
                                               (4)

      (2)、(4)代入(3)有:   


                            (5)

      由对数定义及换底公式可得:


                                       (6)

      定义3.6:在一个代码集内,二个或二个以上汉文字争用同一代码的现象称为代码冲突。争用同一代码的所有汉文字构成一个代码冲突字组。同一个代码冲突字组中的字称为代码冲突字。一个代码集中所有代码冲突字的使用频度之和称为该代码集的代码冲突率
      代码冲突又称“重码”。代码冲突字又称“重码字”。代码冲突率又称“重码率”。设一个代码集中代码冲突字组数为
  ,各组中代码冲突字数为  ,该代码系统的代码冲突率以    表示,则有

       (7)

定义3.7:码元集中的元素(码元)同码素集中的元素(码素)之间的对应关系称为码元集到码素集的映射
      当码元所对应的码素与码元本身所携带的形、音、义信息没有联系,而是由方案设计者主观规定时,称其为主观映射法
      当码素与码元本身所携带的形、音、义信息存在某种联系,码素能表达其所映射的码元的某种客观信息时,称其为客观映射法
      下面我们来讨论有关问题。

      3.1.2汉文字键盘输入编码的方法

      汉文字键盘输入编码大致有二种方法四大类:
      第一种方法是用10个阿拉伯数符作为码符组成码素给汉文字编码,由此产生的编码称数字码,又称流水码。如《电报码》、《四角号码》和《区位码》都属这一种。
      第二种方法是用26个拉丁字母作为码符组成码素来给汉文字编码。其中又由于对编码对象(单个汉文字)提取码元的侧重点不同分为音码、形码和形音码三类。
      音码,是利用单字的读音信息对其编码。《全拼》、《双拼》及微软的《智能ABC》等属于这一类。
      形码,是利用单字的字形信息对其编码。这类编码把每个单字分解为若干个部分,每一部分作为一个码元,并按一定的规则对同属一个单字的若干码元进行排序,最后通过由码元到码素及至码符的映射产生代码。《五笔字形》、《表形码》等均属于这一类。
      形音码,是综合利用汉文字的字形和字音信息。先把一个汉字从字形上分解为若干个码元,比如形声字的形旁和声旁;然后取各个码元读音(或称谓)的首字母作为码素来组成代码。由此方法产生的代码称形音码(或称音形码)。《自然码》、《沈码》均属于这一类。

      3.1.3汉文字编码的理想目标
      
      为了找到汉文字和其计算机键盘输入编码的最佳结合点,必须首先确定汉文字编码的理想目标。
      汉文字编码的理想目标是什么呢?本文认为,汉文字编码的理想目标是规范性和实用性的完美统一。
      规范性,是指编码规则要符合汉文字的规范。人们使用记录工具记录语言,是为了交换信息,这就需要信源和信宿双方都遵循统一的标准,于是,当人们通过文字这个语言的记录符号交换信息时,就对每一个符号的形状及其所承载的音、义进行了约定。这种约定就是汉文字的使用规范。随着计算机在汉文字处理领域普及程度的不断提高,汉文字的计算机输入代码将会成为汉文字的第二存在形态,所以要求它必须符合汉文字的规范。
      规范性的内容主要包括字形信息的全息性和码元提取的合理性两个方面。
      字形信息的全息性,是指一个汉字代码携带的字形信息,应该反映该代码所对应单字字形的全部,不能丢失该单字字形中的任何一部分信息。这同我们用笔写字时,不能缺笔少画的道理是一样的。
      码元提取的合理性,是指把某一单字分解为若干个码元时,要符合该单字自身的结构原理即通常所说的构字理据。
      实用性,是指要满足记录语言时的便捷要求,而且所达到的便捷程度必须要高于用笔作为记录工具时的水平。
      实用性的内容主要包括学习量、记录速度和资源占用量三个方面。
      学习量大,人们就不喜欢学,“用”也就无从谈起,因而实用性也就差;反之,学习量小,就会受到大家的欢迎,容易普及,无疑实用性也就好。
      学习量主要由码素和码元之间的映射关系决定。当采用客观映射法时,码素与码元的形、音、义存在一定的联系,码素能表达其所映射的码元的某种客观信息,二者之间的映射关系不需要死记硬背,学习量就小。当采用主观映射法时,码素与码元的形、音、义没有客观联系,二者之间的映射关系需要通过死记硬背来掌握,学习量就大。理想的汉字编码,其学习量应不超出中小学识字教学总课时减除必要的传统识字教学所需课时后的课时数。也就是说,对汉字计算机输入代码的学习,应融入学校的识字教学活动中,在中小学的课堂识字教学中完成。
      记录速度是指通过代码使用计算机记录汉语言时的快捷程度,一般用每分钟输入的字数来衡量。它主要由编码冲突率和码长两项指标来决定。编码冲突率低时,绝大部分单字都可以盲打输入,记录速度就会较快。编码冲突率高时,大多数单字需要经过选择上屏,记录速度就会减慢。理想的编码冲突率应为零,此时所有单字均可盲打输入,完全不用选择上屏,这无疑会大大提高记录速度。除了编码冲突率,影响记录速度的另一个重要因素是码长。码长值小,输入每个单字所需要的敲键次数就少;码长值大,输入每个单字所需要的敲键次数就多。当敲键频率一定时,无疑码长值小时输入一个单字所需的时间相对就要短些,记录速度也就快些。然而,码长又受两个因素的制约,一是编码空间的大小;二是编码冲突率。零编码冲突率必然要求足够大的编码空间,由3.1.1节的 (6) 式可知,这就会在一定程度上加大码长值。反之,减小码长值,会引起编码空间的缩小,就有可能增加编码冲突率。本文认为,码长值的决定,应该服从零编码冲突率的原则。
      资源占用量,是指计算机存储器空间的占用量和单位汉文字的处理时间。理想的编码规则,不应该在软件上再附加基本功能以外的代码段如“智能联想”、“自动分词”、“整句输入”功能以及“语料库”等等,也就是说,必须在单字层面上解决汉字输入问题。这样,汉字键盘输入处理模块的代码就必定短,占用计算机主、辅存空间必定小,处理单个汉文字所需的时间也就必定会少。
      关于汉文字计算机输入编码的理想目标,还应提到的是原国家教委(现教育部)于90年代初提出的为中小学信息教育选码的标准。当时的国家教委提出:理想的汉文字计算机输入编码,应是能够与中小学识字教学密切结合的。要使我们的学生在课堂上认识一个字的同时,就能掌握这个字的计算机键盘输入代码,而不要等到从学校毕业后,再进电脑培训班另学电脑打字。这个选码标准,从中小学识字教育的角度描绘了汉文字编码的理想境界。本文前面所述的规范性、实用性两大原则,是和这个选码目标相一致的。汉文字编码如果达到了规范性、实用性的要求,无疑它就能和学校的识字教育相融合。
      规范性和实用性二者中,规范性是第一位的。实用性必须服从规范性。脱离规范性来谈实用性是没有意义的。不符合汉文字使用规范的编码,是没有使用价值的,因此实用性也就无从谈起。
      这里需要强调的是,我们所说的计算机成为记录汉语言的新工具,是指计算机为汉民族中所有受过教育和正在接受教育的成员以及世界上其他使用汉文字的人们所用;是指计算机作为汉民族全民族的语言记录工具,而不仅仅是少数受过专门训练的职业文字录入员的使用工具,因此,本文所指的汉文字计算机输入代码,应该是能为汉民族中所有受过教育和正在接受教育的成员以及世界上其他使用汉文字的人们能够方便地掌握的普及型代码,而不仅仅是少数专业人员的工作手段。一句话,汉文字编码实现理想目标,计算机真正成为记录汉语言的新工具之日,就是“文字录入员”这一职业从中国社会上消失之时。

      3.2汉文字应适应的编码类型

      我们在2 .3节和3.1.2节中已经知道,当使用计算机来处理汉文字时,要求汉文字适应编码的需要,而编码又有四种不同的类型,各种类型又有各自的编码方法。不同的编码方法对汉文字与其适应性的要求当然不会相同。那么应把哪种编码方法作为汉文字改革的基本适应对象呢?这就需要对四大编码类型进行筛选。
      四种编码类型中,数字码采用数字字符集作为码符集;音码、形码和形音码一般都采用拉丁字母字符集作为码符集[11]。
      数字字符集的元素总数为10。字母字符集的元素总数为26。根据3.1节(5)式,当码长一定时,采用字母字符集作为码符集可以取得较大的编码空间。根据3.1节(6)式,当编码空间一定时,使用字母字符集比之使用数字字符集所需的码长值较小。又由于数字码码素与码元之间是主观映射关系,代码的学习记忆量大,所以,不应该选择数字(流水)码。实践也证明,除非需要用区位码输入非汉字特殊符号,否则,没有人愿意使用数字码。
      在使用字母字符集作为码符集的三类编码中,拼音码的码素只有《汉语拼音方案》中规定的14个声母和35个韵母,又由于声母、韵母的排列顺序不能颠倒,故在不考虑声调的情况下,其理论编码空间为:

[center]14×35=490[/center]

是三类编码中编码空间最小的一类。实际上,汉语的音节是418个[12](不考虑声调),比理论编码空间还要少72个。设编码对象为《基本集》的6763字,则每个音节平均有

[center]6763÷418  16(字)[/center]

这就是说,《拼音码》存在着非常严重的编码冲突现象,无法实现理想编码目标中零编码冲突率的要求。
      近年来,研究拼音输入的人士,为了克服同音字这个障碍,采取了建立“语料库”的方法,试图利用计算机软件的智能化,通过“词输入”、“整句输入”甚至“篇章输入”来解决问题,这也是难以行得通的。首先,汉语词中同音词的比例在不标调情况下占35.8%;在标调的情况下仍然占10.9%[13] ;其次,汉民族社会的语言是极其丰富的,是任何语料库都无法穷尽的;再次,随着社会的发展和人们生活内容的变化,大量新语汇不断涌现,而需要投入巨大的人力物力来制作的语料库却不可能时时更新;还有,包罗万象的语料库会使汉字键盘输入处理软件的结构趋于复杂;容量急骤膨胀;会占用大量宝贵的计算机资源和降低机器的运行效率,这也是不可取的。
      另一方面,由于拼音码采用的编码信息是汉字的读音,而汉文字的改革改变的一般是汉文字的字形,所以当我们考虑汉文字对于计算机键盘输入的适应性问题时,可以把拼音码排除在外。
    剩下的形码和形音码两类编码,都是把单字分解为若干码元,再规定码元到码符的映射规则来实现编码(在形码和形音码中码符集和码素集相等)。这就是说,这两类编码方法都要求单个汉文字应是可分解的。不同之处是形码采用的是主观映射法,码符与码元的读音之间没有联系,学习量较大;形音码采用的是客观映射法,一般采用码元读音的声母作为码素,每个码素含一个码符,这样就通过码元的读音把码元转化成了拉丁字母键符,大大降低了学习量;又由于形音码也要求每个单字应是可分解的,所以,如果解决了汉文字对形音码类型编码的适应问题,也就解决了汉文字对形码在码元分解这个环节上的适应问题。因此,应该以形音编码类型作为汉文字改革的适应目标

      3.3形音码对编码信息量的要求

      编码信息量,是指作为编码对象的汉文字在向代码映射过程中所提供的形、音信息的单位数。形音码的码素集与码符集是相等的,所以它要求编码对象(单字)要能提供不少于最小码长值的信息单位。换句话说,就是从单个汉文字中分解出来的码元个数值应不小于最小码长值。再者,形音码最终是通过码元的读音信息实现码元到码符的映射的,所以它还要求从单个汉文字中分解出来的每个码元都要有完整的音节。综合以上两点,我们可以得知:编码对汉文字的要求,一是每一个单字都必须是可分的;二是从每个单字中分解出来的每个码元都必须是可读的。这样,矛盾就集中到了对单个汉文字的分解这个问题上了。

      3.4单字的分解原则

      应该依据什么规则对单个汉文字实施分解呢?这里需要解决二个问题:一是以什么为单位进行分解?二是按什么顺序进行分解?我们说,对单个汉文字分解的原则应该是:按其构成的单位和生成时序的逆时序进行。为了搞清楚汉文字的构成单位和生成的时序,就必须研究汉文字在单字构造和生成时序上的一般规律,这就是我们在第四章中要讨论的问题。

---------------------------------------------------
[10]  码素和码符是两个不同的概念。码素是组成代码的基本单位,由码符组成 ,有的码素只含一个码符;有的码素含多个码符。如《拼音码》中,a、b、c、d、……、z 26个字母都是码符。《汉语拼音方案》所规定的每一个声母和韵母即是码素。如“汉字”这个词中,“汉”的代码是han,它有两个码素h和an,其中码素h只含一个码符;码素an含两个码符a和n。由此可见,在《拼音码》中,是以声母和韵母作为基本单位进行编码的,而不是以单个字母作为基本单位进行编码的。又如《电报码》中,是用一个4位数作为整体来映射一个汉字,所以《电报码》中每一个汉字的4位代码就是一个代码单位即码素,每一个码素由4个码符组成。还有在《区位码》中,每个单字4位代码的前2位表示其在GB2312-80中的区号,是一个代码单位;后2位表示位号,也是一个代码单位,所以《区位码》中每个单字的代码由两个码素组成,每个码素又各含两个码符。而《四角号码》中,每字的代码由4个码符组成。4个码符分别表示一个单字的四个角的笔形,所以,《四角号码》中的每个码素均由1个码符组成。在《五笔》、《沈码》和《表形码》中,每个码素也均由1个码符组成。在后三种方案中,码素集和码符集相等。

[11]  也有少数编码方案采用数字字符集同字母字符集的并集作为编码字符集。
[12]  见张志公《汉字与阅读》,《张志公自选集·下》,北京大学出版社(1998)。
[13] 见潘钧《汉语拼音文字的关键问题》。美洲中国文字改进促进会电子刊物《语文与信息》第16期,2000年12月。
URL: www. wengai. com  。
发表于 2005-8-20 09:48:55 | 显示全部楼层

四、汉文字的结构

4.1 汉文字的三个结构层次──画、文、字。

      画,即笔画。在用笔作为汉语言的记录工具时,每个汉字都是一笔一笔地写出来的,但是,笔画并不是单个汉字的基本结构单位,而只是单个汉字的书写单位。也可以说,笔画是单个汉字的最小“构成单位”,它只是在整个汉文字即汉语言记录符号发展演变的历史长河中,“笔”作为汉语言主要记录工具这一特定历史阶段中产生和存在的一个概念。

      张普先生说:最初的独体的文是象形的,它的结构和笔画并没有一定之规,而是随物体本身的曲线来象,与图形更接近。直到隶书出现,笔画才大大改观,真正形成平直方正,便于书写的笔画系统了(张普P147)。

      一个单字,分解到笔画后,还能不能再分解呢?显然,不能再分解了。因此,笔画是单字结构上的最小元素。

      本文把笔画称为字素。

      定义4.1:字素是用笔作为汉语言记录工具书写楷体汉字时,每一次从落笔到提笔这段时间里,笔端在汉语言记录介质上的运动轨迹[14] 。

      字素是单个汉文字的最小结构单位。

      文,是指独体的用象形法和指事法造出来的汉语言记录符号。

     清代王筠说:人之不识字也,病於不能分。苟能分一字为数字,则点画必不可以增减且易记而难忘矣。苟于童蒙时,先令知某为象形,某为指事,而会意字即合此二者以成之,形声字即合此三者以成之,岂非执简而御繁之法乎?(王筠 清 《文字蒙求·自序》)

      王筠这里讲的是汉文字的教学法,但也说明了造字法。根据王筠的观点,最早的汉文字只有用象形法和指事法造出来的汉语言记录符号,后来为了适应社会发展所带来的语言表达的需要,人们在已有的这一类符号的基础上用会意法又造了许多新符号,如:上“小”下“大”为“尖”;“不”“好”为“孬”等等。再往后,人们的语汇愈加丰富,要求有更多的符号来记录它。会意法不够用了,又用了形声法。如:“鱼”原来是象形字,它只是鱼类的总称。随着对客观事物认识的不断深化,为了能够准确地表述不同种类的鱼,人们又用了“里”、“连”、“昌”……等和“鱼”组合,造出了“鲤”、“鲢”、“鲳”……等一批符号来。

      以上所述构成“尖”的“小”和“大”、构成“孬”的“不”、“女”和“子”等已是独体的汉语言记录符号了。古人把这类独体的用象形法和指事法造出来的汉语言记录符号称为“文”。
      字,由“文”经会意、形声等方法造出来的合体的汉语言记录符号称为“字”。

4.2 字元
4.2.1.字元
       通过4.1节的讨论可知,“文”是介于“字”与“画”之间的一个中间层次上的构字单位,但是“文”还不是构成单字的基本单位。如前面提到过的“孬”字,是用“不”和“好”两字组成的会意字。组成“孬”的基本单位是“不”(文)和“好”(字),而不是“不”、“女”、“子”三个“文”。把“孬”字分析为由“不”、“女”、“子”组成,不但不符合这个字构成的事实,就是在字义上也说不通。

      为了解决构成汉字的基本单位这一问题,我们引入“字元”这一概念。

      定义4.2:参与构造一个单字,在该字中起表音或表义作用,且本身具有完整的音节、明确的意义,结构规模小于且仅小于所参与构造的单字的汉语言记录符号,称做这个单字的字元。

      所有的汉字,都是由字元构成的。对于合体字来说,每个字总是由两个或多个结构单位组成,这些结构单位就是字元;对于文(独体字)来说,我们可以把它看作是由单个字元组成的字,这个字元就是这个文(独体字)本身。

      参与构字的字元,在其所参与构造的单字中,总是起一定的作用的。它们在该单字中或表音,或表义。如“花”字,其中的“艹”表义、“化”表音。前已提到过的“孬”字,其中的“不”和“好”合起来表示“不好”的意思,都是表义的。

      “艹”、“化”、“不”、“好”等都具有完整的音节(“艹”即“艸”,念cǎo)和明确的字义[15] 。

      应该说明的是:“亻”和“ ”以及“女”和“子”也都有完整的音节和明确的字义(“亻”是“人”的变形,可以认为具有和“人”相同的字音和字义。“ ”音huà,“变化” 义),但它们不是“花”或“孬”的基本构成单位。“亻”和“ ”的结构规模比“化”小,“女”和“子”的结构规模比“好”小,它们都不符合字元定义中“结构规模小于且仅小于其参与构造的单字”这一条件。“亻”和“ ”是“化”的字元,而不是“花”的字元;同理,“女”和“子”是“好”的字元,而不是“孬”的字元。

      类似上述“花”、“孬”两字的例子,在汉字中是举不胜举的。由于汉文字中形声字和会意字二者合起来占汉文字总数的95%以上,而形声字和会意字均由二个或二个以上的字元构成,所以以上分析方法是不失一般性的。

4.2.2“字元”与“文”,原始字元
      字元并不等同于独体的“文”,这在对“花”和“孬”两字的分析中已经得到了说明。毫无疑问,所有的“文”,都是参与构造汉字集的元素,也即“字元”,但不是每一个字都以“文”为基本单位构成。借用数学上的术语来说,这是一个充分条件而不是必要条件。

      “文”是所有字元中最活跃的因素,它们具有非常强的构字能力。

      定义4.3:所有由用象形法和指事法构造的记录符号演变而来的独体的“文”,称为原始字元。

      由于汉文字长期演变的结果,一些原来独体的“文”变成了合体的“字”;一些原来合体的“字”变成了独体的“文”。例如“黾”字,原为青蛙形,现在可以分解为“口、电”;“吕”字,小篆为脊梁骨形,现在可以分解为“口、口”。又如“及”,甲骨文从“又”、从“人”,表示“追及”的意思,会意。“书”字,小篆从“聿”、“者”声,为形声字,现在“及、书”都是独体字。(孙钧锡 1991:P316)我们前面讲的“原始字元”,不包括这一类字在内。

4.2.3.单体字元和复合字元
        定义4.4:参与构字的独体的“文”,称为单体字元。

       单体字元在形、音、义上是不可分解的整体。

       定义4.5:参与构字的合体字称为复合字元。

       定义4.6:义元——起表义作用的字元称为义元。

       定义4.7:音元——起表音作用的字元称为音元。

       这四个定义的含义很清楚,就不一一举例说明了。

       为了便于讨论,我们在广义上把每个单字本身也看作字元,正如数学上把一个数本身看作它的约数一样。

4.2.4.字元之间的亲缘关系和字元分代

      参与构造同一个单字的若干字元之间存在着亲缘关系。还以“花”字为例。我们已经知道,“花”字由“艹”和“化”构成,“化”又由“亻和“ ”构成。显然,“艹”和“化”的产生在“花”之前;而“亻”和“ ”的产生又在“化”之前。我们可以这样说:“亻”和“ ”的结合产生了“化”(此时“亻”是义元,“ ”为义元兼声元);而“艹”与“化”的结合又产生了“花”(此时“艹”是义元,“化”是声元)。如果把汉文字人格化,就可以说:“亻”和“ ”是“化”的父母,而“艹”和“化”又是“花”的父母。这是一个祖孙三代的字元家族。如果把“亻”和“ ”作为父辈,那么“化”就是子辈,而“花”则是孙辈。如果从“花”出发,上溯寻祖,那么“艹”和“化”是“花”的父母,而“亻”和“ ”是“花”的祖父母。

      本文把当前需要处理(书写或输入)的单字称为当代字元;把作为构成当代字元的基本单位的字元称为该单字的父代字元;把作为构成父代字元的基本单位的字元称为该单字的祖代字元。

      根据以上讨论,我们把定义4.2调整为定义4.8:

      定义4.8:字元——具有完整的字形和音节,并有明确的字义的汉语言记录符号。

     又有:

     定义4.9:当代字元——当前需处理(输入或书写)的单个汉语言记录符号。

      定义4.10:父代字元——参与构造一个当代字元,在其中起表音或表义作用,结构规模小于且仅小于该当代字元的字元。

      定义4.11:祖代字元——参与构造一个父代字元,在其中起表音或表义作用,结构规模小于且仅小于该父代字元的字元。

4.2.5 原形字元和变形字元

       汉文字中的字元,存在着一元多形的情况。如“人”作为父代或祖代字元处于其下一代字元左边时,其形往往为“亻”;“手”作为父代或祖代字元处于其下一代字元左边时,其形往往为“扌”;“刀”作为父代或祖代字元处于其下一代字元的右边时,其形往往为“刂”。平常大家习惯把“亻”、“扌”、“刂”等字元称为“部首”。“部首”这个概念是许慎编《说文解字》时为把含有相同字元的字进行归类以便于检索而提出来的。笔者认为结合造字法和信息时代的特点,还是用一元多形来解释为好。

      字元的一元多形,在1956年公布(1986年重新公布)的《简化字总表》和1965年公布的《印刷通用汉字字形表》中也有明确的规定。

《简化字总表》规定:第一表的350个简化字不得作简化偏旁用。也就是说,这些字元作当代字元(单字)用时,要用简化的字形;作为父代字元或祖代字元用时,仍用繁体字形。

《简化字总表》第二表中规定十四个简化字元(偏旁),作父代或祖代字元(偏旁)用时,字形於以简化。如“言”要用“讠”;“金”要用“钅”等等。但作为当代字元(单字)用时,不简化。

 又如《印刷通用汉字字形表》规定:“土”、“工”、“立”、“王”、“子”、“止”、“牛”、“足”、“车”、“马”、“鱼”、“血”等原始字元作为父代字元(偏旁)处于字的左边时,末笔的横均变形为提,如“地”、“功”、“竭”、“琼”、“孙”、“歧”、“物”、“路”、“轩”、“骆”、“鲜”、“衅”等。“手”、“辛”、“半”、“羊”等作为父代字元(偏旁)处于字的左边时,末笔的竖均变形为撇,如“拜”、“辣”、“叛”、“羚”等。“衣”、“禾”、“米”、“耒”、“夋”等作为父代字元处于字的左边时,末笔的捺变形为点,如“袖”、“稗”、“粮”、“耕”、“皴”等。“己”、“先”、“光”、“七”等作为字元处于下代字元的左边时,末笔都变形为竖提。如“改”、“赞”、“辉”、“切”等等。

在《新华字典》和《汉语大字典》中,都把“爪”和“爫”归为同一部;把“犬”和“犭”归为同一部等等,也说明了“爫”是“爪”的变形;“犭”是“犬”的变形。

定义4.12:一元多形的字元,其作为当代字元使用时的几何形状为这个字元的原形。使用原形的字元称为原形字元。其作为父代字元或祖代字元使用时与原形相异的几何形状为这个字元的变形,使用变形的字元称为变形字元。

变形字元所携带的音、义信息与其对应的原形字元相同。许慎在《说文解字》中把以“扌”为父代字元的字均解为“从手”;把以“犭”为父代字元的字均解为“从犬”等等,就是证明。

4.2.6 省形字元

历代辞书,对某些字都有“某省形”、“某省声”的分析。“省形”是指省略某个字的形(义)元;省声是指省略某个字的声元。例如《说文》对“秦”字的分析是“从禾,舂省”。意指“?”为“舂”的省形字元。徐锴繫传曰:“舂禾为秦,会意字也”。说明“?”虽然只是“舂”的局部,但在“秦”字中仍然起表达“舂”字整体信息的作用。应该说,这里除了“形”这一因素,在“音”、“义”两方面“?”都等同于“舂”。又,“甤(音ruí)”字被分析为“从生,豨省声”。不管是“省形”还是“省声”,都是在字形上省略了部分字元。

定义4.13:作为父代字元或祖代字元使用时,省略了部分上代字元的字元称为省形字元。对应的省略前的字元称作该省形字元的原形字元。

省形字元是携带其原形字元的音、义信息参与构字的,所以,它是原形字元的等价字元。省形字元携带的音、义信息均与其对应的原形字元相同。

由于省形字元比之原形字元缺省了部分上代字元,所以造成了这类字元在字形上的模糊性,而字形上的模糊又带来了这类字元音、义上的模糊性。

省形字元同变形字元都在字形上与原形字元存在差异。二者的区别是:省形字元省略的往往是其整个上代字元,且在省略部分字元以后,余下部分的几何形状与原形字元中相应部分的几何形状仍然相同。变形字元改变的是字素的形状,变形后内部有一个或多个字素甚至全部字素的几何形状与原形字元不同,有些变形字元的字素数量也和其原形字元的字素数量不相等。

4.2.7 多音字元

汉文字集合中存在一个子集——多音字集。多音字集中的元素在不同的语言环境中有时取不同的读音。类似地,多音字集中的元素作为父代或祖代字元参与构造下一代字元时,在不同的构字环境中所取的读音有时也不相同。

如“句”有两个读音jù 和gōu。在“够”、“狗”、“苟”等字中,它是以gōu音作为音元参与构字的;而在“拘”字中,它是以jù 音作为音元参与构字的。再如“戋”,也有两个读音,一是jiān ,另外一个是cán 。在“笺”、“浅”等字中作父代字元用来表音时,用的是jiān音;而在“残”、“栈”等字中作父代字元用来表音时,用的是cán音。

定义4.14:以父代字元或祖代字元身份出现的多音字,称为多音字元。

4.2.8 连体字元

某些单字的上代字元之间存在一种情况,就是字素共用。所谓“字素共用”,是指两个字元结合构造一个下一代字元时,由于结合部相邻字素的几何形状相同,就省去其中一个字元的这部分字素,共用某些字素。例如“釜”字,就是省去了“金”头上的“人”,让“父”和“金”共用了“父”的最下边部分的字素。《说文》:“釜,或从金,父声。”《汉语大字典》卷六第4177页“ ”条:“同‘釜’。…段玉裁注:‘今经典多作釜’”。我们把这一类字元称为“连体字元”[16] 。

定义4.15:如果两个字元共同参与构成一个下一代字元时,单方或双方省略自身与另一字元相邻处的字素,与对方共用其与己结合部的字素,则称这两个字元互为连体字元。

4.2.9 单字中字元间的几何位置关系

前已提到过,参与构造一个字的所有字元组成一个字元家族。在这个字元家族中,各代字元之间除了血缘关系,还存在着两种关系:一是字元之间的音、义关系;二是字元之间的几何位置关系。

字元间的音、义关系,在4.2.1、和4.2.4两小节已有阐述,现在着重讨论字元之间的几何位置关系。

一个当代字元,其父代字元之间的几何位置关系,共有五种,它们是“左右关系”、“上下关系”、“鼎立关系”[17] 、“包围关系”和“穿插关系”。

在中小学的识字教学中,习惯上还讲“左中右关系”、“上中下关系”。其实,结合字元族的形、音、义关系及血缘关系来分析,上述两种关系实际并不存在。这两类单字实际上是分属于“上下关系”、“左右关系”和“穿插关系”的。

例如“鹏”,如果单从几何形状上分析,可以讲该字由两个“月”和一个“鸟”形成左中右关系,但结合音和义来分析,显然“鹏”由“朋”和“鸟”两个父代字元构成,其中“朋”作声元、“鸟”作义(形)元,两个父代字元构成左右关系。

又如“密”,是由“宓”和“山”两个父代字元构成上下关系。《说文》:“密,山如堂者。从山,宓声。”段玉裁注:“密,主谓山,假为精密字而本义废矣。”如果把“密”的字元结构关系分析为是由“宀”、“必”、“山”构成的“上中下关系”,显然错误。

对于字元间的穿插关系,平时人们讲得较少,其实这一类字还是不少的。如“衷”,是由“衣”和“中”两个父代字元构成穿插关系。《说文》:“衷,…从衣,中声”。还有“街”由“行”和“圭”构成穿插关系。《说文》:“街,四通道也。从行,圭声。”再如“褒”、“亵”、“衙”、“衔”等等都是两个父代字元构成穿插关系的字。

对于包围关系,在识字教学中习惯再把其细分为“全包围”和“半包围”,其中“半包围”又分为“上下包围”、“左右包围”、“左下包围”、“右上包围”… 等等。但从形、音、义上综合分析,“全包围”和“半包围”两者却并无不同。例如“国”和“匣”,都是一个父代字元包围另一个父代字元。“国”是“囗(wéi)”包围“玉”;“匣”是“匚(fān)”包围“甲”。还有“建”是“廴(yǐn)”包围“聿”;“庆”是“广”包围“大”等等。本文把它们统归为“包围关系”,不再细分。

字元间的几何位置关系与字元间的音、义关系有着密不可分的联系。一般地,从一个当代字元的几何结构中分析出来的几个部分,就是该当代字元的父代字元。左右关系中的左、右两部分;上下关系中的上下两部分;包围关系中的包围部分和被包围部分;穿插关系中的被穿插部分和穿插部分;鼎立关系中形成鼎立的三部分,都是如此。依据各字元本身固有的音、义信息,结合其字形上的几何结构,可以迅速准确地分析出该字元的上一代字元来。

4.3 字元树
4.3.1 字元树

      通过以上章节的讨论,我们可以得出结论:从每一个汉字中均可以分解出当代字元、或父代字元或祖代字元甚至曾祖代字元。有的字是两代同堂,有的字是三代同堂,极少数字如“癌”是四代同堂。对于独体的文即单体字元来说,只有一代即当代字元。

      因此,我们可以说,每一个汉字都是由其各代字元组成的。组成某个字的各代所有字元构成一棵字元树。每一棵字元树的根,就是当前处理(书写或输入)字,即当代字元。根的上一层节点,是当代字元的父代字元。父代字元的上一层节点就是祖代字元。

[center][/center]
[center]图五 字元树结构分类[/center]

字元树大致有三类五种(见图五):一类是只有一个根(当代)节点的字元树,它描述了原始字元(即独体的文)的结构。第二类是具有根(当代)节点和其父节点的字元树,其中(b1)描述了鼎立关系的字元结构,(b2)描述了只有两个父节点的结构。再就是具有根(当代)节点、父节点以及祖节点的字元树,也分两种情况:一种是(c1)所描述的,父代1节点有两个祖节点,父代2节点没有祖节点;另一种是(c2)所描述的,父代1节点没有祖结点,父代2节点有两个祖结点。还有极个别的字元树是由一个当代节点和4个父节点构成,如“ ”。

五种字元树可以分别用“口”、“晶”、“明”、“盟”、“唱”为例来说明(见图六)。

[center][/center]
[center]图六 字元树例[/center]

4.3.2 字元树的逆构特征

字元树是一种逆构树,这是它区别于自然树的重要特征。

自然树在空间上,树根在下,树叶在上;在时间上,先有树根,后有树叶。

字元树在空间上是和自然树相同的,树根在下,树叶(最高一代字元)在上;而在时间上却和自然树相逆,是先有树叶,最后才有树根,故称其为“逆构树”。相应的,当我们在编码过程中对汉文字进行分析以提取码元时,就应采取和字元树形成时序相逆的次序,从根节点出发,然后中间节点,最后到树叶。

4.3.3 字元树是规范汉文字编码的结构模型 

对于每一个汉文字,只要分析出其字元树结构,并确立了字元树上各节点(码元)跟码素(符)的映射关系后,通过对该字元树的遍历[18] ,即可得到这个汉文字的编码。

如根据4.3.1节图六中的字元树例,假设以码元的普通话读音首字母作码素(符),那么通过遍历字元树[19] ,可得“口”的代码为“k”;“晶”的代码为“jrrr”;“明”的代码为“mry”;“盟”的代码为“mmmry”;“唱”的代码为“ckcrr”。

由遍历字元树所得到的代码是符合汉文字规范的。

首先,遍历字元树所得到的码元及其排列次序,是符合汉文字字形规范的,这是因为字元树反映的正是其对应汉文字的规范字形结构,所以,遍历字元树得到码元组合后再向码素(符)集映射得到的代码无疑也是符合汉文字字形规范的。

其次,遍历字元树所得到的代码,是符合汉文字读音规范的,这是因为它的码素(符)反映的就是构成单字的各代字元的读音信息,其中当代码反映的即是该单字本身的读音信息。

再次,遍历字元树所得到的代码,是符合汉文字书写规范的,这是因为它不存在单字字形信息的丢失现象。前面说过,码元与码素之间一对一的映射关系要求编码对象要能提供不少于最小码长值同时又不超过最大码长值的信息单位(码元)数。如果一个单字所能提供的编码信息单位(码元)数超过规定的最大码长,就产生了编码信息冗余。在以往的定长形码和形音码中,往往采取丢弃多余的编码信息(码元)的方法来保持码长的一致,这就势必造成单字字形信息的丢失。如“癌”被分解为“疒(音nè)、口、口、口、山”五部分后,设最大码长定为4,就只能取“疒、口、口、山”作为码元,丢掉了一个“口”。从汉文字的使用规范来讲,这是不允许的,就如同我们用笔写字不能少笔缺画一样。遍历字元树得到的代码,不会出现单字字形信息的丢失现象。从字元树根结点取得的一个当代字元码就已经包含了该单字的全部字形信息;而在其父代字元中,又已包含了祖代字元的全部字形信息。

由遍历字元树所得到的代码也是具备实用基础的。由于代码中的码素取自码元的读音信息,可以直接使用计算机键盘上的26个拉丁字母即码符来表示码素,码素集和码符集相等,省去了对于码元键位分布的记忆,其学习量与拼音码十分接近,加上它的规范性,就很容易实现与中小学识字教学的融合。

字元树模型还有可能在无字库汉字处理技术上得到应用。可以设想,仅仅在计算机中存储几百个原始字元的字形信息,当显示或打印输出时,按遍历字元树的次序遍历并读出构成当代字元的各个原始字元的字形,再用相关的算法装配成字。这将极大地节约计算机资源。

最后,字元树模型还适用于包括繁体字在内的所有汉文字。我们随便找简、繁汉字集合中的哪一个单字来分析,都可以验证这一点,这里就不赘述了。

4.4 应用字元树编码模型尚待解决的矛盾

4.4.1 汉文字键盘输入编码对单字信息量的要求与部分汉文字编码信息短缺的矛盾

前已提到,汉文字和计算机标准键盘字母键符在数量上的矛盾,要求我们必须对汉文字实施编码。编码之所以能解决这一矛盾,是因为对26个拉丁字母码符集每次取一定数的元素进行排列组合,就可以产生汉文字数量所要求的编码空间。这就产生了一个最小码长的要求。我们仍然设码符集元素数为M,码素集与码符集相等,码长为n,编码空间大小为K,则由3.1.1节(5)式有 

(8)

以对编码空间要求最小的《基本集》为例,  ,  ,可求得   =3。也就是说,每单个汉文字所能提供的平均码元数应不少于3。实际上,由于汉文字在编码空间的非均匀分布,要求每单个汉文字所提供的平均码元数还要大于3。可是,在4.3.1节的图五中,存在着只有一个根结点的字元树,它表示了汉文字集合中单字的单体字元结构。也就是说,单体字元即独体的文作为当代字元时,无法提供编码所要求的信息量,这就产生了编码对单字信息量的要求与单体字元编码信息短缺的矛盾。

编码对单字信息量的要求与单体字元编码信息短缺矛盾存在的原因,在于单体字元本身形、音、义的不可分性。如果在这种情况下,对单体字元强行进行分解,就势必造成对这类单字的肢解,破坏汉文字的规范使用。

4.4.2 编码信息鲜明性要求与部分字元形、音、义信息模糊的矛盾

当通过对字元树的遍历进行编码时,字元树的各个节点就充当了码元的角色。为了能方便地实现从码元到码素的映射,就要求每个码元能够提供鲜明的读音信息。字元树的各个节点就是单字的各代字元,所以每个字元都应有鲜明的读音信息。字元的“音”又是由其“形”承载的,故而又要求每个字元应有完整的“形”。“形”完整则“音”自现,“形”、“音”备则“义”自明。

在当代通行的汉文字中,却又存在着部分字元形、音、义信息模糊的情况。一是有些字中的父代、祖代字元,原本是单字,但现在不作单字用了,人们渐渐淡忘了它原先的读音。如“行”字的两个父代字元“彳(Chì)”和“亍(Chù)”、“包”字的父代字元之一“勹(bao)”、“登”的父代字元之一“癶(bō)”、“病”的父代字元之一“疒(nè)”等等;二是前已提到的如“?”之类的省形字元,由于其“形”的省略,使其所承载的“音”的信息也变得模糊了;三是连体字元中粘连在一起的二个字元之间界线模糊;四是变形字元的读音不明确;五是在汉字简化时,对某些字的简化模糊了甚至丢失了其字元原有的读音信息。如“應”字简化为“应”后,“广”所包围的“倠(suī)”和“心”[20] 由读音无从考证的“ ”代替,丢失了字元原有的读音信息。

上述五种情况的存在,引起了编码对码元信息鲜明性要求与汉文字的部分字元形、音、义信息模糊的矛盾。这一矛盾的存在,造成了对一个单字进行码元分析和从码元中提取编码信息的困难,不利于编码规范性和实用性的实现。

4.4.3 编码唯一性要求与编码空间冲突的矛盾

一个代码集合中的每一个元素,即每一个代码,在汉文字集合中都应该有且仅有一个元素即一个汉文字与之相对应。相对于某一个代码,如果有二个或二个以上汉文字与之相对应,那么当我们在键盘上输入这个代码时,字库中代码相冲突的二个或二个以上汉文字就会同时响应,因而造成混乱。虽然可以在软件技术上采用选择上屏的方法对这一情况进行处理,但这是以降低输入速度作为代价的,只能是一种权宜之计。无论从理论还是从实用的角度考虑,代码冲突都是需要消除的。

但是,除了实用价值极低的流水码,其他类型的任一种汉文字编码目前均还无法避免代码冲突。作为例子,让我们来考察“池”、“抽”两字的编码。按遍历字元树的方法,可得出“池”由“氵”和“也”两个父代字元构成;“抽”由“扌”和“由”两个父代字元构成。两个字均没有祖代字元。“氵”是“水”的变形字元,我们视其具有和“水”相同的音和义,所以取其读音“shui”的首字母“s”作为码素;“扌”是“手”的变形字元,同理,取其读音“shou”的首字母“s”作为码素,“也”和“由”的读音首字母都是“y”,由此得出“池”、“抽”二字的代码都是“csy”,这就产生了代码冲突。代码冲突现象的存在向我们展示了信息时代汉语言记录工具和记录符号之间的又一个矛盾,即编码唯一性要求与编码空间冲突的矛盾。这一矛盾的存在,不利于零编码冲突率的实现,降低了编码的实用性。

--------------------------------------------------------------------------------
[14]  国家语委语言文字规范GF3001-1997中“笔画”定义是:“构成楷书字形的最小连笔单位。”
本文之所以不用人们习惯了的“笔画”而用“字素”这个词,是因为考虑到“笔画”这一名词,只是汉文字系统在其包括过去和未来的发展历史长河中一个特定阶段中的用词。在甲骨文时代,人们用刀在龟甲上刻字,那时候还没有笔,而且从甲骨文的字形来分析,也不存在横平竖直的笔画系统,自然不会有“笔画”这个词以及相应的概念。只有当汉语言的记录工具完成了从刀到笔的转变以后,“笔画”这个词才得以产生并被人们广泛使用。电子计算机在汉文字处理领域得到广泛使用后,人们使用各种编码方案通过计算机的键盘输入汉字,已不再是一笔一画地进行了。显示屏上显示汉字和打印机打印汉字也不是按笔画进行了。使用“字素”这个词,可以超越历史的局限,适用于汉文字发展的各个不同历史时期。
[15]  《汉语大字典》,四川、湖北辞书出版社(1986 — 1990),五卷p3172“艸”条:《说文. 艸部》:“艸,百芔也。从二屮。”按:隶、楷作“艹”。
[16] 关于连体字元的详细论述,请参阅陈明然《连体部件小议》。《汉字书同文研究》第5辑,香港文化教育出版有限公司2004年出版。
[17]  即指平时所讲的“品字结构”。之所以不用“品字”这个词而用“鼎立”,是因为本文认为原来用“品字结构”来表述这类单字中字元几何位置关系欠妥。字元间的几何位置关系与“品”字相同的还有“晶”、“鑫”、“众”……等,它们与“品”在父代字元几何位置关系方面的特征完全相同,谈不上哪个更具代表性。对这一类字,我们也可以把其字元间几何位置关系称之为“晶字关系”、“鑫字关系”、“众字关系”……。再者,如果说构成“品”字的三个“口”形成“品”字关系,就成了自我循环说明。采用该字集以外而又能准确描述该字集中所有元素特征的“鼎立”这个词,比较原来的提法要更妥些。
[18]  关于树及树的遍历请参阅陈小平《数据结构》,南京大学出版社(1994年2月版)。
[19]  树的遍历方式有“先根遍历”、“中根遍历”、“后根遍历”……等等。在汉文字的计算机输入编码中采用何种形式为好?可以展开讨论。
[20]《汉语大字典》卷四 P2359“應”条:《说文》:“應,當也。从心,  声”。卷六 P4098“ ”条:音ying 。
发表于 2005-8-20 09:51:49 | 显示全部楼层

五、对信息时代汉文字改革任务的认识

通过前面各个章节的讨论,我们可以认识到,由于表意汉文字相对于汉语言的良好适应性,汉民族的文字在相当长的历史时期内不可能演变为拼音文字;又由于不同字素数的汉文字在计算机处理过程中效率相同,所以简化已不是信息时代汉文字改革的主要方向。另一方面,对于当代通行的表意汉文字系统,在单字的结构上,字元树模型是不失一般性的,而通过遍历字元树则可以方便地得到符合规范的汉文字编码;这说明,现行的表意汉文字系统存在着适应计算机这一汉语言记录新工具的良好基础。如果我们能解决4.4节中所述的应用字元树编码模型尚待解决的三个局部矛盾,就能使汉文字完全适应计算机这一汉语言记录新工具的要求;因此,信息时代汉文字改革的任务,不是拉丁化,也不是单纯的继续简化,而是在原表意文字大框架内对当代通行的汉文字进行适度改革使之适应计算机处理的需要。由于现行汉文字与计算机之间的矛盾集中体现在汉文字的计算机键盘输入编码这一环节上,所以信息时代的汉文字改革应该着力于解决现行通用汉文字对计算机键盘输入编码的不适应之处。

       根据本文前面所作的讨论和研究,我们可以得到对当前信息时代汉文字改革的如下认识:   

1、以继承汉文字的历史传统为前提,在表意文字的大框架内进行。   

任何事物的变革和发展,都是在继承基础上的变革和发展。没有继承,变革和发展就成了无源之水,无本之木。况且,通过本文前面对汉文字构成规律的分析可以知道,占汉文字总数百分之九十五以上的合体字,是基本符合计算机键盘输入编码的要求的,因此,信息时代的汉文字改革完全可以在表意文字的大框架内进行。“淡化字理”、“拼形造字”的观点是不足取的。恰恰相反,为了能从单字中分析出构成单字的上代字元以利于对其编码;为了实现原国家教委(现教育部)要使计算机汉文字输入代码和学校识字教学相融合这一目标,我们需要强化“字理”,要大讲“形声”;要大讲“会意”。   

2、制定统一字表,确定改革范围。

要根据社会各个阶层、各个领域的需要,制定统一的字表。

我国目前在教育、出版和信息处理等不同领域所使用的字表各不相同,仅文革后公布的主要就有以下几种:一是国家标准局发布的《信息交换用汉字编码字符集──基本集》(GB2312 - 80)及《信息交换用汉字编码字符集── 第二辅助集》(GB7589 - 87)和《信息交换用汉字编码字符集──第四辅助集》(GB7590 - 87);二是同样由国家标准局发布的GB13000.1;三是由国家语言文字工作委员会和原国家教育委员会联合发布的《现代汉字常用字表》;四是由国家语言文字工作委员会和国家新闻出版署联合发布的《现代汉语通用字表》。

多个汉字字表的同时存在,是除“万码奔腾”现象外,信息时代汉语言记录符号和记录工具之间矛盾的的又一种表现。这一现象不利于信息时代汉文字的使用,不利于汉文字计算机处理和中小学识字教育相融合目标的实现。本文认为,多种字表应该统一。在制订统一字表这项工作上,相关部委应合并办公,不要再各吹各的调了。原国家语委常务副主任仲哲明曾经呼吁: 信息处理用字标准同社会通用的标准之间本来是可以统一,也应该统一 起来的,……如何通过适当的调整,使各个字表之间交叉矛盾的地方衔接起来,统一起来,制订一个统一的现代汉语用字规范字表,这是摆在面前的一项急务。(国家语委 1995:P?)此话可谓一言中的。

    近闻国家有关部门研制的新的《规范汉字表》即将完成,这是令人鼓舞的好事。新字表的制订工作是否是各有关部委联合进行的,笔者不得而知。本文在此要强调指出的是:新的《规范汉字表》一定要充分全面地考虑汉文字对计算机信息处理的适应性问题。“评判汉字改革的过去和放眼汉字整理的未来,都必须以计算机汉字信息处理和交流的效率作为最首要的标准。”[20]

统一字表制定完成后,汉文字改革的范围也就可以划定了。本文认为,把改革范围划定在统一字表中按使用频率排列的前3800字以内即可。参考有关研究成果,可以预计出,在当代这部分字的使用率约占全部汉文字使用率的99.88%[21]。只要解决了这部分字中与计算机键盘输入编码不相适应的部分,可以说也就基本完成了汉文字在信息时代的改革任务。   

3、 改一部分独体的“文”为合体的“字”。

独体的“文”的存在,是产生编码对单字信息量的要求与单体字元编码信息短缺矛盾的根源。要解决这一矛盾,就必须对独体的“文”进行妥善的处理。

经笔者初步统计,在《基本集》的3755个一级字中,约有160个独体的“文”。这160个独体的“文”中,字素数在4(含4)以下和在4以上的各约占50%。对于字素数在4(含4 )以下的这一部分,可以规定以字素作为码元,以其字素名的普通话读音的拼音首字母作为码符。如“一”的读音为“横”,码素取“h”;“丨”的读音为“竖”,码素取“s”,其余类推。这样的话,这部分独体的“文”仍然可以通过字素提供足够而又不超过最大码长值的编码信息量。余下的80来个,可以选出26个,参考《五笔》输入法中对键名字的编码方法,分别安排到26个字母键上。最后剩下的50来个,就要改为合体字了。理由是这部分独体的“文”中,每一个的字素数均多于4,如果仍然用字素作为码元的话,会发生编码信息冗余,从而造成单字提供的编码信息量即码元数大于码长值的矛盾,在码长值的限制下,就会发生丢弃部分编码单位即丢弃单字的一部分构成成分的情况,这就违背了汉文字的使用规范,是不足取的。我们应坚持不丢弃单字任何字形信息的“全息编码”原则,这就需要把字素数超过4个的独体的“文”改为合体的“字”。

改独体的“文”为合体的“字”,就是改不可分为可分。这是解决汉文字键盘输入编码对单字信息量的要求与汉文字中单体的当代字元编码信息短缺这一矛盾的需要。

这里讲的改独体的“文”为合体的“字”,是指改革对象作为当代字元即作为单字使用时的情况。改了以后,原来的独体的“文”仍应作为构字的字元使用,即取消其当代字元的功能,保留其原始字元的功能。

对独体的“文”的改革,要注意避免发生新的编码冲突。依据改革后的新字形得出的编码,其代码应使用编码空间的原冗余部分。

4、改革含有形、音信息模糊字元的字。

改革含有形、音信息模糊字元的字,是解决编码对码元信息鲜明性要求与部分字元形、音信息模糊这一矛盾的需要。

形、音信息模糊不清的字元包括变形字元,省形字元以及连体字元。

变形字元,在单字中大都作为义元使用,其“形”、“义”的信息是明确的,需要解决的是其“音”信息的鲜明化,所以需要对这一类字元的“音”作一个统一的,明确的规定。

从改革范围的最小化原则出发,可再把这一类字元分成两种,一种是与原形字元相比, 在“形”上 只有很小的差别。如“ ”、“ ”、“ ”……等等。这一种变形字元的特点是字素数较之原形字元没有增减,而且在“形”上与原形字元还相当接近;另一种是在“形”上与原形字元相去甚远,基本失去了原形的痕迹。如“扌”、“氵”、“讠”……等等,这一种变形字元的特点是字素数比之其原形字元都有不同程度的减少。“扌”比“手”、“氵”比“水”都少了一个字素;“讠”比“言”少了五个字素。我们可以把前一种仍然当作原形字元看待,用其原形字元的读音作为它的读音,而只把后一种作为变形字元处理。处理的办法就是专门规定它们的对应码素。如果这样的话,应该把前面对变形字元的定义修改如下:

定义5.1:作为父代字元或祖代字元使用时,其义不变,几何形状与原形相异且字素数量较原形少的字元称为变形字元。

省形字元和连体字元的“形”比较模糊,因此也带来了“音”、“义”信息的模糊性。理想的情况,当然是还其原来面目。这对连体字元来说比较容易实施,只须还其少量字素,施行“分体手术”就可以了[22]。在省形字元方面,因为被“省”掉的字素数比较可观,如果还原的话,所涉及的单字均要增加不少字素,所以需要作通盘考虑。如果不改可以明确其“音”、“义”信息的,就不要改;“音”、“义”信息过于模糊的,应对其进行改革。另外,这一部分字元的改革,也应和解决编码冲突一起作统筹考虑。

除了上面提及的三类字元,存在“音”、“义”信息模糊问题的还有一类字元,这些字元在历史上曾是当代字元(单字),但后来随着时代的变迁,其作为当代字元的功能逐渐消失了,到了现代,只作为父代或祖代字元使用。这样一来,由于在计算机键盘输入汉文字这一事物出现以前,人们只是注重于整字的音义辨析,就把这些字元本来的音义给淡忘了。如“载”、“裁”、“截”等字中的“ (音zāi)[23]”;“满”“瞒”等字中的“ (音mán)[24]”等等,而计算机输入编码又要求每一个字元能提供明确的音、义信息,所以对这类字元的处理就成了信息时代汉文字改革的内容之一。可以用二种方法来处理这类字元:一是对出现频率较高的进行钩沉整理,还其原有的音、义。二是对其中出现频率过低的,读音过于冷僻的,可以用适当的在当代使用频率较高的字元来替换。

  5、改革存在编码冲突的单字。

改革存在编码冲突的单字,消除编码冲突,是解决代码唯一性要求与编码空间冲突的现实存在这一矛盾的需要,也是实现编码规范性与实用性完美统一的需要。

这一方面的改革对象,是代码集里所有存在编码冲突的单字。每一组编码冲突字中只留一个使用频率相对最高的单字不改,对其余的字要作适当的改动。具体方法可以从被改编码冲突字的父代字元入手。设某个编码冲突字共由三代字元组成,则更换其两个父代字元中的声元。新声元应满足三点要求:一是和被换字元应为同音字元。在原声元表音度较低的情况下,尽可能采用表音度高的字元做新声元,这是保持被改单字读音不变的需要;二是新声元的上一代字元中至少有一个字元的读音和原声元中对应字元的读音不同,以期实现改变该字代码的目的;三是改后该字的代码必须处于编码空间的原冗余部分。一句话,就是更换该编码冲突字的一个祖代字元,从而改变该字代码中相对应的码素,达到消除编码冲突的目的。

  6、整理简体字和继续简化汉字。

    1956年,国务院公布了《汉字简化方案》(以下称《方案》)。《方案》的公布,对于普及文化教育,提高全民族的文化水平,促进社会主义建设产生了巨大的积极作用。然而,这个方案是在当时“笔”作为唯一的汉语言记录工具这一历史条件下产生的。它没有也不可能考虑到计算机处理汉文字的需要。现在,我们从汉文字的计算机处理这一新的角度来审视《方案》,就可以发现《方案》中的部分简化字和其原来的繁体字相比,由于“形”上的省略模糊了原本清晰的字元之间的界限,由此带来了编码信息的短缺和字元音、义信息的模糊甚至丢失,给编码过程中编码信息的提取造成了困难。本文4.4.2节中所举对“應”字的简化就属于这种情况。对这部分简化字应从计算机处理的需要出发重新进行整理,需要复原的应于复原;需要修订的应于修订。

关于简化字的整理问题,近年来学术界讨论得比较热烈,许多专家学者都发表了各自的意见。本文要着重提出的是,整理简化字,一定要充分考虑满足计算机处理的需要这一点,要纳入汉文字的信息化改革课题中统筹处理,不能就事论事,为整理而整理;否则的话,会导致重复劳动,造成大量人力物力的浪费。

因为计算机屏幕显示清晰度的需要,同时也由于笔还将长期和计算机一起作为汉语言的记录工具,所以对汉字的简化工作仍将是未来一个时期内汉文字改革的内容之一。不过,信息时代汉文字的简化工作,必须以服从汉文字计算机处理的要求为原则,以保持足够、鲜明的编码信息为前提。具体地说,就是不改变单字的字元树结构,即不改变构成单字的字元数量及字元所携带的音、义信息。在这一前提下,对单字的简化最终应落实到对字元的简化,即减少字元内的字素数这一点上。

信息时代汉文字的简化,可以和改革存在编码冲突的单字结合起来考虑。在更换编码冲突字中的某个父代字元时,尽可能选择既能解决编码冲突同时字素数又比原字元少的字元。
发表于 2005-8-20 09:52:10 | 显示全部楼层

六、结 语

1、汉语言记录符号和记录工具之间的矛盾运动,是汉文字演变的直接动力。汉语言记录工具的变革必然要求汉语言记录符号进行相应的变革以适应之。

  2、在信息时代,汉语言记录符号汉文字与汉语言记录新工具计算机之间的矛盾运动将决定汉文字的改革方向和改革的具体内容。我们应以解决这一矛盾为出发点来考虑汉文字的改革。

3、现代通用表意汉文字本身固有的字元树结构,是汉文字适应计算机信息处理的良好基础,但也还存在尚需解决的局部性矛盾。其主要矛盾是汉文字与其计算机键盘输入编码的矛盾。矛盾的具体内容有:

(1)汉文字键盘输入编码对单字信息量的要求与汉文字中单体的当代字元编码信息短缺的矛盾。

(2)汉文字编码过程中对码元的编码信息鲜明性要求与部分字元形、音、义信息模糊的矛盾。

(3)编码唯一性要求与由部分汉文字的结构现状引起的编码空间冲突现象之间的矛盾。

解决上述三方面的矛盾,是信息时代汉文字改革的主要任务,因此,信息时代的汉文字改革方向,既不是拉丁化,也不是单纯地继续简化,而应该是对计算机键盘输入编码的“亲和”化,是谓之“信息化”。

--------------------------------------------------------------------------------
[20]  引自詹鄞鑫《关于简化字整理的几个问题》。载《汉字书同文研究》第四辑,香港鹭达文化出版公司2003年7月第1版。
[21] 见贝学琴、张学涛 《汉字频度统计》,电子工业出版社(1988年版)。
[22] 同[15]。
[23] 《汉语大字典》,四川、湖北辞书出版社(1986 - 1990 ),一卷p611“哉”条、二卷1193页“栽”条、五卷3086页“裁”条、3526页“载”条。
[24] 《汉语大字典》,四川、湖北辞书出版社(1986 - 1990),一卷101页“”条。

主要参考文献

国家文化部、文字改革委员会,《印刷通用汉字字形表》,1965年。
国务院,《简化字总表》,1956年(1986年重新公布)。
汉语大字典编辑委员会,《汉语大字典》,四川、湖北辞书出版社,1990年。
季王筠(清),《文字蒙求》,中华书局,1962年。
李葆嘉 《自源文字的发展和借源文字的突变》,载《理论语言学:人文与科学的双重精神》,江苏古籍出版社,2001年。
李禄兴,《试论现代汉字的性质》,载《汉字书同文研究》论文集第四辑,鹭达文化出版公司,2003年。
梁东汉,《汉字的结构及其流变》,上海教育出版社,1959年。
欧阳中石,《书法与中国文化》,人民出版社,2000年。
钱培德,《计算机中文信息处理技术》,电子科技大学出版社1992年。
秦永龙,《汉字书写漫谈》,载《语文建设》,1997年(1~12期)。
孙钧锡,《中国汉字学史》,学苑出版社,1991年。
汤大民,《中国书法简史》,江苏古籍出版社,1999年。
许慎(汉)《说文解字》,中国书店,1989年。
中国社会科学院考古研究所,《新中国的考古发现和研究》,1984年。
周浩华,《计算机汉字系统的设计与实现》,华南理工大学出版社,1992年。
张 普,《汉字部件分析的理论与方法》,载《中文信息处理国际研讨会论文集》第三集
周有光,《汉字改革概论》,文字改革出版社,1961年。
詹鄞鑫,《汉字说略》,辽宁教育出版社,1994年。
张志公,《汉字鸟瞰》,载《张志公自选集·下》,北京大学出版社,1998年。

(E-mail :  wzcmr@mail.wzptt.zj.cn  )
发表于 2005-8-21 10:30:41 | 显示全部楼层

信息化时代的汉字应用更加依赖汉语拼音

前一向,张育泉等学者在论著中(《语文现代化概论》,首都师大出版社,1995)呼吁在信息化时代应同时使用“双文”——汉字和汉语拼音,受到许多人的批评指责。
现在看,“双文”在汉字信息化处理时,别无选择地要同时用到汉语拼音。有意思的是,许多大肆攻击汉语拼音的人,在输入汉字(包括繁体字)时,却多在使用汉语拼音。
汉字信息化处理的最大特征之一就是对汉语拼音的无可替代的依赖。这是任何人也不可否认的事实。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-28 06:00 , Processed in 0.072562 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表