湘里妹子学术网

 找回密码
 注册
查看: 2835|回复: 0

一不是一:关于中文和计算机信息技术结合的随感(第一部份)

[复制链接]
发表于 2003-12-2 09:20:31 | 显示全部楼层 |阅读模式
作者:PHILIP ZHANG
原稿1997/10,纽约
来源:http://www.hpw-wzm.com/YuiceYuXsoxva/Ywxx10/Philip1.htm



在许多情况下,用中文单字组成词、成语或短语的时候,每个单字原来的意义就变得很淡甚至消失了。表示数量的单字“一”就是个例子。比如:

一个、之一、一口气、说一不二,

这些词语里的“一”多多少少还保持了“一”的数量意义。然而,

一定、一贯、一早、一直、这样一来,

这些词语里的“一”的数量意义非常淡,甚至没有,一不是“一”了。

我查了能够查到的词法和语法书籍,没有找到说明,不知道“一”怎么就可以不是“一”了。有人说,这是约定俗成。可是,为什么不用“二”和“三”来约定俗成呢?从信息熵角度看,“一”的这种异化现象很普遍,而且很有道理,最有趣的就是字符之间的联系可以在局部条件下改变某个字符的原始信息量。比如,如果“一”在“一个”里面的信息熵能保持百分之四十的话,那么,在“一早”里面就可能只有百分之五或更低,原本表示数量意义的信息量大大地降低了。这样,“一早”就不会被猜成是“一个早晨”,“他一早就来了”不会被理解为“他在一个早晨来了”。“一”在“一早”里固然失去了很多数量意义,但是,作为数列的开始,“一”在“一早”里还残存“起始”的意义。用“二”或“三”,没有“起始”意义,说“二早”或“三早”就不伦不类了。

如果把“一早”的两个字分开,那么,就没有一个能保持“一早”里的信息,由其中的一个字猜测整体意义的成功可能微乎其微。也就是说,如果把“一”完全独立,那么,一总是一,不能作别的用了。 这种规则完全可以用在中文数据管理方面。比如,“一定”作为一个固定的词的单位,其中的“一”没有必要为计算机输入加上标明同音字的编码,更没有必要用非文字化的简码。“一定”、“一来”和“一个”里的“一”可以用词的组合法则来处理,也就是词基方法。

汉语没有词吗?

有些人认为,汉字在表现汉语方面远远优于拼音,拼音作为文字是中国人不能接受的;汉语的单字音节有高度的独立性,应该彻底抛弃拼音文字的词连写的方法。这种看法认为,“把西方语言学中‘词’硬套在汉语上,在方法上表现为用‘词连写’把具有高度自主性的音节强扭在一起构成‘词’,再用这种词为单位组成句子。其结果是:读或写这种根本不符合汉语词法及句法拼音‘文字’必然使中国人在心理上产生困扰。声调语言的句子中各音节的语音关系基本平等,母语者完全可以本能地把相关音节组合起来并理解它们之间的语法关系,用不着‘词连写’。把西方文字的模式强加于中文只能自找麻烦。”“有人认为所有的拼音文字都象欧洲文字一样,句子中的词之间有间隔。其实不然。越语、泰语、藏语、老挝语等都是音调语言,其文字也都是拼音文字。但这些文字的基本单位都是音节,即:句子中没有词这个单位。越南文是音节之间都有间隔,藏文是用一个小点隔开音节,泰文和老挝文是一句话写成一串,没有间隔,与汉字一样。”

这种看法是不对的。让我们来试读这个句子:

韩廷顿首先到台湾国中学作报告。

如果没有词连写和间隔的功能存在,这个句子可以有多种读法:

韩廷  顿首  先  到   台湾国   中学   作  报告。
韩廷   顿首  先  到   台湾   国中   学  作报告。
韩廷顿   首先  到  台湾国  中学   作  报告。
韩廷顿  首先   到   台湾   国中   学   作报告。

反对中文用词和词连写的人说:“母语者完全可以本能地把相关音节组合起来并理解它们之间的语法关系”。可是,这种“本能”并不能说明上述读法中哪一个是正确的。这种困扰麻烦不正是词不连写和没有间隔的功能所造成的吗?

现代汉语拼音并不是某些人说的“把具有高度自主性的音节强扭在一起构成‘词’”,而是为已有的词汇拼音或注音。例如,“黑板”是一个独立完整的表示一种特定教学工具物体的词,这个工具原来是黑色,现在大都使用绿色,却仍然叫“黑板”,而不是“绿板”。如果“黑板”指的是特定的教学工具,那么,它的正确拼音是“HEIBAN”而不是“HEI BAN”;如果指的是各种颜色之中的黑色的板,那么,它的正确拼音是“HEI BAN”而不是“HEIBAN”。使用拼音文字的词法方式,能准确地表明这种区别。不用词连写也不用间隔,这种区别就是模糊的,甚至会产生错误理解。

汉唐时期,朝鲜和日本向汉语汉字学习,建立了自己的语言文字。今天,他们的书写文字是拼音文字,而且句子中的词之间有间隔,但是,发音基本延续,许多汉字依然用于书写。这也许能间接说明:汉语文字早就有词的单位,而且,在使用语音方法的时候,句子的中词之间是有间隔的,并不是“把西方文字的模式强加于中文”。学习古代汉语有“句读”的训练,即读连串汉字的时候在什么地方停顿,这个停顿不但包括句子间隔,而且包括短语和词汇间隔。这种学习训练方法也可以说明汉语有词的单位的存在。

就形成“语链”的单个音节的独立性来说,所谓的汉字单字的灵活性是有代价的。在许多情况下,用中文单字组成词、成语或短语的时候,每个单字原来的意义就变得很淡甚至消失了。比如:

“后天一早他们一定会来拿这些黄瓜。”。

其中“一早”和“一定”中的“一”不但丧失了原本表示数量的意义,而且不能与其它单字分割,否则意思就变了,甚至没有意义。再有,其中的“黄瓜”也不能拆成“黄”和“瓜”两个字,否则就会被理解为“黄色的瓜”。对“黄瓜”这个名称里的单字“黄”来说,“高度的自主性”完全消失了。据中国科学院语言学家们的统计,就多音节词汇来说,不能拆成单字(单音节字丧失了独立性或自主性)的词汇占该类词汇总数的绝大多数。丧失独立性和自主性是单字构词的时候经常发生的现象,说明了汉语有多音节词的单位的存在。

在中国政府颁布了《现代汉语拼音方案》之后,曾经有过历时八年的汉语词法和英文拼音词法比较研究的讨论。这里引述一段:“词不但有独立的意义,而且有确定的语音形式。汉语的词,写的时候淹没在汉字之中,不易察觉。但实际上,我们说话的时候,是把一个一个的词分开的。这种区分可以用拼音文字清楚表明。”可见,中文不是没有词,而是说话有词、书写却没有标明。实行词法和词连写,不过是怎么说就怎么写,使语言和文字方式一致起来。

大约一百年以前,中文书写一直没有标点符号,句子之间没有间隔,几百字的文章甚至几十万字的书,全都是一个个单字连串堆积在一起。那个时候,句读,即阅读在什么地方停顿,是学习中文的基本功(或苦功夫)。用了拼音文字的标点符号和句子间隔的方法,阅读中文方便多了,也准确多了。现在,句读方法已经属于历史,会句读方法的人已经寥寥无几。如果一篇文章或一本书不用句子间隔和标点符号,有多少人能读懂呢?从历史角度讲,中文使用词连写和间隔方法是学习拼音文字的标点符号方法的延续,能够使中文更加准确和简便,使思维、说话、书写和阅读所使用的语言文字方式更趋一致,而且也有利于中文的标准化和规范化。

词基方法的必要性

从数据处理看,中文采用词基方法(词连写和间隔方法)显得非常必要。这里用经常出现的一个情况举例说明。有一个名单:

欧瑛洁小姐,
李冬梅小姐,
欧阳洪先生,
李冬先生。

任务:按姓名顺序作分类排序。

不管用笔画还是拼音方法,作业过程和结果是一样的。这里,我用现代汉语拼音方案来说明。用这个方法对上列名单作排序有三种选择:一.字基:以单字为基本单位,所有单字连写在一起。目前,许多人用这种选择看待中文。二.部份词基:姓名和称呼是两个词,分开写。三.用全部词基方法:姓,名和称呼是三个词,分开写。三种选择导致三种不同的排序结果:

字基,姓名
和称呼字连写 部份词基,姓名连写,
与称呼分开写 全部词基,
姓,名,称呼
李冬梅小姐 李冬 先生 李 冬 先生
李冬先生 李冬梅 小姐 李 冬梅 小姐
欧阳洪先生 欧阳洪 先生 欧 瑛洁 小姐
欧瑛洁小姐 欧瑛洁 小姐 欧阳 洪 先生


第一种方法排序的结果显然错了,李冬先生应该排在李冬梅小姐的前面。发生错误的原因:字基连写使称呼和姓名混肴不清,自然就按照“先”字的拼音XIAN排在“梅”字(MEI)的后面了。

第二种方法解决了姓名和称呼的问题,可结果还是有错。“欧阳洪”的“欧阳”是两个字的姓,而在“欧瑛洁”中的“欧”是一个字的姓。一个字的姓应该排在两个字的姓的前面。部份词基或非标准化词基方法使“瑛”排在“阳”的后面,造成部份排序错误。

用第三种方法,即全部词基方法,可以得到完全正确的排序结果。

这个例子的数据结构和作业要求都很简单,却足以说明:在作数据管理的时候,是否使用全部词基方法有非常重要的意义。

中文的回旋诗文是以字基为基础的文字游戏。有些人把这种游戏称作汉字比拼音文字优越的一大特点。上面的例子说明,字基已经很容易导致数据处理错误,如果再搞字基回旋文,那就会使中文数据处理雪上加霜,更困难了。

词基本来不是新课题。《现代汉语词典》就是一部词基代表作。在中小学语文课里,学习词汇是基本训练。然而,在这些年所谓“汉字优越”的错误宣传影响下,使用词基成了爱国不爱国的政治问题。在这种极端民族主义的气侯下,一些人说,词基的研究太多了,是盲目西化,中文的传统是方块字,应该继续把字基作基础。从汉代《说文解字》到二十世纪初期,中文一直把字基作为研究基础,历时两千年。从一九二零年代词基研究开始到现在,除去战争动乱年代,真正研究的时间还不到四十年。字基研究有《说文解字》、《广韵》和《训诂》等成千上万套经典著作,与此相比,词基经典著作微乎其微。这怎么能说词基研究太多了呢?何况,中文词出现早在西方侵略中国之前,《现代汉语词典》等词基科学的成就是中国结束了封建王朝和殖民地以后才出现的成果,其中包括中国科学家对西方和东方语言学择优借鉴的筛选,怎么能说是盲目西化呢?我觉得,看不到词基已经成为人们日常使用中文的实践,看不到词基对中国计算机信息科学技术发展的重要性,那才是真的盲目。

这些年,人们对中文信息处理的要求越来越高,国际网罗交流对多种语言自动翻译的要求越来越普遍。为了满足这些要求,必须搞中文分词,否则有关的作业根本无法进行。为此,搞中文分词的软件多起来了,投入的人力、时间和资金不少,可是,自动分词中的问题(特别是歧义问题)还是没有解决。我觉得,搞中文分词软件是中文书写不用词基方法造成的一个很大的浪费。如果中文用词基方法,那么,在思维、说话和书写的时候所有的词都已经分好了,根本没有必要再去搞分词软件。

中英文的根本区别

有些美国朋友曾经问我,中文和英文的根本区别是什么。我首先想到的是方块字和拼音字母。可是,如果用中文一些汉字代替英文字母来拼写词汇,用英文字母“SHU” 代替汉字“书”,只要习惯了,并非绝对不可。再说,同是中文,北京和上海的发音不一样;同是英文,美国和英国的发音也不相同。字符和发音是区别语言种类的重要因素,但还不能说明根本问题。我想,如何称呼一个人也许更能说明问题。比如,诸葛亮这个名字用英文要称作:LIANG ZHUGE,即“亮 诸葛”,姓和名的次序相反。

这种次序区别很常见。比如写地址。中文地址的次序是:

国家,城市,街道,机构名称,收信人称呼。

英文地址的次序是:

收信人称呼,机构名称,街道,城市,国家。

中文的次序是由大到小,英文的次序是由小到大。做适当的延伸,我们可以看到更广泛的类似现象。

不管用什么字符和发音,只要思维、说话和书写的时候仍然遵循一种语言本身的次序规则,那么,中文还是中文,英文还是英文。这种不能用字符或发音替换而消除或减少的区别才能更有力地说明语言的不同。换句话说,只要诸葛亮还是叫诸葛亮而不是亮诸葛,不管用方块字还是用拼音字母来写和说,那就还是中文。

计算机信息技术要求高效率和地成本的中文信息处理。为此,词基拼音文字化方法是最佳选择。用这个方法,诸葛亮还是叫诸葛亮,不是叫亮诸葛,中文信息还是中文信息,并没有变成英文信息。如此,为什么不用最佳选择来提高中文和计算机信息技术结合的水平呢?

表意联想输入方法违反了词法基本规范

前些时候,中国大陆介绍了表意联想拼音输入方法(“表意方法”,下同)。这种方法把汉语词汇分为实词和虚词,再把实词按语义分类并且加表意词尾,将虚词拼写定型化,编成一种汉字键盘输入和成篇转写的编码。表意方法也许能暂时减少计算机字符转换的重码现象,然而,在语言文字的标准规范方面,这种方法却有些问题需要探讨。例如,该方法把实词分为二十类,用词尾表示不同类别。比如,用“-h”表示工具类,用“-q”表示部件类。如此,“圆桌”就可以有若干种词尾:

这是一张圆桌。“圆桌”是名词。

这个生产线包括圆桌切削平台。“圆桌”可作工具也可作部件理解。

联合国召开圆桌会议。这里的“圆桌”跟工具和部件毫无关系。

“圆桌”是由“圆”和“桌”两个汉字构成,可以分别单独使用。那么,这两个字属于那一个类别,又如何加词尾呢?

再比如“平衡”的用法:

保持一定距离,这两个作用力可以达到平衡。这是自然现象。

美国和苏联的战略平衡。这是国际政治现象。

阴阳平衡。这是医学概念,也可以是哲学、伦理、政治或物理化学概念。

在体操比赛中,她能很好地保持身体平衡。这是体育活动。这里,“平衡”的意义类别完全不同,但语法意义都一样,是用不同的还是用相同的词尾呢?

再比如,该方法用“-l”表示数词。那么,

一清早他就来了。
要一心一意地把这件事做好。
说一不二。
他一定会等你。

这几句话里的“一”不是数量词,而且彼此间的意义也不一样。“一”的词尾到底应该用什么呢?如果单独的“一”和“一定”的“一”分别使用不同的输入字符,那不就成了“一字多拼”了吗?

这样的例子还很多。如果一个词所说明的对象的类别不同,就要用不同的词尾,那么,要用多少词尾才能复盖所有的分类可能性呢?即使能全复盖,这种方法等于一字多写,不但会增加学习和记忆的负担,而且也违反语言文字标准规范化的要求。

表意拼音方法强调符号输入和字词输出的“一对一”。然而,现有汉字的组合分解没有严格的规范,随意性太大。比如,中国大陆搞反对贪污,便出现了新词“反贪”,给“反弹”增加了重码的机会。软件“WINDOWS”名称,英文用现成词汇,不需要增加新的词汇。可是,不知道为什么中文不用现成的“窗口”,却编出了一个新词“视窗”,给“十床”增加了重码机会。为了应付这种分解组合,就要考虑到六万个中文单字的双字、三字、四字甚至更多单字的组合可能,还要考虑到它们的重新分解组合的各种可能,甚至还要考虑到新字的各种可能。这些可能性的总和是不定量的天文数字。

表意拼音方法还使用数字作输入字符的一部份,有些词的拼音输入则没有元音,例如“的”的输入是“d”。这不符合基本拼音规则。此外,该方法还用拼写字母的大小写来避免重码。这可能行不通。比如,江水的“江”的拼音是小写的“jiang”,中国国家主席的名字“江泽民”的“江”,按该方法规定应该是大写的“Jiang”。用中文单字或词汇作人名、地名和其他名称的自由度很大,几乎所有的单字和词汇都可能需要大写,其最终结果是大小写混同,通过大小写表示不同词类来避免重码将变得没有意义。加数字拼写、忽略拼音规则和用大小写避免重码,等等,这些方法都是为了迁就计算机字符转换而忽略了语言文字的基本标准和规范。

英文等拼音文字可以用词尾方法,关键是读和写都使用同一种字串字符,不需要字符转换,不管是否使用计算机,语言文字的标准和规范是同一的。在这个条件下,不管一个词用大写还是用小写,总是同一个意义。例如,英文的 b

ook、Book、BOOK、bOOk,BoOk,……

都是书、书本、簿记或登记的同一个意思。在用词尾表示不同词类和语法关系的时候,读、写和使用计算机的语言文字是一致的。例如:

作名词用  BEAULTY  词尾:〈Y〉
作形容词用  BEAULTIFUL   词尾:〈FUL〉
作副词用   BEAULTIFULLY  词尾:〈LY〉

这些词尾都发音,所加的词尾都有意义,例如〈FUL〉的意义是“充满了的”:

FUL = FULL OF
BEAULTYFUL = FULL OF BEAULTY

用中文说是“充满了美丽的”,即形容词“美丽的”。用表意拼音方法来表示成中文,这些例子是:

作名词用 MEILI~ 词尾:视用法而定,没有规范。
作形容词用 MEILIX 词尾:〈X〉
作副词用 MEILI(?) 词尾:该方法没有说明副词词尾。

如果要说“美丽的花”,该方法的输入是:

MEILIX D HUA。

其中的“D”是“的”这个字。这种拼写方法的阅读是:

“美丽的 的 花”。(注意:“的的”重复)

其中名词“美丽”加了〈X〉就成了可以作定语用的形容词“美丽的”。可是,在阅读和说话的时候,〈X〉不发音,“美丽”的词性和语法关系还是需要另外一个单字“的”来体现,即用“D”来表示“的”字。这样就造成了阅读语法上“的的”重复。英文加的词尾〈FUL〉有一定意义和发音,不能随意变成另外的字母。而表意方法所加的〈X〉的词尾没有任何意义,也不发音,如果乐意,可以选用任何一个字母甚至用数目字或其它符号来代替〈X〉。这不是表意拼音方法,而是跟发音表意毫无关系的加码,造成了书写、阅读、说话和计算机输入的文字符号四不同的情况。

对现有汉字组成的词汇系统来说,表意拼音方法也许能解决一些重码问题,却违反了使用语言文字所必须遵循的标准和规范。按照这种方法搞中文改革和中文与计算机信息技术结合,就不是“一语双文”了,而是“一语多文”了:现有的汉字系统是一文,现代汉语拼音方案是一文,各种计算机作业输入方法又是一文;而输入方法这一文又是各有千秋,可以分作几十种甚至上百种没有标准规范的“文”。这不是把中文搞得更加难学难用了吗?

(待续)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-4 05:34 , Processed in 0.082048 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表