|
发表于 2003-10-27 11:59:43
|
显示全部楼层
汉语书面语的分词问题——一个有关全民的信息化问题
作者:陈力为
版名: 信息与电子工程
汉语的书面语是按句连写的,词间无间隙。因此在汉语书面语的处理中,例如,统计、分析、理解等,我们首先遇到的问题是词的切分。把按句连写转换为按词连写,所以,词的正确切分是进行汉语书面语处理的必要条件;它的任何错
误都将使处理结果受到或大或小的影响,有时是严重的影响。从80年代初起,很多学者专家致力于汉语书面语的自动分词[4],取得了不少可用的分词系统。但在实用的过程中,又遇到不少新问题,困扰着我们[6]。例如人名、地名、企
业名、新词等未登录词[5,6,7],对于这些问题,经过业界的努力,近两年来又取得若干可喜的突破,但随着国民经济信息化的不断发展,中文信息处理的广泛深入地开展,对分词系统的要求将越来越高,难度越来越大。现在,汉语书面语
的分词技术已经悄悄地形成了一门新兴的富有挑战性的学问。
过去经验告诉我们,中文信息处理技术是在不断克服困难中前进的,书面语的分词也不会例外。我们相信,业界将根据客观需要,继续研究分词中的难点,推动分词技术的前进。但是,现在我们需要冷静地想一想,汉语书面语的切分是汉
语固有的属性呢,还是人们强加给它的呢?在汉浯中什么是词,到现在并无公认的定义。今天也并非讨论什么是词的时候,但人的思维是以词为基本单位进行的,人们表达自己的思想有两种途径。语言、文字,前者叫做口语,后者叫书面
语。口语中,词间有“顿挫”(按词说出),而书面语中词间无间隙,很明显,口语忠实地表达了人们(说话人)的思想(表情、手势等人体动作除外),而书面语则把人们思想的非常关键的信息——词间间隙给滤掉了,因此书面语的读者首
要的任务是:使用自己的全部知识,进行词的切分,边分词边理解,把书面语滤掉的信息给补上。实际上,这对读者是十分沉重的负担,只是习惯了,误认为这是自己应该干的事。上述书面语和口语的鲜明对照使我们清醒地认识到,汉语
书面语的词的切分问题并非汉语所固有的,而是人们强加给它的,是人为的,若要恢复汉语原来的面貌,其办法是显而易见的,这就是由书面语(文章)的作者按词连写(词间加间隙),只是所需空间增加了1/4。在这样的书面语面前,词的
切分歧义问题不见了,象“乒乓球拍卖完了”这类的拦路虎也自动解体了(这句话指的是“乒乓球”还是“球拍”,难道还会难倒使用这句话的人吗?);未登录词切分问题不见了,这一件易如反掌的事情变为一座难以攻破的堡垒,这是
我们现行的汉语书面语书写规范(按句连写)造成的后果,必须引起我们的深思。大约在50年代,语言学界有一次辩论:是否把按句连写改为按词连写[8],未能通过。在1987年中文信息处理国际会议上,本文作者也提到同样的问题[2]。
最近在香山科学会议第42次会议[19]上,有多位学者在发言时提到这个问题,周锡令教授在《计算机世界》上又从软件的中译本方面出发,指出这个问题的迫切性[3]。看来,汉语书面语的书写规范已经到了必须修改的时候了。回顾一
下汉语书面语书写规范的改革是有帮助的。在古代,汉语书面语中不要任何标点,于是标注文章成了一门高深的学问。从汉代起,读书人才注意断句(句读)问题。只是在大约70年前,“五四运动”以后,人们才开始使用现行的全套标点
符号。可以看出,每次改革都使原始书写者通过书面语,传递更多的信息。虽然书写者得要多费些力气,也增加了费用,但由于信息含量的增多,含糊和岐义减少了,不仅为读者带来了好处,社会效益也增加了,这样的大好事情当然只能
留给书面语的写作者去做了。必须指出,汉语书面语书写规范的修改是一桩有关全民、全社会的工作和生活的大事,它的拟定和实施将遇到一系列的问题,这些问题都要一个一个地予以解决。同时,它也是一个复杂的系统工程,需要有
组织有计划地进行,其中最复杂的是习惯势力(例如:看不惯,写不惯等),必然有形、无形地发生着制约的作用。当然,在技术上也存在一些问题,例如要分清什么是词,从时间上讲,它不是三年五年的事情,可能是跨世纪的大工程,但是
,只要我们有决心,这些问题都是可以解决的。国民经济信息化的迅速发展将迎来我国社会生活的美好前景,并将推动信息高速公路的创建,量大惊人的信息在公路上飞驰,为了抽取其中有用的信息资源,人们对信息处理的速度和精度
将提出极为严格的要求,面对这样严峻的挑战,难道我们的信息处理仍然容忍被人们强加给汉语的词的切分问题继续困扰下去呢?否!我们还有其他更重要、更迫切的课题要去解决。请看看英语吧,英语书面语除了词间有间隔外,专用
名词的首字母还要大写,书面语带来的信息超过了口语,为信息处理提供了有利的条件。那么,要求书面汉语恢复汉语的本来面目,词间增加间隙,也是理所当然的了,若是在专用名词上再增加下划线,那就喜出望外了,但这并不稀奇,从
“五四”前后有语体文到本世纪50年代,一直就是这样的。现在,少数古籍的整理仍然使用。很多键盘输入系统是按词输入的,但在完成输入任务以后,又把分词信息抹掉了,十分可惜。近几年来虽然多次提到书面汉语的改革问题,但
都未取得共识,更未见诸行动,其原因不外乎:①未有充分的实践经验,使我们认识到它的严重危害性;②未感受到国民经济信息化的进程对信息处理的猛烈冲击。今天不同了,我们认识到:书面汉语的改革已经刻不容缓了,而且,语言学
界和信息处理界的结合也为书面汉语的改革创造了有利条件。这样一个重大改革,必须分阶段进行,第一步,可考虑在自然科学和技术科学领域中试行,摸索经验,第二步,从小学语文教育开始,逐步推广到全社会。参考文献[1]陈力为
。Some Key l ssues inChinese Language InformationProcessing and Their prospective Devel opmenis。In:IC-CIPCg,2]陈力为。当前中文信息处理中的几个问题及其发展前景。计算机世
界,1987(21)
[3]周锡令。软件书籍中译本的可读性和几点建议。计算机世界,1995,(41)[4]梁南元。再论汉语自动分词和切分知识。In:ICCIPConference,Beijing,1987[5]郑家恒、刘开瑛。自动分词系统中姓氏人名处理策略探讨。计算语言学
研究与应用,1993[6]宋柔等。基于语料库和规则库的人名识别法。计算语言学研究与应用,1993[7]沈达阳等。中国地名的自动辨识。计算语言学进展与应用,1995[8]许嘉璐。在香山科学会议第42次会议的发言,1995(原载《中文信
息学报》1996第1期)陈力为主要论著目录1.我国计算机行业的发展方针必须面向应用。见:在中国电子学会计算机学会第六届年会发言。1982 2.The Manufacturing and Appl icationofEl etronic Comput ers in Chi
na.In:Proceedings ofSout heast Asia Computer Conference,Hong Kong,1984 3.Information Technology and National Devel opment in China.In:Proc.ofthe First Pan-Pacific Computer Confer-enc
e,1985 4.Some Key Issues in Chinese Language InformationProcessing and Their Prospect ive Development.In:Proc.of1987 ICCIP Conference.Beijing,1987 5.Key Board Input:The Barrier to
Popul arizing Computers in Chinese Speaking Countries/District s.Keynote Speech.In:Proc.SITO Conference,Hong 面语的分词问题:一个有关全民的信息化问题。中文信
息学报,1996(1) |
|