湘里妹子学术网

 找回密码
 注册
查看: 3884|回复: 1

许嘉璐 :中文信息处理的现状和发展方向

[复制链接]
发表于 2004-8-13 20:51:53 | 显示全部楼层 |阅读模式
来源:http://www.china-language.gov.cn/
---------------------------------------------------------------------------------------------



时代向中文信息处理工作提出了极其紧迫的要求

    中文信息处理,就是利用计算机对汉语汉字进行自动处理,在我国信息技术和计算机产业中处于关键的位置。
    我国当前的中文信息处理技术发展可以用这样几句话概括:成就不小,难题尚多,挑战严峻,前景美好。
    我国中文信息处理事业正面临着这样两个尖锐的挑战:一个是计算机向个人普及的浪潮;一个是多媒体及其联网即将在我国逐步得到推广。同时,外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以其势甚为逼人。
    面对上述几方面的大势,我国的中文信息处理技术又遇到了自身一系列急需解决的基础研究和应用技术问题。这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。而如果一旦这些难题能较及时地得到解决,就将是"失之东隅,收之桑榆"的局面。
    下面,我依序谈一谈在中文信息输入、字符集和编码、中文信息输出、基础研究和应用技术四个方面的情况和问题。
    (一)中文信息输入
    1.汉字编码输入问题
汉字键盘输入方法在经历了编码技术初创的艰难阶段之后,在理论上和技术上都取得了巨大发展。总括地说,有这样几个方面的成就:从最初的人工编码发展到计算机辅助设计编码方案;从单纯讲求从汉字的形、音、义出发的编码方案素质发展到讲求编码方案•支撑软件素质;从字的编码发展到词语编码;从只注重职业型(供职业录入人员使用)输入方法发展到同时注重职业型和普及型两个方向的输入方法;从只处理简化字发展到繁——简切换与兼容处理。汉字键盘输入问题的突破和逐步发展,为计算机在我国的普及打开了一扇大门。
    在解决了汉字进入计算机的难关之后,很合乎规律地出现了编码方案风起云涌的局面,现在到底有多少编码方案,谁也说不清。据不完全统计,已实现的汉字键盘输入方法已有近百种。就已经商品化的约20种方案来看,可以说是各有千秋。但是,无论是音码、形码,还是音形结合码,都有着严重的局限:
    利用《汉语拼音方案》实现音码输入(应该说,这种方法无所谓“码”),除了双拼法需要使用者熟悉一下双字声母和多字韵母的键位,其他都可以“无师自通”,因而最适合非专业录入人员或文秘人员使用。至于自行设计的拼音方法,已经离开了《汉语拼音方案》,由于脱离了使用者的原有知识,需要使用者另学一套规则,已经不属于普及性的,另当别论。但是无论是哪一种拼音输入方法,都遇到了汉语同音字、同音词多的语言现实,并受到使用者普通话水平和文化素质的限制等问题,从而使拼音输入方法在当前实现大规模普及遇到障碍。
    各种形码利用了汉字的笔画特征和可拆分性进行编码。许多字根式形码方案存在着违背汉字结构原则、与人们在学校所学得的文字和语言知识不合的弊病;笔画式形码方案也存在着任意拆分和笔顺不够规范的问题。有人说这是电脑对汉语言文字的“污染”,或者是一种汉语汉字信息处理的“病毒”,我想,从加强基础教育、提高全民族文化素质和快速普及计算机的角度说,这话并不过分。
   音形码或形音码的局限,常常是上述两方面的不足兼有。这类方法本来是想避开上述两类的缺陷的,但是如果从学习者的知识准备和规范化要求来看,常常事与愿违。
    令人担忧的是,这种既不规范,又不统一的"万‘码'奔腾"局面,对中文信息处理事业,对我国的教育,为害极大,亟需扭转。一方面,广大用户面对众多的输入方法无所适从;另一方面,一旦如果选择了一种不符合非职业录人人员“想打”需要的编码,就要花费很大的气力去学习和记忆编码规则,既破坏了人本有的语文知识,又浪费了时间和精力。
    可以说,编码方案的缺乏优化和规范,现在越来越成了阻碍计算机进一步普及和中文信息处理技术发展的重要因素之一。而在相当长的一段时间内,汉字键盘输入还将一直是我国信息处理的主要输入手段,因此编码的优化和规范就成了刻不容缓的事。
    要对汉语键盘输入方法进行优化,就要对各种编码方案进行评测。十多年来,国内已经有过十多次较大规模的评测评比活动,国家制订了评测规则的试行草案,并在多次国内和国际的比赛中进行了验证。从现在起,需要在原有的评测规则试行草案的基础上进一步充实、完善,特别是制订汉字键盘输入的语言文字规范和标准,使之成为更为科学实用的评测标准,加强国家评测的权威性和强制性。当然,在相当长的一段时间内,汉字键盘输入方法还不能“万宗归一”;但是,通过集中评测、日常评测和达标检测,在这基础上运用行政的方法,促进技术市场通过正当竞争优化出几种符合规范和标准的优秀方案,是可行的,也是十分必要的。
    汉字键盘输入技术的规范化工作应该包括编码规范化、字库和词库规范化和软件规范化三个方面。
    为编码规范化,应制订字音、字结构、笔顺、部首、部件、字序、字量等语言文字方面的规范和标准。
    词库的规范化同样是很必要的。目前的词库普遍存在着质量差、词库大小不一的问题。在研制词库的工作中有一个误区,似乎词库越大越好,其实并非如此。词库太小固然不敷用户需要,太大就会增加词的重码率,牺牲适应化。诚如有的学者所说,最理想的词库设计应该是通用词库加专业词库和个人词库。根据词频统计的结果和这些年的实践,通用词库以五万词左右为宜。中文信息学会汉编委、标准化与信息分类编码研究所、标准技术开发公司共同研制的《汉字键盘输入通用词语集》是个规模适当、动态覆盖率高的词库,应该尽快确定为国家标准,并每隔一定时间依据实际使用的情况和最新的词频统计加以修订。
    中文软件的规范化是最为薄弱的环节,至今还没有形成技术标准。现在汉字键盘输入方法越来越依靠和要求高质量的软件,制定软件的技术标准和规范,提高软件的质量和可维修性,逐步与国际标准接轨,已经成了相当急迫的问题。
    2.汉字识别技术
    汉字识别可以使汉字的输入实现自动、高速,是有远大发展前景的输入技术。
    我国的汉字识别技术到70年代末才起步,但是已经取得了不小的成就。
    联机手写汉字识别,即实时手写识别,是一种最简单、除语音输入之外最方便的汉字输入方法,现在已经有了几个初步实用装置,处于手写楷体识别阶段。目前识别字数可达6763一12000个,识别速度与人的手写相当,经常使用的识别率可以达到95%。现在,提高识别软件的学习功能,研制低限制的联机手写识别系统的问题已经被提到专家和企业家的面前。印刷体汉字识别是我国汉字识别技术的主流,已经形成商品,技术指标达到了世界先进水平。其中,多体印刷字体识别系统具有较高的适应性和抗干扰能力,而单体汉字识别系统则识别率更高。今后需要加强实用化的深度和广度,使识别系统的适应性提高。脱机手写汉字识别已有几个实验性系统进行了鉴定,离实用还有一定距离。
    基于汉字的特性,发展汉字手写技术,对于信息处理的意义可能要大大超过那些使用拼音文字的国家。因此,应该大力加强这一领域的开发研究。
    汉字识别技术的研究,主攻方向有三:一个是充分发挥人工神经网络技术在汉字识别领域中的运用;二是和汉语言学在词法、句法、语义等学科结合,利用词的上下文匹配和基本句法、语义的上下文匹配,来提高系统对实际文本的识别率,三是多种识别方法集成在一起,以提高识别率,降低误识率;同时,随着各种汉字识别系统、软件和装置开始商品化,需要尽快制订科学、实用、客观的评测标准,以保护和促进这一领域的正常发展。
    3.语音识别技术
    把语音识别技术用于中文信息输入,比键盘输入方便、迅速,在信息化时代必然具有极其广阔的应用前景。
    十多年来,我国的语音识别技术已经开始走向应用。不少语音识别系统的识别率已经比较高,其中全音节语音识别系统尤为突出。但是,这一高识别率是以很多条件限制为代价的,例如需要特定的话者,说话方式比较稳定,说话环境无干扰、识别有限的词汇和孤立词等。
    今后这方面的研究应在以下几个方面加强:一、识别方法和处理手段的研究。原有的方法需要改进,同时探索新的方法和途径。当前语音识别的三种方法(模式匹配法、隐马尔可夫模型法和人工神经网络法),各有长处和局限。如何把它们结合起来使用,是当前的一项重要课题。引进模糊数学理论在这一领域的应用也是很重要的。语音识别技术中的语音特征参数抽取、时间对准、模式划分问题,可望通过方法的改进获得比较理想的解决。二、加强基础建设,例如建立语音库和语音特征库,研究计算机听觉模型,等等。三、吸收和运用语言学的研究成果。目前语音识别的方法主要是利用语音信号中的声学信息和模式匹配。实际上,语音识别和语音理解一样,还有赖于语言的其他规律,例如词法、句法、语义和语用规则,将对解决语音信号多变性问题具有重要意义。
    (二)字符集和编码
    自1980年我国发布《信息交换用汉字编码字符集•基本集》(代号:GB-2312·80)至今已经15年了。《基本集》和后来的五个辅助集,为中文信息处理技术的发展奠定了基础,已为社会广泛采用。
    但是,由于该字符集研制得早,收字原则研究得不够充分,以致在今天看来收字不尽合理,例如其中有不少“死字”,而一些常用字却未收入;其字形也有不规范处;另外,作为通用的字符集,用于网络通信和国际交流也不能满足需要。
    国际标准化组织(ISO)于1993年发布了《信息技术·通用多八位编码字符集(UCS)》国际标准的第一部分,即ISO/IEC10646·1,共20902字。这一标准的制订是多文种信息处理技术的突破性进展,例如在这个标准中世界各种字符统一编码,采用等长架构,一字一码,具有唯一性,不存在中西文兼容问题,这就为世界计算机软件的大统一和国际间的信息交换、通信奠定了基础。此外,这一标准对我国的中文信息处理工作是有益的。例如其中已定义的基本多文种平面(BMP)有6万多编码空间,足以收录世界众多的文字及符号,这对字量庞大的东方各国,特别是中国尤为重要;又如,字符集按文种编码,这样中、日、韩汉字就以现有各标准字符集为源字符集,形成涵盖中、日、韩的统一字汇。
    ISO-10646·1发布后,世界各公司竞相进行相应产品的研究和开发,我国也于1994年1月制订出了与之相应的国家标准GB-13000·1。
    针对这些情况,我国应在以下几个方面加强研究:修订GB-2312·80字符集;为ISO-10646·1的扩充做好准备,主要是汉字部件、部首和20902字之外的较通用字;防止国外汉字和繁体字、异体字对我国出版物、办公文书的干扰。
    这里所说的编码问题,是指汉字内部码,即处理码。
    汉字内部码一直缺乏统一的规范和标准,以致形成了汉字内部码的混乱。随着计算机应用从单机到网络、从单用户到多用户的发展以及各种信息系统的建立,内部码的混乱给资源共享造成了困难。1990年“中文内部码与数据类型标准化工作组”初步规定了汉字内部码的编制原则,并确定了两种代码体系的汉字内部码推荐方案。今后需要重点研究汉字内部码的规范化和标准化问题。近期内,一方面要为新代码体系的实现做好准备,以便最终与国际标准接轨,另一方面要尽快拿出汉字内部码的标准,以使暂时不能被取代的旧码从混乱走向规范。
    (三)中文输出技术
    1.汉字字形技术
    近年来,字形技术在国际上取得了突破性的进展,形成了字形信息产业。汉字由于字形复杂,字数多,在采用新技术时有着特有的难点。
    汉字字形库,依其描述技术的不同,可分为点阵字库、矢量字库和曲线轮廓字库。我国自80年代初研制点阵字库至今GB-2312·80的点阵字库已经相当完备;90年代初,矢量字库已经用于高档汉卡和激光打印机上;用于高精度印刷的曲线轮廓字库由于汉字的特性而难点甚多,研制工作至今还存在不少问题。作为低档打印和个人使用的点阵字形,在我国还有很大的市场和较久的生命力,随着我国的通用字库向ISO-10646·1靠拢,GB-2312·80的修订,完善点阵字库的任务也应受到重视。
    2. 语音合成技术
用于计算机输出的语音合成系统又称为文/语转换系统,它把以文字串形式输入的文本转变为语音形式输出,是应用前景最广阔的语音合成系统。我国从80年代开始研制汉语普通话语音的合成技术,现在已有一些产品问世,但是,这些项目还都是有限词语的编辑合成系统,例如自动报站系统、电话自动拨号、自动查号、自动报时报警等。
    在这方面,我们受到了硬件的限制,至今所用的专用软件和开发系统都是进口的。我们期待着早日用上国产的专用集成电路。
    无限词语的合成系统,不像有限词语的编辑合成系统那样把特定人的语词发音作数字化编码,建成合成语音库,而是靠语音规则的合成,也就是把语音的更小单位(如音素、双音素、半音节或音节)的声学合成参数储存起来,然后由语音合成器合成为连续的语句。显然,这种系统对语音研究的依赖性较大,还有许多难关需要克服。例如已经进入市场的几个文/语转换系统所带的浓重“机器昧”,就主要是由于对于人的言语机制的复杂性研究得还不够的原故;又如由于人们说话时语音、语调和发声的相互影响,存在着大量的复杂的音变现象,需要在合成过程中模拟这些音变,为此研究者还需付出很多努力。
    在语音合成技术领域,我国有着天然的长处:汉语的一个音节写出来一般就是一个字,其中有很多音节(字)也就是一个词;特别是普通话,音节在声学表现上有其相对稳定性;普通话的四声调值差别明显;普通话音节数量较少,不计声调只有400多个,这与英语的4030个、俄语的2960个相比要少得多,因而在以音节或更小的语音单元为语音单位进行合成时,要简单得多。因此,在无限词语的语音输出领域,汉语很有可能要走在西方语言的前头。
    (四)基础研究和应用技术
    1.语料库建设和开发
    为了对语言素材进行自动分类和编排,从中查找各类信息,就需要利用计算机建立语料库。1990年在赫尔辛基举行的第13届国际计算语言学大会,把实现大规模真实文本的处理作为计算语言学今后一个时期里的战略目标。现在,美国、英国、日本、德国等国家相继建立了各自的国家级大规模语料库,有的已经投付使用,提供服务。
   近年来,国内的一些单位也相继建立了一些通用的和专用的现代汉语语料库,并在语料的加工技术等方面进行了探索,取得了一定的成果。例如,清华大学的汉语词性自动标注系统,采用一元语法和二元语法相结合的统计模型、108个标记,对汉语真实文本进行标注的正确率达到96.8%。此外,北京航空航天大学、北京语言学院、电子工业部、北京师范大学等单位也分别建成了规模大小不等、取料各异的语料库。这些已经建成的语料库由于宏观管理不力,缺乏统一的规范和标准,普遍存在着语料库的库容量小,取料先期论证尚较粗糙,用途单一,因而不能长期使用的问题。
    为适应当前和未来中文信息处理的需要,我国必须尽快建立国家级的大规模通用型语料库。通用型的大规模语料库,可以服务于以下领域:字频、词频统计,词典编篡,语言文字规范化研究,词的切分和属性研究、语法研究,语义研究等;而这些方面的研究,又都直接或间接地对中文信息处理技术有着极为重要的意义。正出于这一考虑,国家语言文字工作委员会自1992年开始即着手建设一个7000万字的现代汉语语料库。这方面的详情我将在下面介绍。
    2.汉字属性研究
    汉字属性是指汉字所负荷的各种信息,即汉字在字音、字形、字频、笔数、笔顺、部首、结构、部首笔数、部首序号、部件、异体字、编码、电报码等方面所具有的特征。汉字属性系统,是汉字信息处理系统的一个重要组成部分,可以使计算机处理中文信息的功能更为齐全,提高效率,促进标准化。汉字属性的研究和利用是汉字信息处理技术不断深入发展的结果。
    建立汉字属性系统的关键是建立一个汉字属性库,也就是汉字属性电子字典,将它改为书面形式,就是汉字属性字典。
    自80年代中期,我国相继研制出了一些具有应用价值的汉字属性字典、汉字属性库和汉字属性系统。为了适应未来中文信息处理技术的发展,已有的汉字属性研究还需要进一步拓展和深入。一是汉字属性研究的内容要根据应用的需要不断增加,即汉字属性的项要陆续增添;二是汉字的有些属性,如字频、编码等,要根据ISO-10646·1进行相应的调整、扩充;三是要加强属性数据的维护,在使用过程中随时修正。
    3.现代汉语自动分词与分词规范
    汉语书面语不像西方文字那样分词连写,词与词之间没有明显的界限,进入计算机后是等距排列的汉字字串序列。而在进行词频统计时或中文信息处理进入到句以上单位的处理阶段时,例如在机器翻译、自然语言理解、文献检索等语言工程中,都需要一个个词分开。自动分词,即用计算机把语料按词切分开,注上切分标记。
    我国的自动分词技术已经比较成熟,一些自动分词系统已经达到实用水平,切分精度超过了99%。但是,要在这基础上把切分率再提高哪怕一点点,还要付出很大努力。现在切分的错误90%以上发生在“交集型歧义字段”上。所谓交集型歧义字段,是与“多义组合歧义字段”相对而言的,前者是指字段“AB”,“AB”成词,“A”和“B”也独立成词;后者是指字段“AJB”,既可分为“AJ/B”,也可分“A/JB”(J为交集字串)。显然,要解决这个问题,关键不在计算机的技术方面,而在语言学。现在,语言学对词的研究还没有给中文信息处理提供足够的工具,例如对“什么是一个词”的研究,至今还没有一个差强人意的成果。
    词的切分对规范化的要求很高,现在《信息处理用现代汉语分词规范》已经成为国家标准,为中文信息处理提供了一个可供应用的分词原则。目前急需制订一个实例化的分词词表,以便于按这一《规范》操作,在运行过程中,对《规范》进行检验、修订和完善。
   3.电子排版系统和文字处理机
    国外的电子排版系统如果从1949年美国发明手选或照排机开始算起,到1976年英国研制出激光照排机,共用了近30年,经历了手选、光机式、数字化点阵式和激光照排四个阶段。我国电子出版系统的研制始于1978年,越过了西方所走过的第二、第三个阶段,只用了十几年就在许多方面达到了世界第一。现在,我国的电子出版系统面临着国外先进的字形描述技术及硬件进步的挑战。今后必须在页面描述语言和字形技术方面向国际标准靠拢,以便保持我们的优势和良好的发展势头。




加强中文信息处理和语言文字学研究的结合

    中文信息处理的高级阶段是自然语言的自动处理,特别是大规模真实文本的自动处理。为达到这一目标,一方面需要计算机硬件和软件的研制,另一方面,需要语言学对计算机所需要的语言知识进行深入的研究。到目前为止,在中文信息处理技术的许多方面,都利用了语言学的研究成果。例如在字处理阶段,汉字键盘输入方法中对汉字的拆分、字的属性分析,字形输出技术中的汉字字形技术、字库的建设,都包含着汉字学的许多成果;在词处理阶段,更依赖汉语语言学对词法、词的属性和词义的分析等。在今后的句语处理阶段,句法、语义、词语搭配等知识尤为重要;在语音识别和语音合成技术中,不仅需要语音学,也离不开词法、句法、语义和语用知识;此外在建立语料库的工程中,也处处要求语言学提供规律、理论和假设。总之,中文信息处理技术每前进一步,都需要汉语语言文字学的支撑,而且中文信息处理越是向高层次发展就越需要语言文字学研究的深入。
    虽然在过去的十几年里中文信息处理技术利用了不少语言文字学的研究成果,但是当信息处理进一步发展的时候,语言文字学的研究现状已经不能满足信息处理的需求。我国的语言文字学界,一直重视对语言文字的基础性研究。研究的特点是:重语言事实,理论建设比较薄弱;主要是定性的研究,定量研究较少;基本上着眼于为人的理解服务,很少考虑到为人——机关系服务;在所研究的各部门中,重视语法和语音,轻视词汇和词义;所用的方法大多是直接或间接地引进、借鉴基于印欧语系的西方语言学方法,还没有形成由汉语研究中逐步形成、非常适合汉语的研究方法。
    现在,中文信息处理急需汉语言文字学的帮助。就我浅薄所见,当前就需要以下课题能够尽快取得突破性的进展:
    字的属性(特别是结构、部件、部首)
    词的界定(与词素、词组的区分)
    词义(义素及其分类,语义场)
    词的属性(特别是词性、词的“兼类”)
    词的切分
    词的搭配(合法同现)规则
    词组(短语)的界定
    词组的构成方式和规则
    时、体、量等广义形态
    同音词
    句法规则
    句型统计
    句法树
    歧义句
    语音(大规模字库的审音、音素音位、语流)
    语义(概念的语义属性、句义、格——价、句间关系)
    语用(特别是语体、风格、环境等)
       ………

   例如,现在的编码输入方法,要使词语处理技术完善,就要在大规模语料库的基础上完成自动分词、词频统计的研究,而这就需要词法、词语搭配、语义和语用的基础研究;中文信息处理,最终一定要走到真实文本的自动处理和语音输入和输出这一步,在这艰难过程的每一个阶段,或者说每前进一步,都需要几乎全部的语言学知识。
    当前的语言学研究虽然还很少考虑到计算机的需要,但是,由于语言学家们一直在用尽可能科学的方法描写和分析语言事实,所以所得的实际成果有些已经与计算机的需求很接近。在这里我想举几个例子说明。在传统语义学中,研究的对象不但局限于语义单位(词义),而且一直把词义当作一个囫囵的整体,也很少涉及语义系统。现在学者们已经相当普遍地认识到研究词语结构和意义的重要性,整个语言可以说是就是词汇——语法系统;汉语词的语义特征包括了词汇语义特征和句法语义特征,而在后者之中又包含了凭借语法手段的“显性特征”和通过结构中词语间语义关系确定的“隐性特征”;同时还注意到语义特征的多义性、层次性、相关性、成对性和对立性。学者们呼吁在语义研究中要寻求形式化的方法。这种探索和中文信息处理所需要的电子语义词典的要求不是已经很相近了吗?
    受西方语义学的启发,我国语言学界已经比较广泛地把义素分析法和语义场理论用于对汉语的分析,即已深入到词义的内部,并把分析归纳汉语语义的系统提到了日程上。义素分析法通过比较,找出一个个词义(义位)的构成成分(义素)的结构形式,实际上是把概念分解为最小的要素,并可以把它形式化。例如如果把“发展”一词在词典中的解释转写成该义位的结构式,就是这个样子:

    词典释义:事物由小到大、由简单到复杂、由低级到高级的变化。
    义素分析:〈d〉x(变化)zh(事物)fa{[(小)→(大)][(简单)→(复杂)][(低级)→(高级)]}

    语言中的义素要比义位(义项)少得多,如果我们把大量的词义一个个做形式化的描述,最后就可以得出汉语的义素总数和分类情况,这无疑将对计算机用有限的义素对无限的词语进行自动分析、简化语义描述有很大的帮助。当然,这样巨大的工作量也需要借助于计算机,否则是不可想象的。
    语义场理论则把一种语言的语义看成是由若干义位组成的一个大系统(最大的语义场),在这大系统内包含着大量不同层级的小系统(子语义场),在一个语义场内部,各个义位间有着互相规定、互相制约、互相作用的关系。例如有关“人体上身动作”的常用语义场,就是下面的情形:

                  ┌ 手的动作  ┌徒手动作子语义场
                  | 子语义场  └非徒手动作子语义场
           |
                  | 臂的动作
                  | 子语义场
         |
    人体上身动作 |
       语义场   |
                  │
                  | 肩的动作
                  | 子语义场
         │
                  │ 背的动作
                  └ 子语义场
   
    在每个子语义场内,又可以分出若干枝干、同义、反义、分类等更小的子语义场,每个更小的子语义场里有若干义位。(以上举例均参考贾彦德《汉语语义学》)循此以往,当我们摸清楚了汉语语义场的面貌后,可不可以在计算机里也建立语义场,以供语言材料的自动处理呢?
    显然,义素分析法和语义场理论都非常重视语义的系统性和形式化,二者的有机结合就可以使似乎杂乱无章的语义变得有规律可循,有形式可见,使语言学研究的结果有可能为计算机所使用。
    义素分析法和语义场理论(特别是前者)在我国语言学界并没有得到一致赞同,原因大概是语言研究者习惯于凭自己的语感对语言作出一般性的判断,同时,介绍和研究这两种学说的论著还基本上停留在理论探讨、举例说明的阶段,还没有人对大量的语言事实进行系统地逐个分析和归纳,这就难免给人以没有实用价值、故弄玄虚的感觉,引发出不同的意见。但是从计算语言学的角度看,或许这样研究的结果正是机器所需要和所能接受的。而当语言学家和计算机专家结合,把这方面的理论和方法用于相当数量语料的分析,初步得出汉语句型网络和汉语语义网络、义素项的基本范围时,就会使这些理论和方法得到检验、完善,同时可以向更多的人证明这两种方法和理论的价值。
    又如,在语法研究领域,现在已经突破了传统语法以规则为基础的成分分析方法,和以“话题”(主语)为主、对句子进行二分的习惯,并开始运用层次描述、定量研究、归纳研究的方法,既研究通例又注意“例外”。现在,语法学界普遍注意到,研究语法不能不管语义,所有的句法范畴无不来自语义范畴。并且注意到,句子的组成成分之间的语义关系是有层次的。不少语法学家把表示行为、动作、联系、性状等的谓词当作分析句法和句义的核心成分,肯定了谓词对句义结构类型的决定性作用,分析了句子结构的分层向核性。有的学者研究了通过交换(transformation)找出存在于两种结构不同的句子之间语义的依存关系。有的学者指出,要区分符合客观的句型,就必然要从句法平面扩展到语义、语音,最后也必然延伸到语用平面。有的学者努力于建立汉语语法句型系统,其中有人使用演绎法,有人使用归纳法。语法研究的诸如此类的收获,应该说与中文信息处理专家们所期望的句型分类体系、句法语义分析规则库距离已经很近,有的甚至可以说彼此之间只隔着一层窗户纸了,正等待着一种机会、一种机制、一种力量把它捅破了。
    语言学界无论是对语义、句法还是对词类的研究,由于还没有很多的定量分析的验证,所以有很多意见还是一种假设。科学研究的规律常常就是先从部分事实得出一些初步结论,然后把这些结论作为假设拿到更广泛的事实范围中去使用,使用的过程就是验证、充实、修订、完善的过程。如此周而复始,研究和使用范围越来越大,理论和方法越来越成熟。因此我设想,如果中文信息界和语言学界联起手来,由中文信息专家把语言学家研究的结果改造为计算机所需用的可计算的模型,到机器上去检验,同时语言学家向中文信息专家了解计算机的需要,改进自己的研究,那么,经过一段时间,极有可能会得到可观的收获。例如建立一个概念分类体系,给出词典中每个词条的每个义项(义位)的语义描写,编制语义电子词典;在语法、语义研究的基础上建立语法树,给出结构的和语义的信息,研制语法电子词典。这些成果的获得,绝不是什么遥远的事。这可真是“合则双美,分则两伤”。我甚至有一种预感,一旦语言学家和计算机技术结合起来,所带来的不仅是中文信息处理事业的顺利发展,而且有可能引发语言学研究的一场革命,从而语言科学真正成为先导性的学科,走在科学技术发展的前列,受到全社会的重视。
    为了达到这样的目的,我认为当前有以下几件事情要做:
    一、“九五”期间,在国家项目中组织中文信息界和语言学界(有时还需要心理学界、语文教学界参加)共同攻关,就词类、词的属性、词的搭配、词语同现,句法规则、句型系统,语义结构、语义层级、语义网络等基础问题和应用问题协作研究。同时,上述这些课题之间,特别是研究字、词、句的课题之间,研究语法规则和语义的课题之间要横向统一协调进行。道理很简单,因为这些研究对象之间是相互勾联、密不可分的。
    二、在一些单位有计划地由两方面专家联合培养研究生。应该承认当前学术界的现实,由于年龄和知识结构的局限,要让不同界别的学者成为"两栖"专家,是十分困难的。我们应该寄厚望于年轻一代,为十年后、二十年后准备大批新型人才,为那时中文信息处理的更快发展做好准备。
    三、建立一个跨学科的民间学术组织,通过学术会议和论文交流,经常沟通研究信息,共同研究问题。为了沟通交流的方便,我甚至设想在这个学术组织内可以定期举行沙龙式的座谈会。有空则来,无闲则否,有话则长,无话散伙。
    总之,现在必须有组织、有计划地为汉语言学界和中文信息界搭起一座桥,使双方在很大的范围内走到一起,不但一起解决当前中文信息处理所遇到的语言学瓶颈问题,而且促使语言学的研究更面向实际,面向现代化,并进而培养出一批高水平的跨学科人才。




国家语委将为此努力工作

    国家语言文字工作委员会是国家管理全国语言文字工作的行政职能部门。几十年前,当国家语委的前身中国文字改革委员会成立的时候,我国的信息载体主要是口头语言和汉字,所以文改会所承担的任务是推广普通话和推进社会用字的规范化。改革开放以来,汉字编码输入方法得到迅速发展,计算机成了中文信息的重要载体和传输手段,而且越来越显示其在社会发展中的重要作用,中文信息处理中的规范和标准问题已经越来越重要。因此,国务院将管理中文信息处理中的有关工作,包括计算机所用的语言文字规范化和标准化工作列为国家语委的职责之一。
    国家语委所管的另两个领域是推广普通话和管理社会用字(影视屏幕用字、出版物和印刷品用字及公共场所用字)。虽说这两个方面和中文信息处理工作是并列的,但是工作的内容和方式也无不受到中文信息处理技术的影响。例如,在推广普通话工作中,计算机是重要的教学和测试工具,计算机的进一步普及将是推广普通话的巨大动力,而普通话的推广又会反过来推动计算机的普及和技术的发展。又如,社会用字除手写的以外几乎都出自制字机、字幕机。反过来看,中文信息处理中的语言文字规范,又需要时时考虑到推广普通话和社会用字的需求。所以我个人认为,在改革开放的时代,在科学技术特别是电子技术高速发展的时代,我国的语言文字工作,必须要紧紧抓住中文信息处理这个龙头。
    为了加强中文信息处理中语言文字规范工作和组织协调工作,国家语委调整了司局建置,成立了中文信息司。目前中文信息司的主要工作有以下几项:
    1.组织领导国家级语料库的建设和开发。这一语料库在极为困难的情况下,经过一年多的奋斗,已经完成了2000万字核心语料的录入、校对、调整工作,现在正多方争取资金,准备于明年初开始其余5000万字的录入。为把语料库开发为熟语料库所需要的研究工作也已经开始。
    2.领导制订和中文信息处理有关的各项语言文字标准和规范。现在已经开始研制的有:汉字部件、笔顺、词性标注、常用词表、键盘输入评测标准等。
    3.调查中文信息处理中的语言文字问题状况并研究对策。
    4.有关中文信息处理的语言文字技术产品的审查工作。
    除此以外,国家语委还有一些工作与中文信息处理有着密切的关系。例如,对ISO-10646·1中的中国所用汉字(17000多),将一一审音, 这将对键盘输入中的拼音输入和语音输入、输出产生影响;又如,根据2000万字核心语料库得出的字频统计,可能将是修订GB-2312·80字符集的重要依据,也将是在1SO-10646·1的基础上研制分级字库的参考;等等。这里不再一一列举。
    为了加强中文信息界和语言学界之间的联系,国家语委语言文字应用研究所准备在今年年末倡议成立“中国应用语言学学会”,今后将由这个学会把从事语言学、计算语言学、心理学、语文教育学、应用语言学理论等方面研究的专家学者联系起来。在学会中将组成计算语言学、语言教学、社会应用语言学和应用语言学理论四个委员会,而且将把语义的研究放在讨论的第一位。

    中文信息处理,是一门多学科、跨学科的技术,语言文字问题,只是其中的一环,一个方面。国家语委是国务院管理语言文字的行政部门,在中文信息处理技术中,只能就其中语言文字的规范标准问题、加强语言学界和计算机界之间的联系和合作做些力所能及的工作。今后几年是中文信息处理发展的关键时期,虽然眼前的因难很多,但是机遇也是空前的。中国是汉语汉字的故乡,中国的科学家是中华文明的传承者、汉语汉字的研究者。在中文信息处理领域,进而在未来的计算机和其他高科技领域,中国人必须超过其他国家,也一定会超过任何国家。为了这一天,付出什么样的代价都是值得的。


选自:《未成集——论新时期语言文字工作》许嘉璐著
 楼主| 发表于 2004-10-17 07:47:34 | 显示全部楼层

现状和设想——试论中文信息处理与现代汉语研究

作者:许嘉璐
来源:http://www.hncnlp.com/xjlonchi.htm


一 信息处理的必然前景

中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。既然是凭借计算机对信息进行处理,当然应该是自动化的。例如,成篇的文章或整本的书输入计算机,对其中所需要的信息进行统计;自动分类和搜索、过滤、摘要;外文与汉语的对译;字词典自动查询、辅助编辑;自动校对;书面和口语的互相转换;聋哑、盲人用的计算机;等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。

中文信息的自动化处理,意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是,这是人们应付未来信息社会的必需手段。现在在世界范围内,信息最之大是以往任何时候无法比拟的,以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所需要的信息,当然就更淡不到对这些信息按照需要进一步处理。

信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。可以这样说,中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果也是严重的。

二  中文信息处理技术发展现状

1.字处理与语言处理

到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲,一个字一个字的显示。即使应用软件准备了“联想”功能,但是其原理仍是把词(多音词)、短语当成“字”来处理的。如果我们说得“宽宏”一些,最多可以说现在是处在“字和词处理之间”阶段。

中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段,给人以假象,使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪,可以成篇地把文件输入到计算机里。其实,扫描仪是把整页纸当成一个图像输进去的;输入后,经过OCR的处理,图像转化了可以用键盘处理的文字文件,这时则仍是“字处理”。再如,现在有些语音输入产品(像IBM语音板),是基于在一定量的语料中对词汇进行统计,依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品,对汉语研究的基本思路和水平与语音输入基本上是一样的。

二十年前,我国计算机专家和汉语汉字专家为能在计算机上显示汉字,曾经付出了极大的心血,完成了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但是至今还没有跨上“语言处理”这个台阶。我们在“字处理”阶段停留的时间太久了。

在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益。因此,一些技术和经济发达的国家都投入了大量资金,在其本土或在中国建立研究基地,或以低廉的价格购买中国学者的研究成果,或径直购买其劳力,来进行中文信息处理的研究。中国作为汉语的故乡,能不能成为未来中文信息处理技术的发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。

由于机器翻译需要有关现代汉语的全部知识,而这些知识一旦为计算机所“习得”,对中文信息的处理就可以达到相当程度的自动化,因此现在无论是国内外中文信息产业还是研究信息处理的专家,都把汉/外机器翻译定为攻克的目标。

三  目前我国中文信息处理技术发展的态势

我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力,在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。

当前这类研究基本上都是在语料——主要是词——的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这“蹊径”就是语义,以词义为基础,与句法规则结合,以句为突破的单位。

朝着这个目标努力,到目前为止,正在进行的众多研究项目,大体可以分为三种风格,或者说是三种思路、三个流派。

第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词-短语(词组)-语段-句子。

概括地说,传统计算语言学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。为此,我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养,例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。①

由许嘉璐主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”的立项和进展或许可以说是当前这一领域研究最集中突出的例子。

该课题1997年开题,将历时三年。项目共包含着九个子课题:

1.信息处理用现代汉语分词词表
2.歧义切分与部分专有名词识别
3.信息处理用现代汉语词类及标记集规范
4.汉语词类兼类问题
5.现代汉语词的语法属性研究(之一)
6.现代汉语词的语法属性研究(之二)——现代汉语动词电子词典的扩充和名词槽关系
7.现代汉语知识词典的建立和词汇内部语义网络描述
8.现代汉语真实文本短语结构的人工标注
9.现代汉语词的构造研究

这些课题正在按照预定的进度进行,并已经在不同程度上取得了比较理想的成果,②并将于2000年底结题。

这一课题是纯粹的基础性研究,而且应该说,单就词汇领域而言,它也还是不够完整的基础性研究。虽然这九个子课题是中文信息处理技术所需要解决的重要问题,但是要把这些成果集成,形成可供使用的平台,还需要做相当艰苦的努力;而且即使这些成果集成了,也只是为今后的研究奠定一定的基础,因为要让计算机理解汉语的词,还需要解决词的意义如何概括、表达(用计算机可以“读”的符号)等问题。在解决了词的问题之后,才能进入句的领域,而要解开句子的奥秘,除了要弄清楚句子结构规律,关键问题也是语义。到目前为止,包括“信息处理用现代汉语词汇研究”在内的研究还没有正式进入意义领域。而对语义,以统计概率为主要方法,是难有作为的。在已有成果的基础上今后应该走什么路?国内外都还没有找到有十分把握的途径。

第二个流派是HNC理论。

出于对传统研究方法(词→短语→句→句群→篇章)是基于西方语言而建立的,其总体与汉语实际不适应的考虑,黄曾阳先生提出了概念层次网络理论(HNC)。③

HNC理论认为,计算语言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏低和偏高的不足,不是描述人的语言感知过程的适当模式,因为“思维的机制绝不是语法或句法,而是概念联想网络的建立、激活、扩展、浓缩与存储”,从而提出计算机对汉语的处理不应该以图灵检验为标准,而应该以对语言模糊的消解能力为第一标准。④

“自然语言的语句呈现出无限和不确定的表现特征,……在其背后是否存在一种有限和确定的语句结构?人们对此进行过多方面和多层次的探索。”传统语言学、乔姆斯基理论、依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模型等的各种统计处理,各有自己的答案。对自然语言特性的把握必须是微观和宏观并重的,对语句特性的把握更是如此。上述四种答案“与语言微观和宏观特性的联系大体依次呈现出反变和正变的趋向。”HNC的答案是:应该描述语言感知过程,为此,应从语言的深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立语义完备性的概念表述数学表示式和语句的语义表述模式。人的语言交流过程,就是消解“模糊”的过程。因此,HNC把消解模糊作为自然语言理解初级阶段的标准(就书面而言,有词的多义模糊、语义块构成的分合模糊、指代冗缺模糊),即以消解模糊为攻克的第一步。⑤

HNC认为,汉语以“字义基元化,词义组合化”方式构造新词,因此可以构建概念表述体系,亦即概念层次网络。HNC同时认为自然语言无限的语句可以用有限的句类物理表示式来表达。“语句的宏观特性可以用语句的句类表示式来表达,语句的微观特性可以用语义块的构成表示式来表达。”⑥他们据此设计了局部联想网络解决词汇层面问题,设计了全局联想网络解决句类和语义块问题(句类是语句的语义类型)。据HNC课题组的研究,自然语言共有7个句类:作用、过程、转换、效应、关系、状态和判断。每个句类有自己的句类表示式,基本句类表示式共57个。此外,自然语言还有单个全局特征语义块的混合类和两个或多个全局特征语义块的复合句类。理论上二者应有3192+57×56+57×3192+3192×3192=10377192种。但是常见的混合句类只有理论值的十分之一左右,在计算机上是可以解决的。从理论上说,HNC的句类分析是对大脑语言感知过程的初步模拟,应该接近人的语言过程,但这需要长时间的逐步完善。

现在HNC课题组正按照“语义块感知和句类假设、句类检验、语义块构成分析”三步曲策略努力工作,期望能研究和开发出具有“自知之明”(即能在译文疑点处自动做出标记并给出多种解决方案)的汉/英互译系统。这一策略在规模较小的知识库支持下已经取得可喜结果。而其准确性最终要在更大的知识库支持下,在大规模语料中运行才能得到信度较高的印证。这正是这一课题当前工作的难点所在。

第三个流派是基于内涵模型论的语义分析。

这一流派的理论设计,是陆汝占教授提出的。其出发点是考虑到对中文信息处理的研究单纯走语法的路已经难以有突破性结果,归根结底,要深入到语义层面。朝着意义精细方向考虑,就会产生兼类过多和概括力不够以及歧义、模糊、不确定等困难。换言之,汉语表达式的意义仅指称外延对象,没有涉及内涵性质,因此存在一个语句中的同一词语表达式的多个出现,都指称相同的外延对象。怎么办呢?应该在一个逻辑句义框架下来分析词汇及其分类,只要能明白表达句义,不必过于精细,也就是用逻辑框架来处理词汇理论。基于这一考虑,该课题组将汉语表达式抽象成数学表达式,恰当地表示内涵和外延义,然后把这些语义表示在计算机内进行处理,亦即把汉语表达式与计算机数据结构之间直线联结,改变为汉语表达式-抽象数学表示-数据结构三者的间接联结。课题组称之为基于形式方法——模型论的汉语语义计算理论。

根据这一理论设计,句义分析的流程为:语句→切分→标注→句法分析→句法树→同构的语义树→逻辑公式→模型解释。显然,从“切分”到“句法树”,与受图灵检验启发而进行的研究一致;其特色就在于建立“同构的语义树”,特别是进入“逻辑公式”并作出“模型解释”。陆汝占教授认为,语句要转换成逻辑式,应从汉语语句谓语动词结构着手。因为句法分析是语义分析的前提,句法分析又要靠语义特征。具体设想是:先构造一种句子的逻辑式之间的中介形式“函子”(functor),以表示谓语动词连同支配成分一起构成的语句核心,表现句义的基本要素。函子加上时态、模态算子就可以表示语态,构成句子的基本逻辑含义。对于计算机自动处理中文信息来说,汉语的缺省(省略和隐含)都是难点。因此基于内涵模型论的理论对这一点格外重视,但是至今除了利用上下文语境知识外,也还没有找到很好的解决策略,而语境知识的形式化也是十分复杂的问题。

说从“切分”到“句法树”和现在通常的解决方法一致,只是就总体和顺序而言,实际上基于内涵分析的语义解释理论对于“词”、“句”等有着自己的理解。

以上三个流派都正在进行过程中,进展情况不一。第一个流派,不同单位和个人已经在一些局部取得了较好的成绩,面临着如何集成和如何解决词义、句子问题;第二个流派设想和计划比较庞大,在规模不够大的知识库内,已经得到部分技术实现,面临着继续扩大知识库、进行相当于“中试”或一定规模生产的过程,以便检验和完善其理论和技术设计;第三个流派,理论设计还较粗略,虽然用这一理论已经解决了一些实用问题,但是要证明它可以适用于整个现代汉语,还需要进一步推敲、实验、细化。

值得注意的是,第二、第三种思路都很重视我国传统语言学,特别是训诂学的经验和成果,或从中得到启发,或借用其对词语的训释。这是有道理的。我国的传统语言学,虽然在很长时间里与语文学难以彻底区分,但是古人对语言的体味观察入微,其中包含着一定的哲理和对语言环境的关心,这些往往反而是不“懂”语言的计算机所需要的。

四  现代汉语研究滞后的原因

(一) 现代汉语本身的难度

1.汉语缺乏狭义的形态。西方语言的形态,对于计算机来说就是标记;汉语没有这种标记,就需要人深入把握词的种种规律,把这些规律形式化,其实就是人为地作出标记。因此,汉语的特点一方面使得西方计算语言学一些成果和经验不能完全适用于它,另一方面增加了计算机“分辨”词素、词、词组的难度(在书面语,字和字之间等距离也是造成这一难题的重要原因)。

2.语法灵活。即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词。但是,词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;意合则更为麻烦,其中包含着许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸项因素,并把它形式化,是最大的难题。

3.语义灵活。从词汇层面说,一词多义、同音词、同义词、近义词已经是很麻烦的事;从句义层面说,情况更为复杂:一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。即使我们把词义和句法都分析清楚了,“教给”计算机了,它还是难以“理解”整个的句子。

(二)现代汉语研究的弱点

1.长期以来,我们的研究基本上是为人际交流服务的。人的联想、类推等能力构成了人对语言的特殊感知能力,这极大地补足了研究的空白。要把过去研究的成果完全移植到不会举一反三的计算机上是不行的。必须建立起计算机适用的语言分析体系。换言之,汉语言学家没有为中文信息处理作好语音分析的准备。

2.长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。计算机所面对的,是任意性的、不可预期的语言材料,它必须穷尽式地处理这些材料,因此由例举法得到的结论是不适用的。另外,书面语语法比较规范,句式变化较少;反之,口语则因说者的方言影响、文化水平、语言环境等方面的差异而变化灵活。

(三)研究环境的缺乏

(1)研究分散而重复

和其他一些行业一样,中文信息处理界也存在着低层次重复的问题。这不但分散了力量,而且潜伏着缺乏统一规范和标准的危险。例如,语料库、电子词典、词的切分,词类研究等等,许多家搞,而每家所做的规模都不大,即难以适应大规模语料的需要,也难以深入。

(2)投入相当不足

这里据说的投入,主要提指人员所消耗的经费。应该说,近些年我国科学技术人员的待遇已经有了相当大的提高,但是,现在外国大公司大举进军中文信息技术领域,他们凭借着雄厚的财力,以相对于我国国内无法竞争的报酬吸引去大量的年轻的人才。现在坚持在科研第一线的年轻人,都是靠一颗炽热的爱国心在拼搏。对于这些年轻人来说,未来的生计——赡老育小——也是时刻要考虑的问题,因此能否在基础研究的长期奋斗中坚持下去,依然是个疑问。中文信息界深深地感到了威胁。

(3)从总体而言,现代汉语研究领域和计算机领域的隔绝状态并没有出现根本性的改变。这可以说是个致命的弱点。隔绝,使两个领域的英雄们都无用武之地;同时这也极大地阻碍了语言学、计算机学一起向着所需要的一切学科(如心理学、逻辑学、人脑科学等)延伸。

五  消除瓶颈的战略

要消除中文信息处理的瓶颈,首要的关键是要汉语言学界和计算机学界两支队伍紧密地联合起来,开展面向中文信息处理基础研究和应用研究。如前所述,中文信息处理需要的,并不是现在汉语学界已有知识的照搬:有的方面需要根据计算机的“能力”去总结汉语的规律,在一定程度上,还需要研究者抛开传统语言学的固有习惯和方法;有的方面则需要填补上已有知识的不足。为长远计,我们需要大批“两栖学者”,应该加紧这类人才的培养;在目前,则需要两支队伍的密切合作。我们高兴地看到,北京大学、清华大学、上海交大、山西大学、科学院的一些研究所,已经开始了这种结合,而且在实际研究、培养新型人才、探索新的研究路数诸方面都取得了可喜的成绩。汉语言学与计算机结合所带来的,绝不仅仅是中文信息处理的长足进步,汉语研究本身也将获益良多。

其实,仅仅有语言学和计算机科学的结合还是不够的。上文所介绍的三个流派,基本上都是抓住了问题的两端:语言和计算机。从根本上说,要想使计算机像人脑那样工作,就要按照人脑运用语言时的活动机制去“武装”计算机。而至今为止,我国的人脑科学不没有取得可供计算机科学使用的成果,同时,无论是计算机界还是语言学界,对人脑科学的关心也很不够。从当前的实际出发,我们只好还是集中力量在语言学和计算机科学的结合上多下功夫,以期为解决中文信息处理瓶颈问题作出阶段性的成绩。

六  对操作过程中一些问题的思考

1.必须采取集体攻关的办法。语言之复杂,汉语之复杂,就决定了任何研究单位都不可能独自解决中文信息处理的全部问题,必须多个单位紧密合作,集体攻关。我国学术界曾经有过分工合作、集体攻关的传统,近年来在许多地方已经淡漠了,现在学科的发展又提出了这一问题,需要我们打破“新”的风气,重新养成更新的习惯。

2.可以用“百花齐放,百家争鸣”的方针,不拘一格,几种风格齐头并进,即相互竞争,又彼此取长补短。从现在不同流派研究的情况看,可以作出这样的判断:不但任何研究单位不能独立自解决中文信息处理的问题,而且即使是多个单位合作,如果使用单一的方法,也不能达到预期的目的。例如,对词和句进行处理时,就既要充分利用统计概率方法的成果,又要重视运用词汇和句子规则,还要注意语言逻辑学的重要作用。

3.采用科学的管理办法。无论开展这一研究所需要的资金从哪里来,也不管这一研究归属于哪个部门,研究的参与者来自多少单位,对其管理都应该是科学的现代化的。所谓科学的,主要是指要按照科学研究的规律管理。例如实行首席科学家制,人事、经费、责任,都由首席科学家承担;又如,课题的立项,要严格论证,统一评测标准,严格检查,严格验收,采取回避制,排除一切人情、关系的干扰。

4.既要争取国家的支持,又要尽量与企业合作。面向中文信息处理的现代汉语研究,是纯基础性的研究。根据社会主义市场经济的规则,科学研究,包括基础研究的投资主体应该是科技型的企业。但是国家在这中间的作用不可忽视:国家有支持基础研究的责任和义务。特别是在我国,企业和企业家还不成熟,无力也无意识在基础研究方面投入巨额资金,因而国家的责任要比经济发达的国家更为重大。这一两年,在企业界出现了一些新气象,不少企业,特别是包括信息产业在内的高新技术产业,开始向研究开发投入越来越多的资金。我们有理由相信,为了我国中文信息处理事业的发展,国家和企业都会越来越重视支持基础研究,学术界应该及时地同时争取这两个方面的支持。

5.既要出成果又要出人才。

6.中文信息处理事业将是长期的。我们的目标是让计算机越来越接近人脑的机制。要达到这一目标,恐怕需要几代人甚至更多时间的不懈努力。因此,薪火之传至为重要。我们应该采取有力措施,在使中文信息处理技术大踏步前进的同时,这一领域新型人才也大量的不断地涌现。

7.允许失败。科学研究是在不断失败—研究—再失败—再研究的循环往复中前进的。面向信息处理的现代汉语基础研究既是科学研究活动,就要允许失败。不能设想某一种理论和方法从一提出来就一路顺风地直达彼岸。从某种角度讲,失败也是一种成功:其中必有合理的因素;造成失败的原因就是财富,可以成为今后的借鉴。

我在1995年曾经预期:“应用研究的成果所带给社会的,有可能不只是具体的具有应用价值的学术成果,还将有对整个语言文字学价值的生动显示,有对基础研究成果的检验,有下一阶段基础研究的问题的单子和努力的方向,其社会效应则必然是整个语言文字学的研究得到社会的重视,从而得到加强,语言学也将逐渐繁荣,并真正成为先行科学。”时隔五年,我依然抱着同样的热望。特别是在中文信息处理领域,我的信心更足,因为中国知识分子报国的热情和天生的对汉语的语感,是得天独厚的。只要有一定的外力,这一优越条件就可以产生极其巨大的能量,做出惊人的成绩。⑧

附注

①参看冯志伟著《应用语言学综论》,广东教育出版社,1999年,312页。

②《语言文字应用》2000年第1期有专栏《“信息处理用现代汉语词汇研究”课题中期成果汇报》,由各个子课题负责人分别撰文介绍研究进度情况,可以参看。又,“歧义切分与部分专有名词识别”的成果又见于刘开瑛著《中文文本自动分词和标注》,商务印书馆,2000年。

③HNC是英语Hierarchical  Network  of  Concepts 的简称。参看《HNC(概念层次网络)理论》,清华大学出版社,1998年11月。

④见黄曾阳先生给许嘉璐的信,载《HNC(概念层次网络)理论》,411页,清华大学出版社,1998年

⑤《HNC理论与自然语言语句理解》,《中国基础科学》1999年第2—4期合刊。

⑥同上。

⑦关于中文信息处理要面对的现代汉语的特点,有许多学者做过详尽的分析。最近的一篇,也是我认为论述得较好的一篇,是段慧明等人写的《大规模汉语标注语料库的制作与作用》,载《语言文字应用》2000年第2期,可以参看。

⑧许嘉璐著《未成集——论新时期语言文字工作》,201页,语文出版社,2000年。

(许嘉璐       全国人大常委会       100805)

中国语文2000年第6期(总第279期)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 19:02 , Processed in 0.109361 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表