|
来源:http://www.china-language.gov.cn/
---------------------------------------------------------------------------------------------
一
时代向中文信息处理工作提出了极其紧迫的要求
中文信息处理,就是利用计算机对汉语汉字进行自动处理,在我国信息技术和计算机产业中处于关键的位置。
我国当前的中文信息处理技术发展可以用这样几句话概括:成就不小,难题尚多,挑战严峻,前景美好。
我国中文信息处理事业正面临着这样两个尖锐的挑战:一个是计算机向个人普及的浪潮;一个是多媒体及其联网即将在我国逐步得到推广。同时,外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以其势甚为逼人。
面对上述几方面的大势,我国的中文信息处理技术又遇到了自身一系列急需解决的基础研究和应用技术问题。这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。而如果一旦这些难题能较及时地得到解决,就将是"失之东隅,收之桑榆"的局面。
下面,我依序谈一谈在中文信息输入、字符集和编码、中文信息输出、基础研究和应用技术四个方面的情况和问题。
(一)中文信息输入
1.汉字编码输入问题
汉字键盘输入方法在经历了编码技术初创的艰难阶段之后,在理论上和技术上都取得了巨大发展。总括地说,有这样几个方面的成就:从最初的人工编码发展到计算机辅助设计编码方案;从单纯讲求从汉字的形、音、义出发的编码方案素质发展到讲求编码方案•支撑软件素质;从字的编码发展到词语编码;从只注重职业型(供职业录入人员使用)输入方法发展到同时注重职业型和普及型两个方向的输入方法;从只处理简化字发展到繁——简切换与兼容处理。汉字键盘输入问题的突破和逐步发展,为计算机在我国的普及打开了一扇大门。
在解决了汉字进入计算机的难关之后,很合乎规律地出现了编码方案风起云涌的局面,现在到底有多少编码方案,谁也说不清。据不完全统计,已实现的汉字键盘输入方法已有近百种。就已经商品化的约20种方案来看,可以说是各有千秋。但是,无论是音码、形码,还是音形结合码,都有着严重的局限:
利用《汉语拼音方案》实现音码输入(应该说,这种方法无所谓“码”),除了双拼法需要使用者熟悉一下双字声母和多字韵母的键位,其他都可以“无师自通”,因而最适合非专业录入人员或文秘人员使用。至于自行设计的拼音方法,已经离开了《汉语拼音方案》,由于脱离了使用者的原有知识,需要使用者另学一套规则,已经不属于普及性的,另当别论。但是无论是哪一种拼音输入方法,都遇到了汉语同音字、同音词多的语言现实,并受到使用者普通话水平和文化素质的限制等问题,从而使拼音输入方法在当前实现大规模普及遇到障碍。
各种形码利用了汉字的笔画特征和可拆分性进行编码。许多字根式形码方案存在着违背汉字结构原则、与人们在学校所学得的文字和语言知识不合的弊病;笔画式形码方案也存在着任意拆分和笔顺不够规范的问题。有人说这是电脑对汉语言文字的“污染”,或者是一种汉语汉字信息处理的“病毒”,我想,从加强基础教育、提高全民族文化素质和快速普及计算机的角度说,这话并不过分。
音形码或形音码的局限,常常是上述两方面的不足兼有。这类方法本来是想避开上述两类的缺陷的,但是如果从学习者的知识准备和规范化要求来看,常常事与愿违。
令人担忧的是,这种既不规范,又不统一的"万‘码'奔腾"局面,对中文信息处理事业,对我国的教育,为害极大,亟需扭转。一方面,广大用户面对众多的输入方法无所适从;另一方面,一旦如果选择了一种不符合非职业录人人员“想打”需要的编码,就要花费很大的气力去学习和记忆编码规则,既破坏了人本有的语文知识,又浪费了时间和精力。
可以说,编码方案的缺乏优化和规范,现在越来越成了阻碍计算机进一步普及和中文信息处理技术发展的重要因素之一。而在相当长的一段时间内,汉字键盘输入还将一直是我国信息处理的主要输入手段,因此编码的优化和规范就成了刻不容缓的事。
要对汉语键盘输入方法进行优化,就要对各种编码方案进行评测。十多年来,国内已经有过十多次较大规模的评测评比活动,国家制订了评测规则的试行草案,并在多次国内和国际的比赛中进行了验证。从现在起,需要在原有的评测规则试行草案的基础上进一步充实、完善,特别是制订汉字键盘输入的语言文字规范和标准,使之成为更为科学实用的评测标准,加强国家评测的权威性和强制性。当然,在相当长的一段时间内,汉字键盘输入方法还不能“万宗归一”;但是,通过集中评测、日常评测和达标检测,在这基础上运用行政的方法,促进技术市场通过正当竞争优化出几种符合规范和标准的优秀方案,是可行的,也是十分必要的。
汉字键盘输入技术的规范化工作应该包括编码规范化、字库和词库规范化和软件规范化三个方面。
为编码规范化,应制订字音、字结构、笔顺、部首、部件、字序、字量等语言文字方面的规范和标准。
词库的规范化同样是很必要的。目前的词库普遍存在着质量差、词库大小不一的问题。在研制词库的工作中有一个误区,似乎词库越大越好,其实并非如此。词库太小固然不敷用户需要,太大就会增加词的重码率,牺牲适应化。诚如有的学者所说,最理想的词库设计应该是通用词库加专业词库和个人词库。根据词频统计的结果和这些年的实践,通用词库以五万词左右为宜。中文信息学会汉编委、标准化与信息分类编码研究所、标准技术开发公司共同研制的《汉字键盘输入通用词语集》是个规模适当、动态覆盖率高的词库,应该尽快确定为国家标准,并每隔一定时间依据实际使用的情况和最新的词频统计加以修订。
中文软件的规范化是最为薄弱的环节,至今还没有形成技术标准。现在汉字键盘输入方法越来越依靠和要求高质量的软件,制定软件的技术标准和规范,提高软件的质量和可维修性,逐步与国际标准接轨,已经成了相当急迫的问题。
2.汉字识别技术
汉字识别可以使汉字的输入实现自动、高速,是有远大发展前景的输入技术。
我国的汉字识别技术到70年代末才起步,但是已经取得了不小的成就。
联机手写汉字识别,即实时手写识别,是一种最简单、除语音输入之外最方便的汉字输入方法,现在已经有了几个初步实用装置,处于手写楷体识别阶段。目前识别字数可达6763一12000个,识别速度与人的手写相当,经常使用的识别率可以达到95%。现在,提高识别软件的学习功能,研制低限制的联机手写识别系统的问题已经被提到专家和企业家的面前。印刷体汉字识别是我国汉字识别技术的主流,已经形成商品,技术指标达到了世界先进水平。其中,多体印刷字体识别系统具有较高的适应性和抗干扰能力,而单体汉字识别系统则识别率更高。今后需要加强实用化的深度和广度,使识别系统的适应性提高。脱机手写汉字识别已有几个实验性系统进行了鉴定,离实用还有一定距离。
基于汉字的特性,发展汉字手写技术,对于信息处理的意义可能要大大超过那些使用拼音文字的国家。因此,应该大力加强这一领域的开发研究。
汉字识别技术的研究,主攻方向有三:一个是充分发挥人工神经网络技术在汉字识别领域中的运用;二是和汉语言学在词法、句法、语义等学科结合,利用词的上下文匹配和基本句法、语义的上下文匹配,来提高系统对实际文本的识别率,三是多种识别方法集成在一起,以提高识别率,降低误识率;同时,随着各种汉字识别系统、软件和装置开始商品化,需要尽快制订科学、实用、客观的评测标准,以保护和促进这一领域的正常发展。
3.语音识别技术
把语音识别技术用于中文信息输入,比键盘输入方便、迅速,在信息化时代必然具有极其广阔的应用前景。
十多年来,我国的语音识别技术已经开始走向应用。不少语音识别系统的识别率已经比较高,其中全音节语音识别系统尤为突出。但是,这一高识别率是以很多条件限制为代价的,例如需要特定的话者,说话方式比较稳定,说话环境无干扰、识别有限的词汇和孤立词等。
今后这方面的研究应在以下几个方面加强:一、识别方法和处理手段的研究。原有的方法需要改进,同时探索新的方法和途径。当前语音识别的三种方法(模式匹配法、隐马尔可夫模型法和人工神经网络法),各有长处和局限。如何把它们结合起来使用,是当前的一项重要课题。引进模糊数学理论在这一领域的应用也是很重要的。语音识别技术中的语音特征参数抽取、时间对准、模式划分问题,可望通过方法的改进获得比较理想的解决。二、加强基础建设,例如建立语音库和语音特征库,研究计算机听觉模型,等等。三、吸收和运用语言学的研究成果。目前语音识别的方法主要是利用语音信号中的声学信息和模式匹配。实际上,语音识别和语音理解一样,还有赖于语言的其他规律,例如词法、句法、语义和语用规则,将对解决语音信号多变性问题具有重要意义。
(二)字符集和编码
自1980年我国发布《信息交换用汉字编码字符集•基本集》(代号:GB-2312·80)至今已经15年了。《基本集》和后来的五个辅助集,为中文信息处理技术的发展奠定了基础,已为社会广泛采用。
但是,由于该字符集研制得早,收字原则研究得不够充分,以致在今天看来收字不尽合理,例如其中有不少“死字”,而一些常用字却未收入;其字形也有不规范处;另外,作为通用的字符集,用于网络通信和国际交流也不能满足需要。
国际标准化组织(ISO)于1993年发布了《信息技术·通用多八位编码字符集(UCS)》国际标准的第一部分,即ISO/IEC10646·1,共20902字。这一标准的制订是多文种信息处理技术的突破性进展,例如在这个标准中世界各种字符统一编码,采用等长架构,一字一码,具有唯一性,不存在中西文兼容问题,这就为世界计算机软件的大统一和国际间的信息交换、通信奠定了基础。此外,这一标准对我国的中文信息处理工作是有益的。例如其中已定义的基本多文种平面(BMP)有6万多编码空间,足以收录世界众多的文字及符号,这对字量庞大的东方各国,特别是中国尤为重要;又如,字符集按文种编码,这样中、日、韩汉字就以现有各标准字符集为源字符集,形成涵盖中、日、韩的统一字汇。
ISO-10646·1发布后,世界各公司竞相进行相应产品的研究和开发,我国也于1994年1月制订出了与之相应的国家标准GB-13000·1。
针对这些情况,我国应在以下几个方面加强研究:修订GB-2312·80字符集;为ISO-10646·1的扩充做好准备,主要是汉字部件、部首和20902字之外的较通用字;防止国外汉字和繁体字、异体字对我国出版物、办公文书的干扰。
这里所说的编码问题,是指汉字内部码,即处理码。
汉字内部码一直缺乏统一的规范和标准,以致形成了汉字内部码的混乱。随着计算机应用从单机到网络、从单用户到多用户的发展以及各种信息系统的建立,内部码的混乱给资源共享造成了困难。1990年“中文内部码与数据类型标准化工作组”初步规定了汉字内部码的编制原则,并确定了两种代码体系的汉字内部码推荐方案。今后需要重点研究汉字内部码的规范化和标准化问题。近期内,一方面要为新代码体系的实现做好准备,以便最终与国际标准接轨,另一方面要尽快拿出汉字内部码的标准,以使暂时不能被取代的旧码从混乱走向规范。
(三)中文输出技术
1.汉字字形技术
近年来,字形技术在国际上取得了突破性的进展,形成了字形信息产业。汉字由于字形复杂,字数多,在采用新技术时有着特有的难点。
汉字字形库,依其描述技术的不同,可分为点阵字库、矢量字库和曲线轮廓字库。我国自80年代初研制点阵字库至今GB-2312·80的点阵字库已经相当完备;90年代初,矢量字库已经用于高档汉卡和激光打印机上;用于高精度印刷的曲线轮廓字库由于汉字的特性而难点甚多,研制工作至今还存在不少问题。作为低档打印和个人使用的点阵字形,在我国还有很大的市场和较久的生命力,随着我国的通用字库向ISO-10646·1靠拢,GB-2312·80的修订,完善点阵字库的任务也应受到重视。
2. 语音合成技术
用于计算机输出的语音合成系统又称为文/语转换系统,它把以文字串形式输入的文本转变为语音形式输出,是应用前景最广阔的语音合成系统。我国从80年代开始研制汉语普通话语音的合成技术,现在已有一些产品问世,但是,这些项目还都是有限词语的编辑合成系统,例如自动报站系统、电话自动拨号、自动查号、自动报时报警等。
在这方面,我们受到了硬件的限制,至今所用的专用软件和开发系统都是进口的。我们期待着早日用上国产的专用集成电路。
无限词语的合成系统,不像有限词语的编辑合成系统那样把特定人的语词发音作数字化编码,建成合成语音库,而是靠语音规则的合成,也就是把语音的更小单位(如音素、双音素、半音节或音节)的声学合成参数储存起来,然后由语音合成器合成为连续的语句。显然,这种系统对语音研究的依赖性较大,还有许多难关需要克服。例如已经进入市场的几个文/语转换系统所带的浓重“机器昧”,就主要是由于对于人的言语机制的复杂性研究得还不够的原故;又如由于人们说话时语音、语调和发声的相互影响,存在着大量的复杂的音变现象,需要在合成过程中模拟这些音变,为此研究者还需付出很多努力。
在语音合成技术领域,我国有着天然的长处:汉语的一个音节写出来一般就是一个字,其中有很多音节(字)也就是一个词;特别是普通话,音节在声学表现上有其相对稳定性;普通话的四声调值差别明显;普通话音节数量较少,不计声调只有400多个,这与英语的4030个、俄语的2960个相比要少得多,因而在以音节或更小的语音单元为语音单位进行合成时,要简单得多。因此,在无限词语的语音输出领域,汉语很有可能要走在西方语言的前头。
(四)基础研究和应用技术
1.语料库建设和开发
为了对语言素材进行自动分类和编排,从中查找各类信息,就需要利用计算机建立语料库。1990年在赫尔辛基举行的第13届国际计算语言学大会,把实现大规模真实文本的处理作为计算语言学今后一个时期里的战略目标。现在,美国、英国、日本、德国等国家相继建立了各自的国家级大规模语料库,有的已经投付使用,提供服务。
近年来,国内的一些单位也相继建立了一些通用的和专用的现代汉语语料库,并在语料的加工技术等方面进行了探索,取得了一定的成果。例如,清华大学的汉语词性自动标注系统,采用一元语法和二元语法相结合的统计模型、108个标记,对汉语真实文本进行标注的正确率达到96.8%。此外,北京航空航天大学、北京语言学院、电子工业部、北京师范大学等单位也分别建成了规模大小不等、取料各异的语料库。这些已经建成的语料库由于宏观管理不力,缺乏统一的规范和标准,普遍存在着语料库的库容量小,取料先期论证尚较粗糙,用途单一,因而不能长期使用的问题。
为适应当前和未来中文信息处理的需要,我国必须尽快建立国家级的大规模通用型语料库。通用型的大规模语料库,可以服务于以下领域:字频、词频统计,词典编篡,语言文字规范化研究,词的切分和属性研究、语法研究,语义研究等;而这些方面的研究,又都直接或间接地对中文信息处理技术有着极为重要的意义。正出于这一考虑,国家语言文字工作委员会自1992年开始即着手建设一个7000万字的现代汉语语料库。这方面的详情我将在下面介绍。
2.汉字属性研究
汉字属性是指汉字所负荷的各种信息,即汉字在字音、字形、字频、笔数、笔顺、部首、结构、部首笔数、部首序号、部件、异体字、编码、电报码等方面所具有的特征。汉字属性系统,是汉字信息处理系统的一个重要组成部分,可以使计算机处理中文信息的功能更为齐全,提高效率,促进标准化。汉字属性的研究和利用是汉字信息处理技术不断深入发展的结果。
建立汉字属性系统的关键是建立一个汉字属性库,也就是汉字属性电子字典,将它改为书面形式,就是汉字属性字典。
自80年代中期,我国相继研制出了一些具有应用价值的汉字属性字典、汉字属性库和汉字属性系统。为了适应未来中文信息处理技术的发展,已有的汉字属性研究还需要进一步拓展和深入。一是汉字属性研究的内容要根据应用的需要不断增加,即汉字属性的项要陆续增添;二是汉字的有些属性,如字频、编码等,要根据ISO-10646·1进行相应的调整、扩充;三是要加强属性数据的维护,在使用过程中随时修正。
3.现代汉语自动分词与分词规范
汉语书面语不像西方文字那样分词连写,词与词之间没有明显的界限,进入计算机后是等距排列的汉字字串序列。而在进行词频统计时或中文信息处理进入到句以上单位的处理阶段时,例如在机器翻译、自然语言理解、文献检索等语言工程中,都需要一个个词分开。自动分词,即用计算机把语料按词切分开,注上切分标记。
我国的自动分词技术已经比较成熟,一些自动分词系统已经达到实用水平,切分精度超过了99%。但是,要在这基础上把切分率再提高哪怕一点点,还要付出很大努力。现在切分的错误90%以上发生在“交集型歧义字段”上。所谓交集型歧义字段,是与“多义组合歧义字段”相对而言的,前者是指字段“AB”,“AB”成词,“A”和“B”也独立成词;后者是指字段“AJB”,既可分为“AJ/B”,也可分“A/JB”(J为交集字串)。显然,要解决这个问题,关键不在计算机的技术方面,而在语言学。现在,语言学对词的研究还没有给中文信息处理提供足够的工具,例如对“什么是一个词”的研究,至今还没有一个差强人意的成果。
词的切分对规范化的要求很高,现在《信息处理用现代汉语分词规范》已经成为国家标准,为中文信息处理提供了一个可供应用的分词原则。目前急需制订一个实例化的分词词表,以便于按这一《规范》操作,在运行过程中,对《规范》进行检验、修订和完善。
3.电子排版系统和文字处理机
国外的电子排版系统如果从1949年美国发明手选或照排机开始算起,到1976年英国研制出激光照排机,共用了近30年,经历了手选、光机式、数字化点阵式和激光照排四个阶段。我国电子出版系统的研制始于1978年,越过了西方所走过的第二、第三个阶段,只用了十几年就在许多方面达到了世界第一。现在,我国的电子出版系统面临着国外先进的字形描述技术及硬件进步的挑战。今后必须在页面描述语言和字形技术方面向国际标准靠拢,以便保持我们的优势和良好的发展势头。
二
加强中文信息处理和语言文字学研究的结合
中文信息处理的高级阶段是自然语言的自动处理,特别是大规模真实文本的自动处理。为达到这一目标,一方面需要计算机硬件和软件的研制,另一方面,需要语言学对计算机所需要的语言知识进行深入的研究。到目前为止,在中文信息处理技术的许多方面,都利用了语言学的研究成果。例如在字处理阶段,汉字键盘输入方法中对汉字的拆分、字的属性分析,字形输出技术中的汉字字形技术、字库的建设,都包含着汉字学的许多成果;在词处理阶段,更依赖汉语语言学对词法、词的属性和词义的分析等。在今后的句语处理阶段,句法、语义、词语搭配等知识尤为重要;在语音识别和语音合成技术中,不仅需要语音学,也离不开词法、句法、语义和语用知识;此外在建立语料库的工程中,也处处要求语言学提供规律、理论和假设。总之,中文信息处理技术每前进一步,都需要汉语语言文字学的支撑,而且中文信息处理越是向高层次发展就越需要语言文字学研究的深入。
虽然在过去的十几年里中文信息处理技术利用了不少语言文字学的研究成果,但是当信息处理进一步发展的时候,语言文字学的研究现状已经不能满足信息处理的需求。我国的语言文字学界,一直重视对语言文字的基础性研究。研究的特点是:重语言事实,理论建设比较薄弱;主要是定性的研究,定量研究较少;基本上着眼于为人的理解服务,很少考虑到为人——机关系服务;在所研究的各部门中,重视语法和语音,轻视词汇和词义;所用的方法大多是直接或间接地引进、借鉴基于印欧语系的西方语言学方法,还没有形成由汉语研究中逐步形成、非常适合汉语的研究方法。
现在,中文信息处理急需汉语言文字学的帮助。就我浅薄所见,当前就需要以下课题能够尽快取得突破性的进展:
字的属性(特别是结构、部件、部首)
词的界定(与词素、词组的区分)
词义(义素及其分类,语义场)
词的属性(特别是词性、词的“兼类”)
词的切分
词的搭配(合法同现)规则
词组(短语)的界定
词组的构成方式和规则
时、体、量等广义形态
同音词
句法规则
句型统计
句法树
歧义句
语音(大规模字库的审音、音素音位、语流)
语义(概念的语义属性、句义、格——价、句间关系)
语用(特别是语体、风格、环境等)
………
例如,现在的编码输入方法,要使词语处理技术完善,就要在大规模语料库的基础上完成自动分词、词频统计的研究,而这就需要词法、词语搭配、语义和语用的基础研究;中文信息处理,最终一定要走到真实文本的自动处理和语音输入和输出这一步,在这艰难过程的每一个阶段,或者说每前进一步,都需要几乎全部的语言学知识。
当前的语言学研究虽然还很少考虑到计算机的需要,但是,由于语言学家们一直在用尽可能科学的方法描写和分析语言事实,所以所得的实际成果有些已经与计算机的需求很接近。在这里我想举几个例子说明。在传统语义学中,研究的对象不但局限于语义单位(词义),而且一直把词义当作一个囫囵的整体,也很少涉及语义系统。现在学者们已经相当普遍地认识到研究词语结构和意义的重要性,整个语言可以说是就是词汇——语法系统;汉语词的语义特征包括了词汇语义特征和句法语义特征,而在后者之中又包含了凭借语法手段的“显性特征”和通过结构中词语间语义关系确定的“隐性特征”;同时还注意到语义特征的多义性、层次性、相关性、成对性和对立性。学者们呼吁在语义研究中要寻求形式化的方法。这种探索和中文信息处理所需要的电子语义词典的要求不是已经很相近了吗?
受西方语义学的启发,我国语言学界已经比较广泛地把义素分析法和语义场理论用于对汉语的分析,即已深入到词义的内部,并把分析归纳汉语语义的系统提到了日程上。义素分析法通过比较,找出一个个词义(义位)的构成成分(义素)的结构形式,实际上是把概念分解为最小的要素,并可以把它形式化。例如如果把“发展”一词在词典中的解释转写成该义位的结构式,就是这个样子:
词典释义:事物由小到大、由简单到复杂、由低级到高级的变化。
义素分析:〈d〉x(变化)zh(事物)fa{[(小)→(大)][(简单)→(复杂)][(低级)→(高级)]}
语言中的义素要比义位(义项)少得多,如果我们把大量的词义一个个做形式化的描述,最后就可以得出汉语的义素总数和分类情况,这无疑将对计算机用有限的义素对无限的词语进行自动分析、简化语义描述有很大的帮助。当然,这样巨大的工作量也需要借助于计算机,否则是不可想象的。
语义场理论则把一种语言的语义看成是由若干义位组成的一个大系统(最大的语义场),在这大系统内包含着大量不同层级的小系统(子语义场),在一个语义场内部,各个义位间有着互相规定、互相制约、互相作用的关系。例如有关“人体上身动作”的常用语义场,就是下面的情形:
┌ 手的动作 ┌徒手动作子语义场
| 子语义场 └非徒手动作子语义场
|
| 臂的动作
| 子语义场
|
人体上身动作 |
语义场 |
│
| 肩的动作
| 子语义场
│
│ 背的动作
└ 子语义场
在每个子语义场内,又可以分出若干枝干、同义、反义、分类等更小的子语义场,每个更小的子语义场里有若干义位。(以上举例均参考贾彦德《汉语语义学》)循此以往,当我们摸清楚了汉语语义场的面貌后,可不可以在计算机里也建立语义场,以供语言材料的自动处理呢?
显然,义素分析法和语义场理论都非常重视语义的系统性和形式化,二者的有机结合就可以使似乎杂乱无章的语义变得有规律可循,有形式可见,使语言学研究的结果有可能为计算机所使用。
义素分析法和语义场理论(特别是前者)在我国语言学界并没有得到一致赞同,原因大概是语言研究者习惯于凭自己的语感对语言作出一般性的判断,同时,介绍和研究这两种学说的论著还基本上停留在理论探讨、举例说明的阶段,还没有人对大量的语言事实进行系统地逐个分析和归纳,这就难免给人以没有实用价值、故弄玄虚的感觉,引发出不同的意见。但是从计算语言学的角度看,或许这样研究的结果正是机器所需要和所能接受的。而当语言学家和计算机专家结合,把这方面的理论和方法用于相当数量语料的分析,初步得出汉语句型网络和汉语语义网络、义素项的基本范围时,就会使这些理论和方法得到检验、完善,同时可以向更多的人证明这两种方法和理论的价值。
又如,在语法研究领域,现在已经突破了传统语法以规则为基础的成分分析方法,和以“话题”(主语)为主、对句子进行二分的习惯,并开始运用层次描述、定量研究、归纳研究的方法,既研究通例又注意“例外”。现在,语法学界普遍注意到,研究语法不能不管语义,所有的句法范畴无不来自语义范畴。并且注意到,句子的组成成分之间的语义关系是有层次的。不少语法学家把表示行为、动作、联系、性状等的谓词当作分析句法和句义的核心成分,肯定了谓词对句义结构类型的决定性作用,分析了句子结构的分层向核性。有的学者研究了通过交换(transformation)找出存在于两种结构不同的句子之间语义的依存关系。有的学者指出,要区分符合客观的句型,就必然要从句法平面扩展到语义、语音,最后也必然延伸到语用平面。有的学者努力于建立汉语语法句型系统,其中有人使用演绎法,有人使用归纳法。语法研究的诸如此类的收获,应该说与中文信息处理专家们所期望的句型分类体系、句法语义分析规则库距离已经很近,有的甚至可以说彼此之间只隔着一层窗户纸了,正等待着一种机会、一种机制、一种力量把它捅破了。
语言学界无论是对语义、句法还是对词类的研究,由于还没有很多的定量分析的验证,所以有很多意见还是一种假设。科学研究的规律常常就是先从部分事实得出一些初步结论,然后把这些结论作为假设拿到更广泛的事实范围中去使用,使用的过程就是验证、充实、修订、完善的过程。如此周而复始,研究和使用范围越来越大,理论和方法越来越成熟。因此我设想,如果中文信息界和语言学界联起手来,由中文信息专家把语言学家研究的结果改造为计算机所需用的可计算的模型,到机器上去检验,同时语言学家向中文信息专家了解计算机的需要,改进自己的研究,那么,经过一段时间,极有可能会得到可观的收获。例如建立一个概念分类体系,给出词典中每个词条的每个义项(义位)的语义描写,编制语义电子词典;在语法、语义研究的基础上建立语法树,给出结构的和语义的信息,研制语法电子词典。这些成果的获得,绝不是什么遥远的事。这可真是“合则双美,分则两伤”。我甚至有一种预感,一旦语言学家和计算机技术结合起来,所带来的不仅是中文信息处理事业的顺利发展,而且有可能引发语言学研究的一场革命,从而语言科学真正成为先导性的学科,走在科学技术发展的前列,受到全社会的重视。
为了达到这样的目的,我认为当前有以下几件事情要做:
一、“九五”期间,在国家项目中组织中文信息界和语言学界(有时还需要心理学界、语文教学界参加)共同攻关,就词类、词的属性、词的搭配、词语同现,句法规则、句型系统,语义结构、语义层级、语义网络等基础问题和应用问题协作研究。同时,上述这些课题之间,特别是研究字、词、句的课题之间,研究语法规则和语义的课题之间要横向统一协调进行。道理很简单,因为这些研究对象之间是相互勾联、密不可分的。
二、在一些单位有计划地由两方面专家联合培养研究生。应该承认当前学术界的现实,由于年龄和知识结构的局限,要让不同界别的学者成为"两栖"专家,是十分困难的。我们应该寄厚望于年轻一代,为十年后、二十年后准备大批新型人才,为那时中文信息处理的更快发展做好准备。
三、建立一个跨学科的民间学术组织,通过学术会议和论文交流,经常沟通研究信息,共同研究问题。为了沟通交流的方便,我甚至设想在这个学术组织内可以定期举行沙龙式的座谈会。有空则来,无闲则否,有话则长,无话散伙。
总之,现在必须有组织、有计划地为汉语言学界和中文信息界搭起一座桥,使双方在很大的范围内走到一起,不但一起解决当前中文信息处理所遇到的语言学瓶颈问题,而且促使语言学的研究更面向实际,面向现代化,并进而培养出一批高水平的跨学科人才。
三
国家语委将为此努力工作
国家语言文字工作委员会是国家管理全国语言文字工作的行政职能部门。几十年前,当国家语委的前身中国文字改革委员会成立的时候,我国的信息载体主要是口头语言和汉字,所以文改会所承担的任务是推广普通话和推进社会用字的规范化。改革开放以来,汉字编码输入方法得到迅速发展,计算机成了中文信息的重要载体和传输手段,而且越来越显示其在社会发展中的重要作用,中文信息处理中的规范和标准问题已经越来越重要。因此,国务院将管理中文信息处理中的有关工作,包括计算机所用的语言文字规范化和标准化工作列为国家语委的职责之一。
国家语委所管的另两个领域是推广普通话和管理社会用字(影视屏幕用字、出版物和印刷品用字及公共场所用字)。虽说这两个方面和中文信息处理工作是并列的,但是工作的内容和方式也无不受到中文信息处理技术的影响。例如,在推广普通话工作中,计算机是重要的教学和测试工具,计算机的进一步普及将是推广普通话的巨大动力,而普通话的推广又会反过来推动计算机的普及和技术的发展。又如,社会用字除手写的以外几乎都出自制字机、字幕机。反过来看,中文信息处理中的语言文字规范,又需要时时考虑到推广普通话和社会用字的需求。所以我个人认为,在改革开放的时代,在科学技术特别是电子技术高速发展的时代,我国的语言文字工作,必须要紧紧抓住中文信息处理这个龙头。
为了加强中文信息处理中语言文字规范工作和组织协调工作,国家语委调整了司局建置,成立了中文信息司。目前中文信息司的主要工作有以下几项:
1.组织领导国家级语料库的建设和开发。这一语料库在极为困难的情况下,经过一年多的奋斗,已经完成了2000万字核心语料的录入、校对、调整工作,现在正多方争取资金,准备于明年初开始其余5000万字的录入。为把语料库开发为熟语料库所需要的研究工作也已经开始。
2.领导制订和中文信息处理有关的各项语言文字标准和规范。现在已经开始研制的有:汉字部件、笔顺、词性标注、常用词表、键盘输入评测标准等。
3.调查中文信息处理中的语言文字问题状况并研究对策。
4.有关中文信息处理的语言文字技术产品的审查工作。
除此以外,国家语委还有一些工作与中文信息处理有着密切的关系。例如,对ISO-10646·1中的中国所用汉字(17000多),将一一审音, 这将对键盘输入中的拼音输入和语音输入、输出产生影响;又如,根据2000万字核心语料库得出的字频统计,可能将是修订GB-2312·80字符集的重要依据,也将是在1SO-10646·1的基础上研制分级字库的参考;等等。这里不再一一列举。
为了加强中文信息界和语言学界之间的联系,国家语委语言文字应用研究所准备在今年年末倡议成立“中国应用语言学学会”,今后将由这个学会把从事语言学、计算语言学、心理学、语文教育学、应用语言学理论等方面研究的专家学者联系起来。在学会中将组成计算语言学、语言教学、社会应用语言学和应用语言学理论四个委员会,而且将把语义的研究放在讨论的第一位。
中文信息处理,是一门多学科、跨学科的技术,语言文字问题,只是其中的一环,一个方面。国家语委是国务院管理语言文字的行政部门,在中文信息处理技术中,只能就其中语言文字的规范标准问题、加强语言学界和计算机界之间的联系和合作做些力所能及的工作。今后几年是中文信息处理发展的关键时期,虽然眼前的因难很多,但是机遇也是空前的。中国是汉语汉字的故乡,中国的科学家是中华文明的传承者、汉语汉字的研究者。在中文信息处理领域,进而在未来的计算机和其他高科技领域,中国人必须超过其他国家,也一定会超过任何国家。为了这一天,付出什么样的代价都是值得的。
选自:《未成集——论新时期语言文字工作》许嘉璐著 |
|