湘里妹子学术网

 找回密码
 注册
查看: 3423|回复: 1

计算机时代汉语语法研究的特点

[复制链接]
发表于 2003-12-25 16:39:57 | 显示全部楼层 |阅读模式
--------------------------------------------------------------------------------------------
作者:亢世勇
来源:http://icl.pku.edu.cn/research/p ... on-4/06jisuanji.htm
北京大学计算语言学研究所访问学者
烟台师范学院中文系



摘要:计算机时代,汉语语法具有新的特点,语言学家要了解计算机,关注计算机对语言的需求,并利用计算机进行语言研究。



Features of the stady for chinese grammar in the current computer age

Kang Shiyong


Abstract: author represents that studing for chinese grammar is obviously different from past in ear of computer from following aspects:studing for chinese character should be organically combined with application of computer. Overall and systematic information and data should be obtained. Information and data should be used quickly. And the qualitative study should be connected with quantitative study.



进入计算机时代,汉语语法研究具有了明显的不同于以往的特点。表现在以下几个方面。



一、汉语汉字的研究应和计算机应用有机地结合起来



   (1)只有和计算机应用有机地结合起来,汉语的研究才能更全面、更深入、更细致。

北京大学计算语言学研究所俞士汶、朱学锋等先生历时12年研制开发的电子词典《现代汉语语法信息词典》,主要是为计算机分析和生成汉语句子服务的,因而确定词的语法属性项目的基本原则就是自然语言处理程序的需要,即:一方面帮助分析程序消解自然语言固有的或机械处理所引发的的歧义,另一方面也帮助生成程序产生通顺的句子。这样所确定词的语法信息主要包括词法信息、句法信息、语义信息、照应信息。词法信息主要包括词的重叠形式、前接成分、后接成分、单纯词或合成词。句法信息包括每个词语与其他类的词语或某些特定词语构成合法的句法结构的能力以及每个词语充任不同句法成分的能力。比如动词有:能不能直接受名词修饰、能不能直接修饰名词构成偏正结构,能不能受“不、没、很、正、正在”的修饰构成状中结构,后能不能接“着、了、过”,“动词+宾语”能不能变换为“介词+宾语+的+动词”的形式,能不能带体宾、谓宾和准谓宾,能不能带双宾语,能不能构成兼语句,是否要求复数主语,能不能单作主语、谓语、宾语、状语、补语等。语义信息包括词语的义项、时间词的时态、动词的语义角色等。照应信息指在句子中具有照应关系的词语,比如介词“在”的后照应词有“上、中、下”等[1]。可见这些词的语法属性几乎涉及到了词语在句子当中所可能具备的所有句法特征和部分语义特征。从收词来看,截至95年收词5万多条,共设立语法属性字段400多个,信息总量为2520026。1999年6月底将扩展到7万多条。该词典是迄今为止国内外对汉语词语语法信息描写最全面、最深入、最细致的一部词典。1995年通过电子部组织的技术鉴定时,鉴定意见认为:“《现代汉语语法信息词典》对真实文本的覆盖率高,所采用的词类体系反映了汉语语法研究的最新成果,实践证明这个体系是可操作的,对语法属性的描写非常深入、非常丰富,具有较高的权威性、可靠性,该词典的规模、深度与质量在我国语言工程实践中是前所未有的,达到了国内外领先水平。”[1]除此之外,董振东的语义信息词典[2]、黄曾阳的“HNC(概念层次网络)理论”[3]对词语语义信息的描写以及词语的概念网络描写也是相当全面、深入、细致的。我们感觉到对汉语本体的研究不管是句法研究还是语义研究,由于计算语言学界的研究是从实际需要出发的,往往需要做一些大型的系统的语言工程,这就决定了他们的研究更全面、更深入、更细致。某些方面甚至走在了语言学界的前面。

    (2)只有和计算机应用相结合才能发现语言研究自身所存在的问题,取得新的研究成果。                  

理论语言学的研究往往是从某一种理论出发,搜罗部分语言现象加以证明,又由于受到语言学家的观念的影响和研究条件的限制,对同一语言现象往往各执一端,意见分歧,仁者见仁,智者见智,在这种情况下所得出的结论到底有多大的覆盖面,有多大的适用范围,有多大的准确性,很难客观地评价,其局限性也很难发现。只有和计算机应用结合起来,经过实际使用,才能客观地评价这种理论,并发现不足,推动研究的发展。比如人们在进行汉语的自动生成时,起初以为“把”字句的作用是把及物动词的宾语提前。当把这样的条件写到程序中时,凡是及物动词的宾语都用”把”字提前了,结果形成了通篇的把字句。实践使中国计算语言学家认识到,把字句的出现条件不只是及物动词的宾语提前,还有更为严格的条件:①“把”字组成的连动结构,其中的动词不能是单音节或双音节动词,而是一个比较复杂的动词组合;②“把”字的宾语在语义关系上是后边动词的受事,而不是一般宾语;③“把”字的宾语在意念上是确定的、特指的。将这些条件交给计算机,计算机生成的“把”字句基本上都是正确的。后来,计算语言学家进一步把上述条件概括为:凡是受事主语句,都可以在其主语前加“把”字形成把字句。如“门开着”“门关了”等受事主语句,都可前加“把”形成“把门开着”“把门关了”。找出像这样准确性更高的条件,就能更好地通过简单的程序来有效地控制把字句的生成了[4]。 Sino Trans机器翻译系统的设计者根据语言学家黎锦熙的句本位学说,提出了汉语完全语法树的概念,这种完全语法树可以表达所有可能出现的汉语陈述句型,并且该系统还建立了属性制约原则和属性制约文法,这就使研究者有可能进一步通盘研究汉语句型,不必再像传统的汉语语法研究那样只局限于使用枚举例句的方法来概括语言的规律;完全语法树还清楚地表示了句子的自动分析和生成过程,明确了句子内可以递归的部分和递归的内容,为在理论上深入研究汉语理解的实际过程提供了线索。研究者们还进一步认为国内汉语分析中广泛使用的二分法不符合人们构思句子和构造句子的过程,不利于不同语言之间的形式转换,也难以分析汉语中的兼语式、连动式、双宾式等特有句式。句法分析应该多分,而不是二分,二分法只是多分法中的“多”取值为“二”时一种情况[5]。袁毓林先生从计算语言学的角度来进行汉语研究,颇多新颖之见[6]。

(3)只有和计算机应用相结合,研究成果才能更有实际价值。

九十年代初,人们总结现代汉语语法研究时,有人曾指出目前语法研究远离实际应用,不仅使教、学语法的人很失望,而且使计算语言学家也很失望,所以有不少人提出要淡化语法。北京大学计算语言学研究所的《现代汉语语法信息词典》是为中文信息处理使用开发研制的,它适合于中文信息处理中的句法分析、句子生成、中文输入、汉字识别的后校正、语料库标注、文本校对等,还可向综合型知识库发展。因此,有很大的实用价值,产生了良好的社会效益和经济效益。“八五”期间就为“军用文电理解技术及支撑环境”项目中的汉语句法分析及语义词典的研制提供了重要的基础。近两年来,美国、德国、韩国、香港和国内的大学或公司先后二十几家购买了词典的许可使用权,获得了比较可观的经济效益。用户报告反映了该词典在汉语机器翻译、语音识别、信息过滤、中文文本处理等不同领域的成功应用,充分肯定了词典的价值和质量,认为“不愧是国内外领先水平”[7]。1998年12月获得教育部科学技术进步奖二等奖。该词典在汉语教学中也具有很大的、潜在的应用价值。同样陈肇雄的机器翻译研究和他的袖珍翻译机在一定程度上服务了社会,也曾使他获得了丰厚的利润,发展了自己的事业[8]。



二、必须全面系统地占有资料



这些资料包括语言研究文献资料和语言事实两部分。我们只有全面系统地占有了文献资料,我们才能把握目前语言研究的动态,做到心中有数,有的放矢。在继承前人研究成果的基础上,进行有价值的研究,推动语言学的发展。否则,就必然会出现重复劳动,造成不必要的浪费,限制我们的进步。任何一项科学研究都是建立在大量资料之上的。资料占有的完备性,取样的准确性和使用的有效性是科学研究的一个基本条件和前提条件。语言学研究也是建立在大量语料基础之上的。只有全面系统地掌握了语料,我们才能从中概括出涵盖范围广、解释力强、较为科学的语言规律。否则就可能出现以偏概全,研究结论缺乏说服力。特别是对于中文信息处理来说,语言规则对真实文本覆盖率高低是衡量这种规则的科学性的一个重要指标。吕叔湘等老一代学者一再强调要重视语言事实,深入挖掘和整理语言事实。而要全面系统地占有资料,就必须依赖现代化手段计算机所提供给我们的文献自动检索和大规模的真实文本语料库。否则,那只能是一句空话。   



三、快速高效地利用资料



现代信息社会中,信息的增长非常迅速。经济信息的有效期一般为1至4周,短的甚至以秒计。语言研究信息尽管没有经济信息那么强的时效性,但是其变化也是相当快的。面对浩如烟海又瞬息万变的信息世界,我们只有快速高效地利用资料才能走在语言研究的最前沿,在较短的时间内取得较多的、较科学的研究成果,推动语言学事业的快速发展。有人指出,在当今信息社会,作研究也要改变方法,即以写带读,为了“写”去“读”,在“写”的时候,快速地获取所需的各种资料,这样才能保证早出成果、快出成果、出好成果,才能跟得上时代的发展。古人的那种皓首穷经、“读书百遍、其义自见”的治学方法已远远地落后于时代。而要快速高效地利用资料,同样依赖于文献自动检索和大规模的真实文本语料库。有了语料库和文献库,我们不但可以自动检索、统计,而且可以自动抽取所需的文献资料和语言事实,这样就可以缩短工作时间、提高工作效率,以往用一年两年的时间完成的工作现在用一两个月就有可能完成。利用现代化手段可以推动语言研究快速发展。   

以上两方面如果说以往由于各种条件的限制还很难实现的话,那么进入信息时代,随着计算机技术的发展和普及,以及可供利用的信息资源日益增多,将成为可能。就目前来看,还需要进一步加快语言学专题文献数据库和大规模真实文本语料库的建设,这样才能满足信息时代语言研究的需要。



四、定性研究与定量研究相结合



    吕叔湘先生曾经说过:不记得哪位科学家说过一句话,科学界已经公认了,就是科学研究的结论最后表现为数字。这适用于自然科学,但是对一部分社会科学也适用。语言现象一部分也可以表现为数字,虽然不见得都可以表现为数字。所以不要小看数字,数字很能说明问题[9]。于根元先生指出:当某种语法现象有不止一种意义或用法时,如果不作大量的调查统计,凭感觉论断,有可能把常见的当例外,忽略掉一些能反映重要规律的现象。运用统计方法能避免这方面的疏漏,发现过去这方面的疏漏,得出比较可靠的结论。可以避免某些论文“有时这样,有时那样”,“一般、往往、经常、多”的有弹性说法[9]。总之,定量的统计研究与定性研究相结合可使语言研究更具体、更准确。以往有不少人应用定量的统计分析方法进行过研究,取得了一定的成绩,但由于利用计算机不够,工作量很大,限制了这方面的长足发展。如果说定量统计分析在以往的语言研究中还只是一种可有可无的手段的话,那么进入今天的计算机时代就成为一种必需。计算语言学要求人们利用计算机对语言文字进行各种定量化与精密化的研究,目的在于根据量的描述给出质的评价,即依靠定量分析得出定性分析,从而获得准确科学的语言知识,为计算机服务[10]。目前,统计分析方法,几乎运用到计算语言学的各个方面,成为一种不可缺少的方法。北京大学计算语言学研究所承担的“九五”国家哲学社会科学语言学重大课题“信息处理用现代汉语词汇研究”的子课题“现代汉语词的语法属性研究”以《现代汉语语法信息词典》的已有成果为基础,以大规模的真实语料的统计数据为基础,用概率值描述词的语法属性,这将是一项全新的工作[11]。语言学家必须认识到定量统计研究的重要性,在定性研究的同时自觉地运用定量研究,将二者有机地结合起来。目前计算机技术的发展以及大规模真实文本语料库建设的发展为人们进行定量研究提供了便利的条件,进行大规模的定量统计研究也有了可能。

计算机时代汉语语法研究的特点,要求语言学者能了解计算机,在研究当中自觉地密切注意计算机的需要,并利用计算机进行语言研究。只有这样语言研究才能更符合时代的要求,更符合科技发展的要求,才能更有价值。



致谢:本文初稿写成后导师俞士汶教授作了非常细致的修改,在此表示衷心的感谢。



参考文献

[1]俞士汶等,《现代汉语语法信息词典详解》,清华大学出版社,1998年4月

[2]董振东,知网讲座,内部资料

[3]黄增阳,《HNC(概念层次网络)理论》,清华大学出版社,1998年11月

[4]转引自姚亚平的《中国计算语言学》,江西教育出版社,1997年5月

[5]吴蔚天、罗建林,《汉语计算语言学》,电子工业出版社,1994年7月

[6]袁毓林,《语言的认知研究和计算分析》,北京大学出版社,1998年10月

[7]《现代汉语语法信息词典》用户报告,内部资料

[8]王凡,陈肇雄和他的智能型机器翻译研究,《语文建设》,1993年3期

[9]于根元,在探索中前进,载龚千炎《中国语法学史稿》,语文出版社,1987年12月

[10]黄昌宁,计算语言学简介,《语文建设》,1992年第2期

[11]俞士汶、朱学锋、李峰,现代汉语词语的语法知识描述,邹家彦主编,《汉语计量与计算研究》,P353-372,香港城市大学,1998年国际会议论文集





发表于《术语标准化与信息技术》,1999年第2期,总第14期
发表于 2003-12-27 15:11:10 | 显示全部楼层

汉语研究存在的问题

很感谢湘里妹子、梦的轻波、柴禾妞等朋友们为我这个板块搜集了那么多资料。由于我太忙,没时间搜集资料,以后还望朋友们继续努力支持。尤其希望大家多提意见。
我这个人好自以为是,好挑刺,见到什么觉得不对劲,就好发议论。这回又要自以为是了。
本文作者提出的意见不能说有什么毛病,就是觉得还没有说到点子上。
目前国内自然语言处理方面没什么值得称道的成果,说得不客气一点,没什么起色。去年参加在北大举行的中日自然语言处理专家研讨会,得到一本近500页的论文集,实在乏善可陈。
其所以这样,我觉得主要有以下几个问题:
1)汉语学家没有从传统语法解脱出来,语法三个平面和三角论在当时算是创新,现在从语言计算机处理的角度看,已经过时了。有一位三流业余学者(他是我的朋友,不介意这么贬低他)提出语言链论,认为语言是由载体链、语义链、逻辑链和语用链组成的树状链式多维网络结构,解释了句法语义关系上的很多问题,尤其是计算机理解自然语言面对的很多问题,由于这种结构跟大脑神经网络存储和处理信息的机制一致,可以用计算机树状链表存储和处理信息,应该是值得重视的语言学成果。但是语言学界没有重视这个问题。
2)语言学界也好,语法学界也好,大都跟在国外学者后边跑,人云亦云,缺乏创新意识。
3)国家对学术杂志财政支持不够,以致发表论文必须交版面费。你得不到研究基金,你就得自掏腰包,谁消受得起?
我那位朋友,去年得到一个大学举办国际汉语教学研讨会的通知,寄了一篇论文去,,论文被录取,马上就收到必须付400元会费的通知,言明不交费论文不登载。虽然肉痛,因为是国际级,他也只好照付。
还有其他种种弊端,下次再说。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-26 01:38 , Processed in 0.077320 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表