|
作者:国家语委语言文字应用研究所 冯志伟
来源:http://www.edu.cn/20011114/3009725.shtml
------------------------------------------------------------------------------------------
传统的语言研究是为语言教学、文献整理、社会历史研究服务的。这样的研究完全是面向人的,这样的研究搞了近两千年,已经取得了可观的成绩。
电子计算机出现以来,人与计算机之间要进行信息的传输和交流,因此,除了继续进行面向人的语言研究之外,还要开展面向计算机的语言研究。学者们开始采用计算机技术来研究和处理自然语言,在计算机上建立各种自然语言处理系统。
面向计算机的语言的研究是本世纪五十年代才开始的,四十年来,这项研究取得了长足的进展,成为了一门重要的新兴学科--自然语言处理。
计算机对自然语言的研究和处理,一般应经过如下三个方面的过程:
第一,把需要研究的问题在语言学上加以形式化(linguistic formalism),使之能以一定的数学形式,严密而规整地表示出来;
第二,把这种严密而规整的数学形式表示为算法(algorithm),使之在计算上形式化(computational formalism);
第三,根据算法编写计算机程序,使之在计算机上加以实现(computer implementation)。
因此,为了研究自然语言处理,我们不仅要有语言学方面的知识,而且,还要有数学和计算机科学方面的知识,这样自然语言处理就成为了一门界乎于语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域。
面向计算机的语言研究首先是从机器翻译系统的研究开始的。1946年电子计算机刚一问世,人们在把计算机广泛地应用于数值运算的同时,也想到了利用计算机把一种或几种语言翻译成另外一种语言或另外几种语言。从50年代初期到60年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果。60年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。许多学者认为,断定计算机是否理解了自然语言的最直观的方法,就是让人们同计算机对话,如果计算机对人用自然语言提出的问题能作出回答,就证明计算机已经理解了自然语言,这样,就出现了“人机对话”系统(或“自然语言理解”系统)的研究。自然语言处理的理论和方法也就在这些具体的研究中逐渐形成、成熟并完善起来。
机器翻译系统的研究是面向计算机语言研究的一个历史悠久的部门。
关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。当时,人们曾经试图设计出一种理想化的语言来代替种类繁多形式各异的自然语言,以利于在不同民族的人们之间进行思想交流。曾提出过不少方案,其中一些方案就已经考虑到了如何用机械手段来分析语言的问题。
本世纪三十年代之初,法国科学家阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法。
1933年,苏联发明家特洛扬斯基(П.П.ТРОЯНСКИЙ)设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。但是,由于三十年代的技术水平还很低,特洛扬斯基的翻译机没有制成。
机器翻译系统的研制是从四十年代末期开始的。可以分为草创期、复苏期、发展期三个时期。
(1)草创期(1954年-1970年):
1946年,美国宾夕法尼亚大学的埃克特(J. P. Eckert)和莫希莱(J.W.Mauchly)
设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑翻译技术的革新问题。因此,在电子计算机问世的同一年,英国工程师布斯(A.D.Booth)和美国工程师韦弗(W.Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份以《翻译》为题的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还有两点值得我们注意:
第一,他认为翻译类似于解读密码的过程。他说:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”
第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一“通用语言”(Universal Language)或“中间语言”(Interlingua),然后转换为语言B,这种“通用语言”或“中间语言”,可以假定是全人类共同的。
可以看出,韦弗把机器翻译仅仅看成一种机械的解读密码的过程,他远远没有看到机器翻译在词法分析、句法分析以及语义分析等方面的复杂性。
由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。
早期机器翻译系统的研制受到韦弗的上述思想的很大影响,许多机器翻译研究者都把机器翻译的过程与解读密码的过程相类比,试图通过查询词典的方法来实现词对词的机器翻译,因而译文的可读性很差,难于付诸实用。
1964年,美国科学院成立语言自动处理谘询委员会(Automatic Language ProcessingAdvisory Committee,简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为《语言与机器》的报告,简称ALPAC报告,对机器翻译采取否定的态度。报告宣称:“在目前给机器翻译以大力支持还没有多少理由”;报告还指出,机器翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。
在ALPAC报告的影响下,许多国家的机器翻译研究走向低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。
不过,尽管在萧条时期,法国、日本、加拿大等国,仍然坚持着机器翻译研究,于是,在七十年代初期,机器翻译又出现了复苏的局面。 |
|