机译评估方法评述及一个基于测试集的自动评估系统—MTE的进展*

虎子 · 发表于 2005-1-27 00:02:37

作者：罗爱荣段慧明
来源：http://ling.ccnu.edu.cn/message/yyxlwx/collection-2/compu.htm

关键词：机器翻译评估、自动评估

一.  机器翻译评估研究的发展以及现状

机器翻译评估与机器翻译是相辅相成的，机器翻译的发展决定了机译评估的进展，反之机译评估又促进机器翻译的发展。五六十年代机器翻译研究蓬勃兴起，机译评估也由此诞生。1959年，Bar-Hillel发表了“美国与英国机器翻译现状的报告”，翌年他又发表了著名的“自动翻译语言研究的现状”，在这篇报告中，他评价了美国、英国、前苏联、意大利以及以色列机器翻译研究的情况，最后得出一个悲观的结论，即完全自动的高质量翻译(FAHQT)是不可能实现的(Bennet,1994)。因为Bar-Hillel的报告中没有提到任何评价标准，所以真正的有重大影响的机器翻译评估应该始于1966年的ALPAC报告。这个报告从以下几个方面评价了机器翻译: (1) 机器翻译的花费以及对机译的需求。(2) 对翻译人员的需求。(3) 一些机译系统的译文质量。(4) 译后编辑的花费。(Pierce & Carroll, 1966)。ALPAC中所采用的评估方法现在还具有很高的实用价值，但具有讽刺意味的是，正是这第一个机译评估报告否定了机译研究，导致机器翻译停滞不前。直到七十年代末机器翻译研究才有所恢复。所幸的是八十年代，机器翻译又开始蓬勃发展，机译评估也随之发展迅速。人们逐渐认识到ALPAC报告是存有偏见的，比如说它比较机器翻译与人译的费用并且批评机器翻译需要译后编辑，但实际上，ALPAC报告没有注意到这样一个事实，即机译和人译各司其职，机译可帮助提高翻译效率，应用于翻译大量科技文献及模式较固定的文章，而人译应集中于有创造性的作品，譬如文学作品等。也许机译在研制过程中以及使用初期花费较高，但从长远来看，它还是省时、省力、省财的。因此，八十年代有人提出机译评估系统应是适用范围广、客观的、应该能用来比较各个机译系统而不是单纯比较人译与机译。(Nirenburg, 1987)。但遗憾的是，实践证明，到目前为止，要开发这样一个理想的评估系统还是困难重重：

首先，对于翻译，无论是机译还是人译，没有什么“是”或“不是”一类的绝对答案，只有“好”、“较差”、“差”的质量等级之分。而对于“好”与“差”的标准，仁者见仁，智者见智，所以翻译评估往往难以摆脱主观性。

其次，对于机器翻译，不同的用户有不同的要求，一些人要求译文的质量要高，另一些人要求只要译文能读懂即可。人们要求机译评估的原因也各自有所侧重，机器翻译用户急于知道各系统的费用以及工作效率，希望机译评估帮助他们决定买哪一个系统；系统开发者想了解系统的不足之处；研究人员希望通过机译评估了解某种理论的应用情况以及有待改进的地方；各基金组织则需要综合评测，以便决定支持哪一个项目。所以说，很难制定出统一的评估标准。

另外，机译评估的难点还在于它通常需要把体系结构完全不同的各系统相提并论，进行比较。现在的机译系统一般采用直接、转换、中间语言和基于实例的翻译这四种体系结构，它们各有所长，各有所短，或者翻译质量高但速度慢，或者速度快却质量差，很难说哪种方法更具优势。即使是体系结构相同的系统，有时为了满足用户的需要，可能会把系统局限于不同的子语言，因此，比较各种机译系统常常有一定的困难。

鉴于上述种种原因，目前世界上机译评估色彩纷呈。单就评估方法而言，机译评估大致可分为三类：

第一类为操作性评估(Operational Evaluation)，有时也称作经济评估(Economic Evaluation)。这种评估所关心的是机译系统的经济价值。其具体操作方法是比较机译与人译每字或每页的花费以及所耗的时间。这种评估方法的优势在于它为用户提供直观的评估结果，因此它是很好的购物指南。但遗憾的是这种评估方法没有涉及译文质量而且其针对性太强，不适于比较不同的系统。

第二类为说明性评估(Declarative Evaluation),又称质量评估(Qualitative Evaluation).这种评估侧重通过评测译文质量评价各机译系统的性能。因此，说明性评估的关键在于制定质量标准。目前，大家公认的标准包括译文的可理解性(intelligibility)与忠实度(fidelity)，有时也包括语体风格及语法。ALPAC报告中采用了说明性评估方法，我国的专家评测也通常使用这种方法。说明性评估通常聘请专家或懂源语言与目标语的人参加，有时也请母语为目标语的人加入。评测时，由专家出题，让各机译系统翻译，评测人人手一份评分标准，评分标准通常是一个等级量表，把翻译按忠实度与可理解性划分成几个等级，评测人按此标准为每一个机译的句子评分。每个系统的最后得分情况可以用所有句子的平均分表示(如我国863智能接口评测中的机译评估)，也可以用折线图表示各个等级的句子的频率(如ALPAC报告)，如果质量高的句子出现的频率高，则代表机译的译文质量高。说明性评估有一个明显优势，它能直接表明译文质量。但是，说明性评估也有致命的弱点，即评估过程带有强烈的主观性。首先，制定评分标准时就含有主观性，有的评分标准把译文质量分成十个等级，有的分成四个等级，诚然，十个等级的等级量表对质量划分更细致，但何时采用十个等级何时采用四个等级都是由人主观决定的，而且即使对同一评分标准，评测者各自理解也有所不同，因而，常常是对同一个翻译，不同评测者把它划入不同等级。

第三种常用的评估方法为分类评估法 (Typological Evaluation)。实现分类评估大致有两种途径：第一种途径类似于语言教学中的“错误分析法”，即记录下译后编辑中发现的错误，并把错误归类，最后根据错误多少为系统评分，有时也根据错误类型进行加权评分；第二种途径是预先制定覆盖面广的系统的测试集，测试集中每一个测试项目代表机译系统可能遇到或者它应该了解的语言现象，然后根据各机译系统对测试集中句子的翻译情况予以评分。显然，分类评估不仅能评估系统的译文质量，而且能诊断出机译系统对哪些语言点处理不好，也能测出系统的改进与提高之处，因此，这种评估方法深受系统开发者的欢迎。利用测试集测试还很方便易行，一集在手，便可以为多个系统，多次测试，便于比较各系统，同时又节省人力、物力。

有时，根据评估所采用的技术，机译评估可分为自动评估与非自动评估。在实际的评估当中，有些系统已部分应用自动技术，比如说自动计算译后编辑中的错误率 (Minnis, 1991), 自动生成测试集(Arnold & Moffat, 1993)等。但目前世界上能够实现评估与评分过程全部自动化的只有两个系统：一个是Thompson的实验系统，(Thompson, 1991);一个是北京大学计算语言学研究所在俞士汶教授领导下于七五期间开发的MTE系统。MTE系统被认为是世界上第一个自动评估系统。Thompson的系统评估是以段落为单位的，评估过程中，系统首先确定源语言与目标语言相对应的句子，系统为每一个源语言的句子提供了所有可能的译文，机器译文与各可能译文之间的平均距离为这一句子翻译的得分，段落翻译得分为各句子翻译得分的总和。MTE评估是以句子为单位的。MTE属于分类性评估，它采用了一个测试集。为了实现自动测试的目标，MTE还借鉴了语言测试中分离式测试的方法，即对每一个句子，我们不是评测整句的翻译，而是每句侧重一个测试点，每个测试点代表一个语言点，我们只要测试测试点的翻译即可。在测试翻译时，MTE利用了模式匹配的原理，即MTE为每个测试点提供所有可能的译文，只要机器译文与任何一个所提供的译文相匹配，这一测试点即可得分。因此，MTE关键在于确立测试点、建立试题集、描述测试点。(关于MTE的工作原理详见Yu, 1993)。本文将以94年MTE试题集的建立以及测试点的描述为例，探讨测试集与分离式测试方法在机译评估中的应用。

二. MTE试题集的建立

众所周知，分离式测试有许多优点，它能方便自动测试，测试的覆盖面广，现在的大规模考试，如TOEFL，国家大学英语四、六级都采用这种方法，分离式测试还具有较高的灵活性，可以根据不同要求，很方便地增加或删减测试点，所以分离式测试非常适合于系统要不断改进、提高的机器翻译评估。但分离式测试也常常陷入一种困境，有时，由于句子其他部分的影响，机器很可能没有正确翻译所被测试的测试点，例如，因为长句翻译的困难，整个句子机器都没有译出来，但这并不意味着机译系统不会翻译这个测试点，而如果机器成功翻译了所测测试点，并不代表它能翻译全句。解决这类问题唯一的办法就是用大量的句子进行测试。因此，建立一个含有大量句子的测试集是至关重要的。

建立MTE测试题集与建立语言测试题库类似，首先应确定测试大纲，具体说就是确立测试点。在七五期间,我们曾建立过一个MTE测试集,其中测试点的建立,主要是以国家英语教学大纲为依据的。MTE诞生后,测试过几个机译系统,效果良好。但我们发现这个测试集还不很完善,因此九四年,以俞士汶教授为首的课题组开始了重新确立了测试点的工作，我们在征集国内机器翻译专家的意见，参考各类语法及语言测试书籍的基础上,建立了新的测试集—MTE-94。MTE-94的测试点主要分三部分: (1) 源语言分析部分的测试。(2) 目标语生成部分的测试。(3) 机器翻译中的难点。建立测试点确立后便遇到了测试句子选材问题。机器翻译评估与普通语言测试不同，测试材料必需包括两种语言，即源语言及其对应的目标语言的翻译。因此，在选择MTE测试句子时，我们要同时保证源语言与目标语言的准确性。而且，由于MTE属于分类性评估，所以测试集中的测试句子还应按测试点分类。如果所有句子都由人来出题，显然工作量过多，而且难以保证测试句子及其译文的准确性。为了克服这些困难，我们的做法是从英语语法书，主要是从《牛津实用英语语法》上选择英汉对照的例句,由手工输入计算机,这样便建立了一个小规模的双语语料库,然后再请语言学研究者把语料库中的句子筛选并按测试点归类,必要时可以按测试点要求对某些句子稍做修改。一个句子中允许标出多个测试点，并将这些测试点及所测试的内容一并记录在数据库中。归类后我们又遇到两个难题: (1) 有些句子出现频率过高。(2) 有些测试点测试句子过多,而有些却过少。对于出现频率高的句子,可以通过数据库语言查重查出,然后由语言学研究者决定,把它们归入最适合的测试点中。对于测试点句子过多的,我们可以删除一部分测试句子,删除的句子中,如果有一部分适用于其它测试点,则归入其它测试点中,否则留待备用。对于测试句过少的,只好另行选题。由此可见,测试集的建立工作大部分由手工完成,非常繁琐。因此,我们设计了一种辅助自动生成试题的程序，自动生成试题。不过只局限于模式比较固定的测试点,如测试词汇量和词组:

例：He is reading a book.

   他正在看书。

这里只要把“book换成另一个适用这个句子的词，就生成了另外一个测试句子。在MTE中，我们为自动生成试题准备了一部字典，字典中不仅有词的译文，还有分类号：

例：英语             词性       汉语          分类号

      ：          ：             ：             ：

      book                n.          书                01

      boot                n.       靴子                02

      ：          ：             ：                ：

      story                n.    小说，故事    01

      ：                   ：          ：                ：

生成试题时，分类号相同的词可以互相替换，这样就可以自动生成新的试题。

三. MTE测试点描述

选好试题后，工作便进入测试点的描述阶段，也就是告诉机器它应该做些什么，如何测试。测试点描述是用TDL语言(Yu，1993)完成的。MTE的测试点描述可以分为四类:

(1). 一个句子中只测试一个词或词组

例1  He talked so much as if he were the teacher.

   他说起话来,好象他就是老师.

   R->(213:1) *＄A*

   R->(213:0)

   $A->好象/似乎/就象/仿佛

   ##

这里 “R->”代表测试开始；“213”代表科目号；“*”代表任意匹配符；“1”或“0”代表这一翻译所得分数;“＃＃”代表测试结束符。

(2). 一个测试点涉及一个句子的两个或两个以上的单词或词组

例2  Did you come by bus?

      你坐公共汽车来的吗？

      R->(753:1)*$A$B*

      $A->坐公共汽车/坐车/乘车/乘公共汽车

      ##

这个句子是测翻译中语序的调整，因此涉及一词“come”和一词组“by bus。

(3). 一个测试点需要进行两个或三个句子的联合测试, 这种现象通常出现在测试词的兼类中。

例3  (a) I will go there, too.

      我也去那里。

      (b)This shirt is too big for me.

      这件衬衫我穿太大了。

      R->@x

      ##

      R->*太*

      (R->(643:2) @x:*也*)

      ##

这里只有当机译系统正确翻译出(a)、(b)两句时，本测试点才可得分。

以前，所有测试点描述都是由人工输入的，因此工作量很大。但是，由于有一部分测试点描述格式比较固定，比如第一类与第三类，并且描述所用的信息可以从已建的题库中提取，因此在MTE－94中，这一部分描述工作可以交给计算机去生成并进行相应的语法检查，而对一部分与语法测试有关的描述，现阶段还只能由人工输入，机器做语法检查。描述部分自动生成的关键在于增加测试系统中字典的信息，首先，字典中要增加固定词组及其翻译；其次，对于多义词与兼类词，要把各词义编上序号，便于机器查寻、抽取。

四.  总结与展望

虽然,现在世界上有许多种机译评估方法,但是用测试集进行自动评估还是一种有意义的尝试。这种方法使机译评估摆脱了评测过程中的主观性,同时也节省了人力、物力。但是,不可否认,自动评估系统测试集的建立是一项繁琐而复杂的任务,它需要机译专家、机译系统开发者、语言学家和软件工程师的密切合作,同时,建立测试集是一个长期的过程,测试点的确立与描述需要不断完善,因此,我们目前的目标是要不断地总结描述的规律，丰富题库的内容,尽量争取扩大自动生成题库与自动描述测试点的范围,以减轻手工操作的负担。

五. 感谢

本文作者在俞士汶教授领导的课题组中工作，获益匪浅.本文的写作也得到俞老师的鼓励。我们的课题组目前还包括清华大学陈圣信教授、北大计算中心姜新高级工程师,她们都付出了辛勤的劳动。大家团结协作，工作颇有成效，在此向各位老师致以衷心的谢意。

参考文献

[1] Arnold，Doug & Dave Moffat et al. 1993.  "Automatic Test Suite Generation" in Machine Translation: Special Issue on Evaluation of MT Systems，8(1-2).  Dordrecht: Kluwer Academic Publishers.  PP29~38.

[2] Arnold，Doug & Louisa Sadler et al. 1993. "Evaluation: An Assessment" Arnold， Doug & R. Lee Humphreys et al. eds.  Machine Translation: Special Issue on Evaluation of MT Systems，8(1-2). Dordrecht: Kluwer Academic Publishers.  PP1~24.

[3] Bennett，W.S. 1994. "Machine Translation in North America" in R. E. Asher & J. M. Y. Simpson ed. The Encyclopedia of Language and Linguistics.  Oxford: Pergamon Press.  PP23~34.

[4] Minnis，Stephen. 1991. "Constructive Machine Translation Evaluation" in Falkedal ed. Proceedings of the Evaluator's Forum. Geneva: ISSCO.  PP99~116.

[5] Nirenburg，S.ed. 1987. Machine Translation: Theoretical and Methodological Issues. Cambridge: Cambridge University Press.  PP28~29.

[6] Thompson， Henry S. 1991.  "Automatic Evaluation of Translation Quality: Outline of Methodology and Report on Pilot Experiment" in Falkedal ed. Proceedings of the Evaluator's Forum. Geneva: ISSCO.  PP215~224.

[7] Yu，Shiwen. 1993.  "Automatic Evaluation of Output Quality for Machine Translaton" in Arnold， Doug & R. Lee Humphreys et al. eds. Machine Translation: Special Issue on Evaluation of MT Systems，8(1-2).  Dordrecht:Kluwer Academic Publishers. PP117~124.

本文摘要发表在《计算语言学进展与应用》，陈力为、袁琦主编，清华大学出版社，1995年

-------------------------------------------------------------------------------
* 本项目研究受到国家自然科学基金支持,项目号69373043

胡吉成 · 发表于 2005-1-27 07:59:49

不知道有没有这样的免费网站，就是可以自动翻译的，比如输入一段文字，可以任意选择一个语种，就可以自动转译了，那该多好啊！

		自动登录	找回密码
密码			注册

机译评估方法评述及一个基于测试集的自动评估系统—MTE的进展*

相关帖子

断想！