机器翻译咸鱼翻身

mengqing · 发表于 2007-7-12 00:20:31

来源：新浪网
http://tech.sina.com.cn/d/2006-04-26/1558919157.shtml

　　撰文加里·斯蒂克斯(Gary Stix)

　　Natrium Nepal Asia legend:The lion, the sorceress, the evil spirit wardrobe“already lack” the evil spirit abstains the trilogy “rich in poetic and artistic flavor, also has not let”the Harley baud“the series novel have the infinite pleasure the under current to be turbulent.
　　上面这段让人丈二和尚摸不着头脑的英文，是埃尔塔维斯塔(Altavista) 公司非常流行的网上翻译工具巴比鱼 (Babelfish)呈献给我们的汉译英“杰作”。它竟然是根据中国台湾《中国邮报》网站上的双语版翻译过来的，而在英语中，这段话应该被流畅地表达成：
　　“The Chronicles of Narnia” doesn’t come near the poetic vision of“The Lord of the Rings” trilogy, and it doesn’t have the dark undercurrents that makes the“Harry Potter”series endlessly fascinating.
　　这句话的意思是，影片“纳尼亚传奇”既缺乏“ 指环王”三部曲的诗境, 又无“哈利·波特”系列剧永远令人着迷的悬念铺陈。
　　上面那段翻译说明，正如众所周知的那样，机器翻译( 或称MT) 仍然是人工智能这一没落领域中较有挑战性的分支之一。一个恰当的名称或几个精巧的短语结构就足以使翻译软件阵脚大乱。不过，在过去的几年中, 一种新的研究方法却使机器翻译再现生机，这就是蛮力计算法(brute-force computing method)——它测算一种语言中的单词或短语与另外一种语言中的单词或短语相互匹配的概率。照这种软件开发者的说法，该方法至少能使机器翻译质量与人工翻译质量的差距进一步缩小。

　　机器翻译比机器下棋更难
　　今天，功能日益强大的硬件和软算法已经使计算机超越了国际象棋大师。[ 请回想一下，1997 年美国IBM公司的超级计算机“深蓝”战胜了国际象棋特级大师卡里·卡斯帕罗夫 (Karry Kasparov)]。但总体说来，与人类的翻译能力相比，50 多年来机器翻译能力却几乎没有长进，某些评论家甚至会认为这样的评价也过于慷慨。
　　1954 年，IBM 公司和美国乔治城大学展示了60 多个由机器完成的俄译英句子。1954 年1 月8 日，关于IBM 公司的新闻稿道出了人们的兴奋:“今天电子‘大脑’首次将俄语译成英语。” 国防机构和计算机科学家期望机器翻译在五年之内成为寻常事，但这一愿望却从未实现。
　　1966 年，美国政府资助的语言自动处理咨询委员会(Automatic Language Processing Advisory Committee) 报告称，人工翻译速度更快，准确性更高，而费用仅为机器翻译的一半。该委员会的研究结论是：“无法马上预测实用机器翻译的前景。”
　　在随后的几十年中，研究资金匮乏，机器翻译取得的进展微乎其微。 20 世纪60 年代末期，美国空军为一家研制出机器翻译系统的小公司提供资助，其初衷是应对将俄文文献翻译成英文的巨大需求。该系统称之为 Systran——本文第一段就是它的互联网版本“奉献”给我们的。
　　像IBM 公司最初的“大脑”系统一样, 国际商用机器Systran 以源语言和目标语言规则为基础，它靠的是支配句法、语义学等的六条基本规则。例如，俄语中的“o”有可能被IBM 公司的701 型计算机翻译为“about” ( 关于)，也可能被翻译成“of”(…的)。如果“o”跟在“nauka”( 科学) 一词的后面, 它就会寻找合适的规则把“o” 翻译成“of”，换言之就是翻译成“… 的科学”，而不是“关于…的科学”。
　　位于巴黎的Systran 公司是世界上最大的机器翻译公司，客户甚至包括 Google、雅虎(Yahoo) 和时代华纳(Time Warner) 旗下的美国在线(AOL)，2004年它的年度收入也只有区区1300 万美元，而全球各类翻译的总市场规模估计约为100 亿美元。“我们的公司如此之小，可我们又是最大的。”Systran 公司董事长兼总经理季米特里斯·沙巴塔卡基斯(Dimitris Sabatakakis) 说。

　　不需要语言规则了吗
　　对基于语言规则的翻译系统来说，某些特定语言的语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则，以获得目标语言文本。对于由数十万词汇构成的词库，商务翻译系统包含的语法规则就高达数万条。
　　IBM 公司，自20 世纪80 年代末期开始研制将法语译成英语的翻译系统，这个系统被称为Candide，它既不需要语法知识，也不需要句法知识。它避开语言规则，采用大量的已翻译文本，对两种语言的单词进行匹配( 现在更多的系统则是对整个短语进行匹配)，最后，根据贝斯定理(Bays’s theorem) 导出匹配概率，以评判一个英文单词是否来自法语的正确翻译。
　　另外一种单纯依赖大量文本的分析方法，则是对被翻译成英文的那个词与其周围单词在语法上是否搭配进行评估。目标语言中搭配概率最大的单词或短语，被用来为今后的文本进行“译码”——这样就能将多个单词联系起来，构成整篇文章。如果统计方法表明，“pouderie”一词通常等同于“blowing snow”( 吹雪)，那么原则上它就是译码所需要的。
　　IBM 公司最后放弃了努力。在 20 世纪90 年代末期，机器翻译一页文字要花一整天的时间。但是，随后事情开始有了转机。互联网使大部头双语文本的数量迅速上涨。互联网也创造了人工永远无法满足的翻译需求量。
　　1999 年，美国国家科学基金会 (the National Science Foundation) 在美国约翰霍普金斯大学举办了一个研讨班，研究讨论构建能够被迅速推广到科学界的软件工具箱，这是一个引起人们关注并引发新活动的举动。 2002 年，该研讨班的组织者之一—— 美国南加州大学的凯文. 奈特(Kevin Knight) 和同校的丹尼尔. 马库(Daniel Marcu)，创办了语言编织公司(Language Weaver), 这是唯一一家采用统计方法的机器翻译公司。它声称现在每分钟至少能够完成5000 字的英语与阿拉伯语、英语与波斯语、英语与法语和英语与汉语的双向翻译工作。

　　Google 成为赢家
　　另一位既是研讨班毕业生又是南加州大学毕业生的弗朗兹·奥克 (Franz Och), 受雇于Google 公司。去年夏天，由奥克设计，尚处于实验阶段的Google 系统，在美国国家标准与技术研究院组织的100 篇新闻专线文稿翻译( 将阿拉伯语或汉语译成英语) 比赛中，击败全部竞争对手( 包括IBM 公司)，在所有类别上大获全胜。奥克提到，为机器翻译软件提供相当于100 万部图书的文本是提高翻译质量的关键。他把Google 公司目前采用的汉译英机器翻译系统(Systran)，与由他和同事精心编写的基于统计分析的实验系统作了对比：
　　“医生指出, 明智并且能抓住重点的预先安排，能够使病人提早一个月康复。”
　　Google 采用的Systran 机器翻译系统将这句话翻译为: “Doctor indicates , the bright kernel prearranges recuperates the about one month.”
　　“医生说计划让阿吉西托(Akihito) 休息约一个月的时间。”
　　Google 的学术搜索系统(Google Research) 把这句话翻译为:“Doctors said Akihito is scheduled to rest for about a month.”
　　有关基于统计方法机器翻译的一些传闻，已经迫使Systran 公司不得不站出来为自己的翻译系统辩护。沙巴塔卡基斯评论说：“学外语离不开语法规则, 而学外语时并不学习统计方法。”Systran公司开发翻译系统时，只在一些非常狭窄的领域里使用统计方法, 如翻译专利文献。但是，他认为目前的统计方法却有点市场营销的味道。该公司仍然雇有50名研发人员, 他们中有语言学家。“Systran 公司和Google 公司间的主要分歧在于， Google 公司声称，由于统计方法的魔力和完美，它不需要本土中国人开发汉语(应用程序)。”沙巴塔卡基斯说。然后又补充道：“如果没有华裔研发人员, 我们的系统就可能存在大量错误。”
　　这两个阵营之间的界限已经开始模糊了，因为统计机器翻译的研究人员已开始对解释句子句法结构的方法兼收并蓄。这些方法不需要语言学家介入: 句法模型有可能估计出英文形容词与名词短语在翻译成法语之后被重新排序的概率。语言编织公司 (Language Weaver) 的奈特说，靠短语而不是单词还可以使统计方法处理语义学问题，从而避免了，比如说，把他的姓翻译成“Caballero”( 西班牙语的“绅士”)。
　　美国微软研究院(Language Weaver) 有一个规模可观的自然语言团队, 在过去的六年里，他们也开展了机器翻译的研发工作。该团队最初集中研发基于语言规则的翻译系统。但是它也在逐步吸纳一些统计技术。最近，微软公司在将其在线客户支持网址翻译成12 种新语言( 包括俄语、阿拉伯语和汉语) 时，就采用了一些统计方法。翻译完成后也没有重新编辑这些文本。“不可否认其中有些部分相当粗糙；但其他部分相当不错。”自然语言处理单元资深研究员史蒂夫. 理查森(Steve Richardson) 说，“采用较多统计方法的系统，其翻译质量可与我们以前使用基于语言规则类系统的翻译质量媲美，甚至开始超过它们。”

　　抓住要点
　　然而, 所有这些技术都引出了这样一个问题：机器翻译会像IBM公司研制的能下国际象棋的超级计算机深蓝那样, 在人类自己的游戏中击败人类吗？难道机器就只能提供“要点——外语文本的大意，不能再进一步?”美国翻译协会发言人凯文. 汉德塞尔(Kevin Hendzel) 说，目前的乐观主义只是在宣扬几十年来言过其实的断言——“全自动高质量翻译 (FAHQT)”思想。他说，要点能帮助我们处理浩瀚的外语文本，但我们要认识到其固有的不可靠性。即使粗糙的翻译也有其危险性。为证明这一点，他引用了一个阿拉伯语译为英语的例子，这个例子提到双方对“攻”，一个“攻”字引起了安全官员的警觉。实际上，这里指的是一场足球比赛，而不是恐怖分子袭击或即将发生的战斗。
　　美国斯坦福大学语言与信息研究中心执行董事基思·德夫林(Keith Devlin) 评论说，基于机器的翻译系统永远赶不上人类语言学家。“统计技术与高速处理器和高速存储器结合, 无疑会使翻译系统越来越好，因而其翻译质量在许多情况下可能也勉强说得过去。” 德夫林说,“但我的看法是, 人类专家的那种流畅翻译，机器是达不到的。”
　　统计翻译的先驱者奈特不同意这种说法，并指出机器翻译在这十年中取得的进步。他认为机器翻译前途不可限量, 并且最终将在各个方面达到人类的翻译水平，也许只有诗歌是个例外。他在读者不知情的情况下把机器译文和人工译文同时摆在他们面前，他们竟不能辨别。“我们不要自欺欺人了——人工翻译的错误也很多。机器翻译中存在的问题并非我们想象的那样高不可攀。”他说。要证明翻译工具不只是长期的促销宣传，以及目前引领机器翻译这一领域的统计技术，必须证明全自动高质量翻译名副其实。只有到那时，这种技术才会像微软公司的理查森所说的那样，不仅仅是“机器翻译承诺”。( 译/徐彬)

[ 本帖最后由 mengqinghao 于 2007-7-16 08:08 编辑 ]

		自动登录	找回密码
密码			注册

机器翻译咸鱼翻身

相关帖子