湘里妹子学术网

 找回密码
 注册
查看: 6647|回复: 10

人工翻译与机器翻译:采用多语种语义转换统一代码协议的探讨

[复制链接]
发表于 2005-1-16 14:55:08 | 显示全部楼层 |阅读模式
http://www.nlp.org.cn/forum/inde ... 65c115cde41e572d544
作者:翁观清
地址:广东省江门市江海路111号 邮编:529080
电话:0750 3792113 转2234 传真:0750 3792133
电邮:gongziweng@yahoo.com.cn

关键词:人工翻译 机器翻译 语义转换 统一代码 协议

摘要
本文回顾了人工翻译的标准、方法和过程,指出了人工翻译的缺陷;在分析机器翻译的历史和传统方法的基础上,提出利用ISO 10646/UNICODE字符统一编码技术,建立多语种语义转换统一代码协议,实现翻译的完全“无语义障碍”。

人工翻译的标准、过程和方法

什么是语言和语言翻译

语言是思维的外壳。思维是由存在决定的,而客观存在是可以认识的,因此一种语言所表达的思维内容是完全可能用另一种语言表达出来的。[
翻译就是运用一种语言把另一种语言所表达的内容重新表达出来的语言活动。翻译的质量取决于表达的准确性和完整性。
翻译的范围按照工作方式划分:口译和笔译。
按照翻译材料划分:文学作品(包括小说、戏剧和诗歌等)、政论作品(包括社科论文、报告和演说辞等)以及各类应用文(包括新闻报道、函电、文件和法律契约文书等)。
按照翻译的处理方式划分:全译、摘译和编译。

翻译的标准
翻译的标准就是:准确和完整。
对翻译的标准还有诸如“信、达、雅”或“忠实”和“通顺”的表述。这些都与“准确”和“完整”的意思相同或相近。
但是,这里的所谓准确和完整至今没有一个规范。无论是初译者还是资深译者,他们对翻译的准确和完整的判断只是依赖于他们所掌握的语言理论知识和翻译技巧。如果说有规定,那只是限于字典、词典或辞典和句法规则。但这类规定,只是一种权威而不是标准。
在人工翻译领域,普遍认为或接受这样的看法:翻译是一种创造性劳动,不同译者对同一个作品可以有不同的译法,译文因此往往因人而异。其实,这正是人工翻译的致命缺陷。

翻译的过程
翻译的过程是理解原文和创造性的用另一种语言再现原文的过程,大体上可以划分为三个阶段:理解、表达和校核:
理解是表达的前提,不理解就谈不上正确表达。但理解和表达通常是互相联系、往返反复的统一过程,两者不能截然分开。译者在理解原文的阶段,已经自觉或不自觉地在挑选表达手段;当译者在表达的阶段,又进一步加深了理解。在处理一个词、一个句子、一个段落或一篇文章的时候,译者往往是从原文,又从译文到原文,反复推敲,仔细研究。要把理解和表达分开来论述的话,理解主要是从上下文来进行。理解的要点是
²        理解原文的语言现象
²        理解原文的逻辑关系
²        理解原文所涉及的事物
表达就是译者把从对原文所理解的内容用译文重新表达出来。表达的质量主要决定于译者对原文的理解程度和译文语言的掌握程度。
表达是理解的结果。但正确的理解并不意味着表达完全正确。表达需要通过具体方法和技巧来体现。基本的方法可以划分为:直译和意译。
所谓直译,就是在译文语言许可的条件下,在译文中既保持原文的内容又保持原文的形式。
所谓意译,就是不保持原文的形式,用译文的语言表达形式表达原文的内容。
人类在研究翻译的过程中,一直存在着直译法和意译法的争论。争论的焦点是:直译好还是意译好;什么样的文章用直译,什么样的文章用意译;比较没有争论的倾向是直译和意译相结合。
校核是理解和表达的进一步深化,是对原文内容进一步核实以及对译文表达方式进一步推敲。鉴于翻译的活动特点,校核是必不可少的。校核一般应特别注意以下各点:
²        人名、地名、日期、方位和数字;
²        用词用句
²        避免使用冷僻罕见词汇或陈词滥调,注意标点符号有无用错
²        通常应当校核两遍才最后定稿

对译者的要求
翻译工作对译者的要求是多方面的。称职的译员应当符合以下基本条件:
²        正确的政治立场和端正的职业态度
²        正确理解原文和熟练运用译文
²        具备各种基础知识包括相关历史、地理、政治、军事、外交、经济、科学、文化和风俗习惯等
²        具备良好的记忆和敏捷的反应能力
²        具备学习的能力,不断更新知识结构和水平

人工翻译的缺陷
从以上对人工翻译的标准、过程、方法以及译者条件的回顾,可以看出,人工翻译没有统一的译法和译文。但是,人类语言交流有统一的译法和译文的客观需要。
另外,要培养一个合格的译员,需要昂贵的教育经费和培训成本。一个外语大学毕业的学生,通常需要2-3年的专业实践才能成为熟练的译员。
因此,制定或者达成统一的翻译标准或者协议是有必要的。使用计算机进行翻译是一种不可抗拒的趋势。

机器翻译系统的进展和趋势

机器翻译的目标
机器翻译的目标是机器自动地用译文正确并完整地表达原文。

机器翻译的传统方法和技术
1946年,电子计算机诞生了,英国工程师布斯(A.D. Booth)和美国工程师韦弗(W. Weaver)首先提出利用计算机进行语言自动翻译。1949年,韦弗发表了一份题名“翻译”的备忘录,正式提出了机器翻译问题。在这份备忘录中,他除了提出各种语言都有许多共同的特征这一论点之外,还特别提出对后来机器翻译发展影响很大的两个问题:
1)        翻译的过程类似于解读密码的过程。他说:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”
2)        原文与译文“说的是同样的事情”。因此,他认为,当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一“通用语言”(Universal Language)或“中间语言”(Interlingua),然后转换为语言B,这种“通用语言”或“中间语言”,可以假定是全人类共同的。可以看出,韦弗把机器翻译仅仅看成一种机械的解读密码的过程。他并没有考虑机器翻译在词法分析、句法分析以及语义分析等方面的复杂性。  
美国语言自动处理咨询委员会(ALPAC)于1966年11月发表了一份题为《语言与机器:语言学与计算机在翻译上的应用》。报告针对美国的翻译情况(主要是英俄两种语言的互译情况)对机器翻译采取了否定的态度。指出“在目前给机器翻译以大力支持还没有多少理由”;“机器翻译遇到了难于克服的‘语义障碍’”。ALPAC报告的影响是巨大的。虽然ALPAC原本只是调查美国本国的情况,但它的那份报告公布之后,对全世界的机器翻译研究都造成了伤害。当然,客观的需要并没有因为那份报告使机器翻译完全停顿。相反,研究人员在此基础上作了大量的思考和实践。形式语言学、计算语言学和人工智能工程学正是在与此背景相关的条件下发展和成熟起来的。
机器翻译研究人员认识到,机器翻译必须保持原文和译文在语义上的一致。一个好的机器翻译系统应该把原文语义准确并完整地在译文中表达出来。否则,机器翻译的前景是不会乐观的。也正是对这些理论和实践的思考,研究人员发现,已经发展了半个世纪的机器翻译的技术或者说方案出现了问题。 因为,自然语言是在人类文明发展的漫长过程中自然形成的。所谓自然形成,意味着每个人拥有一种基本权利:自由创造语言符号和自由约定符号语义。人们之所以能够实现语义通信,完全依赖于通信双方对语言符号的所代表的语义及语法代表具有共同的约定。因此,语义约定是一切符号语义通信的基础和前提。而几十年所探索的种种机器翻译方法,如基于规则,基于统计,基于中间语言等,似乎都没有重视自然语言的这一本质特征。或者说,机器翻译之所以偏离“语义约定”,是因为没有相应的信息管理技术支持。但是,到了今天,我们不能再那样认为了,因为,随着ISO 10646/UNICODE的执行,已经完全具备了在全球范围内建立起实时无障碍的信息交换模式条件。微软公司开发的single binary技术就是以ISO 10646/UNICODE为基础,在同一套基本程序用于多语言环境的技术。
在字、词、句和语中,字是基础。编码文字是信息技术的基础,执行ISO 10646/UNICODE标准,实现了全世界规范文字以及图形的统一编码。那么,机器翻译是否也可以借助这一技术,实现语义转换统一代码呢?本文作者认为,这是完全可能的。其实,如果我们再回顾一下韦弗的“翻译备忘录”,大家应该明白,机器翻译实际上就是解码的过程;汉语“机器翻译”与英语“machine translation”说的是同一件事情。如果我们建立并使用了“多语言语义转换统一代码协议或标准”,那么,机器翻译可以实现“无语义障碍”。
使用ISO 10646/UNICODE可以实现直接语义转换吗?近年来,有研究人员在做这方面的尝试性探讨。利用这种技术直接进行语言转换的软件也研制出来了,但从翻译的效果来看,仍然存在“语义障碍”。原因很简单,ISO 10646/UNICODE技术统一的是“字符”编码而不是“语义编码”。所以,建立语义编码似乎是必要的,并且也值得尝试。
实现语言语义统一编码,可以有以下优点:
²        保证语义信息传递质量
²        只需掌握一种语言(例如母语)即可实现多语种通讯
²        语言翻译内容不受限制
²        一次语义约定结果即可自动转换为其他语种译文

如何实现利用语义转换统一代码进行机器翻译呢?执行“语义转换统一代码”是否可以排除“语义障碍”呢?这些问题应当通过实践检验之后才能作出答案。目前,机器翻译人员应当行动起来,调整思路,开拓新的研究方向。

参考资料

1)        冯志伟,1995, 面向计算机的语言研究(一)、(二)、(三),《语文与信息》1995年第1、2、3期。
2)        王晓明,2001,ISO 10646的最新进展及其实现
3)        刘莎,2002,语义约定全文翻译:机器翻译的“日心说”?,《计算机世界报》第46期,B19。
发表于 2005-1-18 03:53:50 | 显示全部楼层
个人对这篇文章的看法:既可以说是无知者无畏,也可以说是骗人的东东。。。
理由很简单,问题的关键不在于要不要对语义进行编码,要不要对语义转换建立统一的协议标准,“语义的瓶颈”在学界是个“地球人都知道”的问题;问题的关键在于语义如何形式化的问题,编码可能是方案之一,但无论是英语的wordnet还是中文的知网,在应用中局限性都很大。研究更强的语义表达手段是学界的重要任务之一。
发表于 2005-1-18 10:09:25 | 显示全部楼层

人脑处理语言,看起来简单,实际上可能有很多未知的程序

机器自动翻译语言,还有待时日,起码得等到人类真正把大脑的秘密彻底解开以后。
相语言中普遍存在的模糊语言,以及人类的一些模糊行为,完全是凭经验、感觉处理的,机器恐怕很难做到,至少,目前的程序编写的复杂程度是难以想象的。
对于激情翻译,我是个门外汉,只不过谈谈我的感性认识。
发表于 2005-1-18 10:11:11 | 显示全部楼层

抱歉,上面将“机器翻译”误作“激情翻译”啦!

不过,机器翻译可能真的缺乏人的激情呢!
发表于 2005-1-18 23:14:34 | 显示全部楼层

to 楼上

(1)首先智能技术是21世纪同生命,能源,物质,并列的4大科技前沿。研究智能的重要器官--大脑的作用是毫无疑问的。
(2)语言是大脑的功能的体现,语言间的翻译更是一项需要智慧的工作,由此可见机器翻译的真正难度。
(3)我不同意楼上的看法在于强调机器翻译要等到大脑完全解密,我以为这种看法是颓废的,不积极的。实际上,机器翻译从理解人类智能的角度看,是一个比较好的着眼点,毕竟语言是人脑的特殊机能,尤其是在对人脑缺乏解析式的手段,黑箱研究方法具有重要意义的今天;另外机器翻译从当今工程实践的角度来看,经过50多年的发展已经取得了长足的进步,比如一些产品的多语言说明书等受控的领域,比如一些辅助的机器翻译系统。
(4)总而言之,机器翻译是深刻的理解人脑的重要手段;而对人脑的理解的深入又会使得机器翻译的水平再上一个台阶。机器翻译也是一场持久战,不能毕其功于一役。

姑妄言之,能抛砖引玉幸甚。
发表于 2005-1-21 08:56:14 | 显示全部楼层

啊哟,让小虾给呕扣了顶颓废的帽子!

呕不敢再言了!
如果出言不慎,说不定会判个无期徒刑呢!
发表于 2005-1-21 09:13:21 | 显示全部楼层
呵呵,胡兄别介啊,我不是早就声称是胡言妄语了嘛,莫怪莫怪,再说你不来和我打嘴巴仗,这里就不热闹了。。。。
发表于 2005-1-21 09:22:58 | 显示全部楼层

哈哈,小虾是要诱导我说话呀!

我看翁文把机器翻译看得也忒简单了。语义的问题绝对不是简单的形式、程序可以解决的,特别是语言里面包含的文化成分,文化是一个民族最独特的东西,有时候无法对应,比如汉语的狗腿子、狗仗人势、黔驴技穷、守株待兔、愚公移山、东床、染指这类词语,包含了丰富的历史、文化,只能翻译基本意思,无法把原意原汁原味翻译出来。
我在坛子里还看到英语和汉语声调统一的奇怪说法,为什么会这样异想天开呢?
发表于 2005-1-21 09:38:57 | 显示全部楼层

我看见小虾正在这里发帖呢

你被跟踪啦!
小虾老弟怎么有功夫天天泡坛子啊?
发表于 2005-1-21 10:09:19 | 显示全部楼层
首先我敢肯定试图将英语和汉语声调统一的想法肯定不会被判无期徒刑(给楼上吃颗定心丸,呵呵,言者无罪)。
严重同意机器翻译是个特别难的课题,且不说语义如何形式化,实际上语义能不能形式化也是一个尚无定论的题目。目前的窘境是一方面我们看到机器翻译在一天天进步,另一方面我们又看到诸如楼上指出的大量的特殊的各个层面的困难。又想到这么一种说法:两个人要去月球,一个人采取了修梯子的方法,另一个采取造火箭的方法。修梯子的人每天都在进步,水平每天都在提高,但是谁也没有把握他能够把梯子修到月球上;如果造火箭的话,我们知道肯定能够上月球,但是怎样来造呢,谁也不知道。回到机器翻译的问题,目前的算法就被不幸的谕为在造梯子。。。呵呵,谁要是知道怎样来造这枚火箭就发达了,[心有不甘,摸摸干瘪的口袋,蔫蔫的下]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-13 18:16 , Processed in 0.140492 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表