|
发表于 2004-1-19 19:56:26
|
显示全部楼层
机器翻译在台湾之研究与发展
作者:苏克毅
来源:青藤木屋
1993/2/25 (Rev. 1997/3/07)
----------------------------------------------------------------------------------
一、机器翻译系统在台湾的发展概况
相对于美国、苏联或中国大陆,台湾在机器翻译方面的研究
,开始得相当晚。一直到1985年 5 月,才有清华大学电机工
程研究所与英群电脑公司合作,由苏克毅教授带领两位助理
开始研究英汉机器翻译系统。接着台湾大学资讯工程研究所
(林一鹏教授主持)、工业技术研究院电子所 (电通所的前身
,由张照煌先生主持)、台湾松下研究所(郭俊桔先生主持)、
台湾王安公司 (黄世道先生主持)、交通大学资讯工程研究所
(李锡坚教授主持)、清华大学资讯科学研究所 (张俊盛教授
主持)、资策会产品开发处 (刘龙龙博士主持) 等,也都陆续
展开这方面的研究。此外,中央研究院资讯所、交通部电信
研究所等单位,虽然没有机器翻译的研究计划,但也有相关
性的研究计划。由于研究机器翻译的人愈来愈多,为了让大
家有交换研究心得及沟通意见的机会,台湾从 1988 年起,
每年都举办一次计算语言学研讨会 (英文名称为 R.O.C.
Computational Linguistics Conference,由中央研究院的陈克健
教授及黄居仁教授筹办第一、二届),并不定期举行各式小
型讨论会。在各项活动日趋积极之后,大家觉得有必要成立
一个正式的组织,来推动这方面的研究。因此,计算语言学
学会于 1990 年 3 月正式成立 [1],负责统筹办理各项活动,
并与国外相关研究单位联系。学会成立至今已历三年,在第
一任理事长谢清俊教授及第二任理事长陈克健教授带动下,
成绩斐然。
除了计算语言学学会的活动之外,1991 年 6 月也在溪头专为
机器翻译举办了一次「机器翻译研讨会」,并邀请到三位国
际知名的学者专家 (Makoto Nagao 教授、Winfield
Scott Bennett 博士以及 Masaru Tomita 教授) 作专题演讲。
1993 年 2 月,更进一步在计算语言学学会之下,正式成立机
器翻译研究小组 (Special Interest Group on Machine Translation
,简称 SIGMT),并以 SIGMT 团体会员名义加入亚洲太平
洋区机器翻译协会(Asia-Pacific Association for Machine
Translation) 及世界机器翻译协会(International Assocication for
Machine Translation)。因此台湾目前的机器翻译研究发展已相
当健全。
前面所提的是机器翻译在学术及研究单位进行的情形,接下
来要介绍目前工业界商品化的情形。前面提到的几个研究小
组中,清华大学电机研究所与英群电脑公司合作的计划,由
于原来实验室空间不足,研究人员于 1988 年 2 月迁至新竹
科学工业园区,成立致远科技公司,继续从事机器翻译的研
究开发。目前是以英汉系统为主,在工作站上执行,并于
1989 年 7 月开始提供翻译服务。主要是翻译技术手册。王安
公司从事英汉机译研究一段时期之后,因故中止。原先的研
究人员自组欧泰公司,继续开发英汉机译系统,现已有在个
人电脑上执行的软体问世 (即「译经」)。此外,坊间也有
功学电脑公司,发行在个人电脑上执行的英汉及汉英系统 (
广告上宣称还有其他数种语言配对)。然而这些个人电脑上的
软体,恐怕都还不是真正实用的产品 (意指能够大量、快速、
且可维持一定品质的翻译)。
除了上述的研发活动之外,台湾可能还有其他单位在研究开
发机器翻译。限于手边资料,难免有遗珠之憾。对于那些遗
漏的单位,除在此致歉之外,也希望他们能提供资料,以便
日后有机会时,再作介绍。
以下我们将对曾经发表过论文,公开资料较多的系统,按照
他们研发的先后时间,逐一介绍。这些介绍主要是根据各单
位提供的资料,然后再加以整理。有的单位在资料中还提供
了翻译的正确率及速度。但是因为机器翻译到目前为止还没
有一个大家公认且公开的测试环境及方法,各单位以不同的
标准在不同的机器上测试,难免出入很大。为了不误导读者
,我们在以下的介绍中,将一律不列出正确率及速度,只介
绍各个系统的历史沿革及架构。有兴趣的读者,可向各单位
索取更详细的资料。
二、各单位机器翻译系统简介:
1. 致远科技公司:
致远科技公司的机器翻译系统 (英文名称为 BehaviorTran),
基本上是沿自清华大学电机所与英群公司合作的研究计划。
1988 年 2 月,该公司于新竹科学工业园区成立,继续从事机
器翻译的研究开发,并于 1989 年 7 月正式设立对外的翻译
服务中心,接受客户委托,展开实际的翻译业务。此后透过
翻译中心的回馈,致远公司不断改善系统的效能及使用者介
面。早期 BehaviorTran 主要的翻译对象,是与电脑有关的手
册、使用说明以及书籍等。随着专业辞汇的增加,翻译的工
作也逐渐扩大到电机、机械、航空、心理学等领域。目前的
客户是以在台的国际电脑公司为主。
BehaviorTran 是属于转换式 (Transfer) 的机器翻译系统,以 C
语言设计系统程式。虽然是传统的转换架构,但这个系统
加入了新的作法,使其能更适合新一代机器翻译的需求。语
法形式为补强型的词组结构语法 (Augmented Phrase Structure
Grammar),在词组律中加入了「限制条件」(Condition) 的检
查,并利用个别词汇的属性及语意分析,强化分析的能力,
提高剖析的正确性。系统所用的剖析器,是经过强化的 LR
剖析器,特色如下[8]∶
1.
「Top-down 过滤」加「Bottom-up 剖析」:BehaviorTran 基本
上是采由下而上(bottom-up) 的剖析方式,但同时也利用语法
切分的方式,将剖析用的语法切分成数个次类语法
Subgrammars),使其具有由上而下 (top-down) 方向的预测功
能,便于语法现象的描述及检查,以及过滤一些不适当的分
析。
2.
部份剖析 (Partial Parsing):根据系统的特殊要求,以一个句
子中的部份词串(而非完整的句子) 为单位,进行剖析。例
如,在剖析标题和分离式成语的受词时,检查其中是否含有
名词组等等。
3.
根据评分函数,删除可能性较低的剖析路径:除了利用语言
学知识来删除歧义之外,并以机率方式计算词类、语法和语
意的分数,将未达设定标准的剖析路径删除,以减少歧义数
目及剖析时间。最后并以整合式的评分函数 [9] 选出最可能
的剖析结果,继续执行转换及生成的动作。
BehaviorTran 的词典依应用的层次分成∶
(1) 一般词典,(2) 一般成语词典,(3) 分离式成语词典,(4)
专业词典,(5) 客户词典,和 (6) 专案词典。在实际翻译文
稿时,由于一个词在不同词典的用法及意义可能同时出现,
因此必须将各部词典里的资料加以联并(Unification),以便得
到所要的中文。词典联并时,资料取用的优先顺序为:专案
词典最先,客户词典次之,专业词典再次之,一般词典最后
。
在新的技术方面,BehaviorTran 采用以语料为基础,架构在
高层语言知识上的统计方式,发展出一系列的技术来协助抽
取知识、解决歧义及控制系统的行为。这些技术包括:
1.
利用整合式的评分函数,解决词汇、语法及语意各层次的歧
义现象 [2、7、9]。
2.
使用以鉴别力、强健性为导向的自动学习策略,调整系统参
数,以减少不必要的深层分析,并提高系统的执行绩效 [5、
6]。
3.
利用机率式转换及生成模式,透过双语语料库 (Bilingual
Corpus) 自动找出转换单位及转换规则。并利用目标语的语
法逆向找出系统的生成规则,以产生符合目标语语法的译文
,避免一般转换式系统生硬的翻译 [3]。
4.
在系统中并入回馈功能,使系统的行为能依使用者的需求调
整,减少所需的译后修缮 [11]。
有了这些新的作法,BehaviorTran 将可逐步整合语言学和统
计学的知识,建构一个具有一致性的大型自然语言处理系统
。并以自动化、系统化的方式求取语言模式的参数,改进传
统的机器翻译系统,以迈向新一代机器翻译系统追求的目标
。
近年来由于 Internet 的各种应用日新月异,由网路上快速抽
取资讯的能力,不仅是一般研究机构深感兴趣的话题,对一
般商业机构提供更快速的资讯服务或藉此提高本身的竞争力
,也有莫大的助益。因此 BehaviorTran 研究小组也随时在注
意『线上即时机译』(Online Real Time MT) 及『线上即时资
讯撷取』(Online Real Time Information Retrieval) 等应用的可
能发展。藉由上述机译技术的开发,未来将可望提供更多类
型的资讯转译 (Information Translation) 服务,以便即时跨越
语言障碍,快速抽取所需的资讯。
2. 台湾大学资讯工程研究所:
台湾大学资讯工程研究所在 1986 年由林一鹏教授主持,开
始进行英中机器翻译系统 (称为 NTUECMT) 的基础研究,目
标是建立一套机器辅助翻译系统,并在此套系统上探讨特殊
语言现象的处理方式,以作为进一步应用的参考。到了
1989 年,陈信希教授也开始参与此项研究计划,并改写了剖
析器及执行环境。目前系统在 SPARCstation-1工作站
SunOS4.1.1-HLE 1.1.1 的中文环境下运作。
NTUECMT 是以联并为本的机器翻译系统,从剖析到转换都
采用相同的策略。整个系统架构具有均质性,主要部门包括
语法编译器、词典管理模组、语汇模组、剖析模组、转换模
组、生成模组和两个资料库 (语法资料库及词典)。语法编译
器的功能是编译语法资料库,以产生剖析模组和转换模组。
语法是编译成 Prolog 程式码。NTUECMT 是一套左隅、由下
而上 (left-corner, bottom-up) 循序处理的系统。词典管理模组
以C语言设计。语汇模组担任前处理的工作,将输入语句中
的复合词、惯用词和缩写词预先处理,并还原语形。剖析模
组和转换模组是两个并列执行的单元,运用组合原理将英文
句子结构转换成中文属性结构。联并运算扮演语法和语意知
识的角色,以帮助系统选择词语、增删词语和调整结构。在
属性结构中,属性的顺序对于联并运算并无意义,但在句子
的产生上,属性的顺序却很重要。因此生成模组依据设定顺
序,将中文属性结构线性化,以产生对应的中文句子。除了
基本结构的设计之外,时间信息的转换、介词片语的定位及
翻译、省略句型的剖析及翻译、指涉分析及其在机器翻译的
应用等,也都是 NTUECMT 设计上的重要课题。
3. 工业技术研究院电脑及通讯工业研究所 (简称工研院电通
所)
工研院电通所在机器翻译方面的发展相当早,共有两个系统
,一个是英文译成中文的系统(称为 TransMaster),另一个是
日文译成中文的系统 (称为 ITRI/CCL JCMT)。英中系统的发
展时间是 1986 年到 1990 年,最先由张照煌先生负责,在张
照煌先生赴美进修后,由黎伟权先生负责。使用的人力平均
为每年 6 个人,曾对工业界作技术转移。日中系统的发展时
间为 1989 年到 1992 年,由李炳煌先生负责。平均人力为每
年 9 个人。目前基本架构已经完成,正在作细部调整。
英中系统的架构是转换式,使用强化式语境自由语法
(Augmented Context Free Grammar)及语意格语法 (Case
Grammar) 分析句子,再根据依存结构 (DependencyStructure)
作转换,转换后使用格位样型 (Case Pattern) 进行合成。规则
库的大小为:(1)长句断句 (Long Sentance Segmentation):35 条
,(2) 形态分析:45 条,(3) 英文句法分析:600 条,(4) 语意
分析:100 条,(5) 词汇转换:2000 条,(6) 语法转换:50 条
,(7) 中文合成:400 条。字词以框架 (Frame) 结构表示,包
含语意分类及分析所需的各类信息。一般词汇有 50,000 词,
电脑专业词典有 15,000 词。整个系统是以 Lisp 语言写成,可
在个人电脑上执行。
日中系统也是采转换式,使用强化式语境限制语法 (
Augmented Context Sensitive Grammar) 及语意格语法进行分析
,而以格位样型进行合成。转换及生成的作法和英中系统相
同。规则库的大小为:(1) 形态分析:860 条,(2) 句法分析:
800条,(3) 语意分析:97 条,(4) 词汇转换:94 条,(5) 合成
:306 条。词典结构和英中系统相同,共有基本词汇 79,180
词。系统以 C 语言写成,在 Sun SPARC 工作站上执行。
4. 台湾松下研究所 (Matsushita Electric Institute of Technology, Taipei)
台湾松下研究所从 1987 年 9 月开始发展日中翻译系统 (称为
MITTRAN),由郭俊桔先生担任计划主持人。机译架构采转
换式。目前是以研究计划的形式进行。这套系统不管分析、
转换还是生成,都是采用树形转换语法 (Tree
TransformationGrammar)。另外在语意分析及中文生成方面,
还应用了语意格语法;而在结构转换方面,则应用了依存结
构。规则总数约有 1500 条,基本词典的词项有 60,000 个。
整个系统以C语言写成,在 Solbourne 系列的 UNIX 工作站上
执行。目前并构建了一个语法发展环境,提供描述树状结构
转换 (Tree Transducing) 的语言。
5. 交通大学资讯工程研究所
交通大学资讯工程研究所的中英机器翻译计划 (简称 CEMAT
),是由李锡坚教授主持,从1988 年 8 月开始研究。目前人
力有博士班 1 人,硕士班 4 人。这个中英翻译系统采用转换
式架构。中文断词及词类标记 (Word Segmentation and Tagging
) 是使用马可夫模式 (Bi/Trigram Markov Model)。语法是采用
规则导向的概化结构语法 (Rule-OrientedGeneralized Phrase
Structure Grammar),及词汇导向的中心语驱动语法
(Lexicon-Oriented Head-driven Phrase Structure Grammar)。结构
语法是用来描述构成成份(Constituent) 之间的关系,词汇信息
则用来描述构成成份的个别性质及彼此之间的呼应关系
(Agreement Restriction)。这个系统的剖析器是强化的联并导
向 LR 剖析器(Generalized Unification-based LR Parser)。
这套系统对中文的时制及动貌 (Tense and Aspect) 作了特别的
处理。他们分析了时态成份 (Temporal Constituent),如「了」
等,以抽离出时制及动貌信息。在解决词汇歧义方面,系统
使用的是特征结构 (Feature Structure)。在结构转换方面,
CEMAT使用的是一种 Top-down Guided Bottom-up Structure
Transfer 的作法。这种转换方式是根据组合原理
(Compositionality Principle),将下层信息带到上层节点。系
统并特别处理了中文的「把」字句及名物化结构
(Nominalization)。而目标语的生成是以规则来驱动(Rule-
Driven)。生成语法的形式是 X 标杠理论 (X-bar Theory) 及
概化结构语法。
6. 清华大学资讯科学研究所
清华大学资讯科学所从 1990 年开始研究英中翻译系统,计
划是由张俊盛教授主持。目前人力有博士班学生 1 名,硕士
班学生 3 名,以及专任助理 2 名。这个计划是以中英文版的
国际无线电联合会公约为对象,进行小规模的句法剖析、转
换及合成研究。其中句法剖析是以 PROLOG 语言制作程式。
系统采用简单的句法规则及联并式的图表剖析方式。转换部
份是由主动式的双语词典驱动,进行有限的转换动作。中文
翻译部份是采用以系统语法为基础的句子合成器。
另外在1991年,资讯科学研究所还以印表机使用手册为语料
,研究自动产生英文及中文句子的方法。他们是以句子中名
词组之间的格位关系作为输入格式,采用系统语法来合成句
法结构。
从1992年起,资讯科学研究所开始从事整合式英中翻译系统
的研究。他们整合了机率式、范例式、传统模组式的机器翻
译作法,采用机读式朗文当代英汉双解词典及双语技术手册
语料库为工具,以一般性文章为语料进行研究。目前已经完
成的工作包括:词典资料的撷取、词性分析、词组分析、双
语资料的辞汇对应。
另外,从1992年起,资讯科学研究所也开始研究可翻译及审
查计算机名词的机器辅助系统。这个系统是利用词典资料及
适切的使用者介面,来降低翻译、修正、审查的打字输入及
认知过程的成本。目前的效果据估计已经能节省 50% 左右的
人力。
三、结语
一般说来,机器翻译需要钜量而琐细的知识 (规则)。传统上
,归纳规则的工作是由人来完成。这需要非常大量的人力,
而且也很难维持这些知识的一致性。往往在加入一些规则以
改进某些句子的翻译之后,其他一些原本可以处理的句子,
又变得无法处理。形成像跷跷板一样,在某处将错误压下去
,在别的地方又会冒出新的错误。这种现象使得系统在日趋
庞大之后,变得愈来愈复杂、愈来愈难维护及改进。这个严
重的问题,是许多以传统方法设计的机器翻译系统,最后无
法突破瓶颈的原因。
目前比较有希望的方法,可能是所谓的「以语料库为基础,
以统计为导向的作法」
(Corpus-based Statistics-oriented Approach) [4、10]。这种方法是
先建构一个大型的语料库,然后由人设计一些语言模式
(Language Model) 及语言使用模式 (Language Using Model)。这
些模式是由许多参数来规范。参数值的计算,则是由计算机
从语料库中自动学习。这种作法将获取知识 (Knowledge
Acquisition) 的重担,从人转移到计算机,由计算机去获取及
管理这一大堆参数。因为计算机每次在学习这些参数时,都
是同时考虑这个语料库中所有的资讯,因此可以避免前述的
不一致问题及跷跷板问题。同时每次加入新的语料,或是处
理一个新的领域时,计算机只要重新学一次即可。简言之,
未来的机器翻译系统将会逐渐强调:(1) 参数化的模式;(2)
以语料为基础,以统计为工具,建构在高层语言知识上的语
言模式;(3) 一致性的歧义解决方式与客观的评分机制;(4)
强化鉴别力及强健性的自动学习策略;(5) 双向式的系统设
计;(6) 依使用者需求调整系统行为的回馈控制功能。
虽然从全世界的机器翻译发展史看来,台湾的研究起步较晚
,但在这一波新的研究风潮中,台湾跟其他国家是站在同一
起跑线上,具有很好的契机。目前国内投入机器翻研究的人
力已略见规模。同时经过传播媒体多次的报导之后,社会上
对机器翻译感兴趣的人也愈来愈多。整体说来,台湾已有了
良好的基础。为了使机器翻译的研发工作早日开花结果,我
们希望能有更多对机译系统感兴趣的人,积极加入这个行列
。
最后要感谢致远科技张景新先生、台大陈信希教授、电通所
黎伟权先生、松下郭俊桔先生、交大李锡坚教授、及清大张
俊盛教授热心提供资料,本文才得以顺利完成。
----------------------------
四、参考文献:
[1]
谢清俊、黄居仁、陈克健、郑秋豫、李琳山,「计算语言专
辑」,科学月刊,21 卷第 4 期,280-305 页,科学月刊社,
1990 年 4 月。
[2]
Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized
Probabilistic Semantic Model for Ambiguity Resolution,"
Proceedings of ACL-92, pp. 177-184,30th Annual Meeting of the
Association for Computational Linguistics,University of Delaware,
Newark, DE, USA, 1992.
[3]
Chang, J.-S. and K.-Y. Su, "A Corpus-Based Statistics-Oriented
Transfer and Generation Model for Machine Translation,"
Proceedings of TMI-93,pp. 3-14, 5th Int. Conf. on Theoretical and
Methodological Issues in Machine Translation, Kyoto, Japan, 1993.
[4]
Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: A
Corpus-Based Statistics-Oriented English-Chinese Machine
Translation System,"Proceedings of Machine Translation Summit
III, pp. 33-40, Washington, D.C.,USA, 1991.
[5]
Chiang, T.-H., Y.-C. Lin and K.-Y. Su, "Syntactic Ambiguity
Resolution Using A Discrimination and Robustness Oriented
Adaptive Learning Algorithm",Proceedings of COLING-92, vol. I,
pp. 352-358, 14th Int. Conference on Computational Linguistics,
Nantes, France, 1992.
[6]
Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination
Oriented Probabilistic Tagging," Proceedings of ROCLING-V,
ROC Computational Linguistics Conference V, pp. 87-96, 1992.
[7]
Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of
Score Function," Proc. of COLING-88, vol. 2, pp. 642-644, 12th Int.
Conf. on Computational Linguistics, Budapest, Hungary, 1988.
[8]
Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT
Systems,"Machine Translation, vol. 5, no. 4, pp. 265-300, 1990.
[9]
Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing
with Scoring," In M. Tomita (ed.), Generalized LR Parsing,
Chapter 7, pp. 93-112,Kluwer Academic Publishers, 1991.
[10]
Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented
Machine Translation," Proceedings of TMI-92, pp. 249-262, 4th Int.
Conf. on Theoretical and Methodological Issues in Machine
Translation, Montreal,Canada, 1992.
[11]
Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative
Quality Measure for Machine Translation Systems," Proceedings of
COLING-92, vol. II, pp. 433-439, 14th Int. Conference on
Computational Linguistics, Nantes, France,1992.
来自218.171.116.125 |
|