機器翻譯在台灣之研究與發展

Artvine · 发表于 2004-1-19 19:43:28

http://artvine.com.tw/cgi-bin/board/bbsboard.pl?board_id=6&type=show_post&post=381

柴禾妞 · 发表于 2004-1-19 19:56:26

作者：苏克毅
来源：青藤木屋
1993/2/25 (Rev. 1997/3/07)
----------------------------------------------------------------------------------

一、机器翻译系统在台湾的发展概况

相对于美国、苏联或中国大陆，台湾在机器翻译方面的研究
，开始得相当晚。一直到1985年 5 月，才有清华大学电机工
程研究所与英群电脑公司合作，由苏克毅教授带领两位助理
开始研究英汉机器翻译系统。接着台湾大学资讯工程研究所
(林一鹏教授主持)、工业技术研究院电子所 (电通所的前身
，由张照煌先生主持)、台湾松下研究所(郭俊桔先生主持)、
台湾王安公司 (黄世道先生主持)、交通大学资讯工程研究所
(李锡坚教授主持)、清华大学资讯科学研究所 (张俊盛教授
主持)、资策会产品开发处 (刘龙龙博士主持) 等，也都陆续
展开这方面的研究。此外，中央研究院资讯所、交通部电信
研究所等单位，虽然没有机器翻译的研究计划，但也有相关
性的研究计划。由于研究机器翻译的人愈来愈多，为了让大
家有交换研究心得及沟通意见的机会，台湾从 1988 年起，
每年都举办一次计算语言学研讨会 (英文名称为 R.O.C.
Computational Linguistics Conference，由中央研究院的陈克健
教授及黄居仁教授筹办第一、二届)，并不定期举行各式小
型讨论会。在各项活动日趋积极之后，大家觉得有必要成立
一个正式的组织，来推动这方面的研究。因此，计算语言学
学会于 1990 年 3 月正式成立 [1]，负责统筹办理各项活动，
并与国外相关研究单位联系。学会成立至今已历三年，在第
一任理事长谢清俊教授及第二任理事长陈克健教授带动下，
成绩斐然。

除了计算语言学学会的活动之外，1991 年 6 月也在溪头专为
机器翻译举办了一次「机器翻译研讨会」，并邀请到三位国
际知名的学者专家 (Makoto Nagao 教授、Winfield
Scott Bennett 博士以及 Masaru Tomita 教授) 作专题演讲。
1993 年 2 月，更进一步在计算语言学学会之下，正式成立机
器翻译研究小组 (Special Interest Group on Machine Translation
，简称 SIGMT)，并以 SIGMT 团体会员名义加入亚洲太平
洋区机器翻译协会(Asia-Pacific Association for Machine
Translation) 及世界机器翻译协会(International Assocication for
Machine Translation)。因此台湾目前的机器翻译研究发展已相
当健全。

前面所提的是机器翻译在学术及研究单位进行的情形，接下
来要介绍目前工业界商品化的情形。前面提到的几个研究小
组中，清华大学电机研究所与英群电脑公司合作的计划，由
于原来实验室空间不足，研究人员于 1988 年 2 月迁至新竹
科学工业园区，成立致远科技公司，继续从事机器翻译的研
究开发。目前是以英汉系统为主，在工作站上执行，并于
1989 年 7 月开始提供翻译服务。主要是翻译技术手册。王安
公司从事英汉机译研究一段时期之后，因故中止。原先的研
究人员自组欧泰公司，继续开发英汉机译系统，现已有在个
人电脑上执行的软体问世 (即「译经」)。此外，坊间也有
功学电脑公司，发行在个人电脑上执行的英汉及汉英系统 (
广告上宣称还有其他数种语言配对)。然而这些个人电脑上的
软体，恐怕都还不是真正实用的产品 (意指能够大量、快速、
且可维持一定品质的翻译)。

除了上述的研发活动之外，台湾可能还有其他单位在研究开
发机器翻译。限于手边资料，难免有遗珠之憾。对于那些遗
漏的单位，除在此致歉之外，也希望他们能提供资料，以便
日后有机会时，再作介绍。

以下我们将对曾经发表过论文，公开资料较多的系统，按照
他们研发的先后时间，逐一介绍。这些介绍主要是根据各单
位提供的资料，然后再加以整理。有的单位在资料中还提供
了翻译的正确率及速度。但是因为机器翻译到目前为止还没
有一个大家公认且公开的测试环境及方法，各单位以不同的
标准在不同的机器上测试，难免出入很大。为了不误导读者
，我们在以下的介绍中，将一律不列出正确率及速度，只介
绍各个系统的历史沿革及架构。有兴趣的读者，可向各单位
索取更详细的资料。

二、各单位机器翻译系统简介：

1. 致远科技公司：

致远科技公司的机器翻译系统 (英文名称为 BehaviorTran)，
基本上是沿自清华大学电机所与英群公司合作的研究计划。
1988 年 2 月，该公司于新竹科学工业园区成立，继续从事机
器翻译的研究开发，并于 1989 年 7 月正式设立对外的翻译
服务中心，接受客户委托，展开实际的翻译业务。此后透过
翻译中心的回馈，致远公司不断改善系统的效能及使用者介
面。早期 BehaviorTran 主要的翻译对象，是与电脑有关的手
册、使用说明以及书籍等。随着专业辞汇的增加，翻译的工
作也逐渐扩大到电机、机械、航空、心理学等领域。目前的
客户是以在台的国际电脑公司为主。

BehaviorTran 是属于转换式 (Transfer) 的机器翻译系统，以 C
语言设计系统程式。虽然是传统的转换架构，但这个系统
加入了新的作法，使其能更适合新一代机器翻译的需求。语
法形式为补强型的词组结构语法 (Augmented Phrase Structure
Grammar)，在词组律中加入了「限制条件」(Condition) 的检
查，并利用个别词汇的属性及语意分析，强化分析的能力，
提高剖析的正确性。系统所用的剖析器，是经过强化的 LR
剖析器，特色如下[8]∶

1.
「Top-down 过滤」加「Bottom-up 剖析」：BehaviorTran 基本
上是采由下而上(bottom-up) 的剖析方式，但同时也利用语法
切分的方式，将剖析用的语法切分成数个次类语法
Subgrammars)，使其具有由上而下 (top-down) 方向的预测功
能，便于语法现象的描述及检查，以及过滤一些不适当的分
析。

2.
部份剖析 (Partial Parsing)：根据系统的特殊要求，以一个句
子中的部份词串(而非完整的句子) 为单位，进行剖析。例
如，在剖析标题和分离式成语的受词时，检查其中是否含有
名词组等等。

3.
根据评分函数，删除可能性较低的剖析路径：除了利用语言
学知识来删除歧义之外，并以机率方式计算词类、语法和语
意的分数，将未达设定标准的剖析路径删除，以减少歧义数
目及剖析时间。最后并以整合式的评分函数 [9] 选出最可能
的剖析结果，继续执行转换及生成的动作。

BehaviorTran 的词典依应用的层次分成∶
(1) 一般词典，(2) 一般成语词典，(3) 分离式成语词典，(4)
专业词典，(5) 客户词典，和 (6) 专案词典。在实际翻译文
稿时，由于一个词在不同词典的用法及意义可能同时出现，
因此必须将各部词典里的资料加以联并(Unification)，以便得
到所要的中文。词典联并时，资料取用的优先顺序为：专案
词典最先，客户词典次之，专业词典再次之，一般词典最后
。

在新的技术方面，BehaviorTran 采用以语料为基础，架构在
高层语言知识上的统计方式，发展出一系列的技术来协助抽
取知识、解决歧义及控制系统的行为。这些技术包括：

1.
利用整合式的评分函数，解决词汇、语法及语意各层次的歧
义现象 [2、7、9]。

2.
使用以鉴别力、强健性为导向的自动学习策略，调整系统参
数，以减少不必要的深层分析，并提高系统的执行绩效 [5、
6]。

3.
利用机率式转换及生成模式，透过双语语料库 (Bilingual
Corpus) 自动找出转换单位及转换规则。并利用目标语的语
法逆向找出系统的生成规则，以产生符合目标语语法的译文
，避免一般转换式系统生硬的翻译 [3]。

4.
在系统中并入回馈功能，使系统的行为能依使用者的需求调
整，减少所需的译后修缮 [11]。

有了这些新的作法，BehaviorTran 将可逐步整合语言学和统
计学的知识，建构一个具有一致性的大型自然语言处理系统
。并以自动化、系统化的方式求取语言模式的参数，改进传
统的机器翻译系统，以迈向新一代机器翻译系统追求的目标
。

近年来由于 Internet 的各种应用日新月异，由网路上快速抽
取资讯的能力，不仅是一般研究机构深感兴趣的话题，对一
般商业机构提供更快速的资讯服务或藉此提高本身的竞争力
，也有莫大的助益。因此 BehaviorTran 研究小组也随时在注
意『线上即时机译』(Online Real Time MT) 及『线上即时资
讯撷取』(Online Real Time Information Retrieval) 等应用的可
能发展。藉由上述机译技术的开发，未来将可望提供更多类
型的资讯转译 (Information Translation) 服务，以便即时跨越
语言障碍，快速抽取所需的资讯。

2. 台湾大学资讯工程研究所：

台湾大学资讯工程研究所在 1986 年由林一鹏教授主持，开
始进行英中机器翻译系统 (称为 NTUECMT) 的基础研究，目
标是建立一套机器辅助翻译系统，并在此套系统上探讨特殊
语言现象的处理方式，以作为进一步应用的参考。到了
1989 年，陈信希教授也开始参与此项研究计划，并改写了剖
析器及执行环境。目前系统在 SPARCstation-1工作站
SunOS4.1.1-HLE 1.1.1 的中文环境下运作。

NTUECMT 是以联并为本的机器翻译系统，从剖析到转换都
采用相同的策略。整个系统架构具有均质性，主要部门包括
语法编译器、词典管理模组、语汇模组、剖析模组、转换模
组、生成模组和两个资料库 (语法资料库及词典)。语法编译
器的功能是编译语法资料库，以产生剖析模组和转换模组。
语法是编译成 Prolog 程式码。NTUECMT 是一套左隅、由下
而上 (left-corner, bottom-up) 循序处理的系统。词典管理模组
以C语言设计。语汇模组担任前处理的工作，将输入语句中
的复合词、惯用词和缩写词预先处理，并还原语形。剖析模
组和转换模组是两个并列执行的单元，运用组合原理将英文
句子结构转换成中文属性结构。联并运算扮演语法和语意知
识的角色，以帮助系统选择词语、增删词语和调整结构。在
属性结构中，属性的顺序对于联并运算并无意义，但在句子
的产生上，属性的顺序却很重要。因此生成模组依据设定顺
序，将中文属性结构线性化，以产生对应的中文句子。除了
基本结构的设计之外，时间信息的转换、介词片语的定位及
翻译、省略句型的剖析及翻译、指涉分析及其在机器翻译的
应用等，也都是 NTUECMT 设计上的重要课题。

3. 工业技术研究院电脑及通讯工业研究所 (简称工研院电通
所)

工研院电通所在机器翻译方面的发展相当早，共有两个系统
，一个是英文译成中文的系统(称为 TransMaster)，另一个是
日文译成中文的系统 (称为 ITRI/CCL JCMT)。英中系统的发
展时间是 1986 年到 1990 年，最先由张照煌先生负责，在张
照煌先生赴美进修后，由黎伟权先生负责。使用的人力平均
为每年 6 个人，曾对工业界作技术转移。日中系统的发展时
间为 1989 年到 1992 年，由李炳煌先生负责。平均人力为每
年 9 个人。目前基本架构已经完成，正在作细部调整。

英中系统的架构是转换式，使用强化式语境自由语法
(Augmented Context Free Grammar)及语意格语法 (Case
Grammar) 分析句子，再根据依存结构 (DependencyStructure)
作转换，转换后使用格位样型 (Case Pattern) 进行合成。规则
库的大小为：(1)长句断句 (Long Sentance Segmentation)：35 条
，(2) 形态分析：45 条，(3) 英文句法分析：600 条，(4) 语意
分析：100 条，(5) 词汇转换：2000 条，(6) 语法转换：50 条
，(7) 中文合成：400 条。字词以框架 (Frame) 结构表示，包
含语意分类及分析所需的各类信息。一般词汇有 50,000 词，
电脑专业词典有 15,000 词。整个系统是以 Lisp 语言写成，可
在个人电脑上执行。

日中系统也是采转换式，使用强化式语境限制语法 (
Augmented Context Sensitive Grammar) 及语意格语法进行分析
，而以格位样型进行合成。转换及生成的作法和英中系统相
同。规则库的大小为：(1) 形态分析：860 条，(2) 句法分析：
800条，(3) 语意分析：97 条，(4) 词汇转换：94 条，(5) 合成
：306 条。词典结构和英中系统相同，共有基本词汇 79,180
词。系统以 C 语言写成，在 Sun SPARC 工作站上执行。

4. 台湾松下研究所 (Matsushita Electric Institute of Technology, Taipei)

台湾松下研究所从 1987 年 9 月开始发展日中翻译系统 (称为
MITTRAN)，由郭俊桔先生担任计划主持人。机译架构采转
换式。目前是以研究计划的形式进行。这套系统不管分析、
转换还是生成，都是采用树形转换语法 (Tree
TransformationGrammar)。另外在语意分析及中文生成方面，
还应用了语意格语法；而在结构转换方面，则应用了依存结
构。规则总数约有 1500 条，基本词典的词项有 60,000 个。
整个系统以C语言写成，在 Solbourne 系列的 UNIX 工作站上
执行。目前并构建了一个语法发展环境，提供描述树状结构
转换 (Tree Transducing) 的语言。

5. 交通大学资讯工程研究所

交通大学资讯工程研究所的中英机器翻译计划 (简称 CEMAT
)，是由李锡坚教授主持，从1988 年 8 月开始研究。目前人
力有博士班 1 人，硕士班 4 人。这个中英翻译系统采用转换
式架构。中文断词及词类标记 (Word Segmentation and Tagging
) 是使用马可夫模式 (Bi/Trigram Markov Model)。语法是采用
规则导向的概化结构语法 (Rule-OrientedGeneralized Phrase
Structure Grammar)，及词汇导向的中心语驱动语法
(Lexicon-Oriented Head-driven Phrase Structure Grammar)。结构
语法是用来描述构成成份(Constituent) 之间的关系，词汇信息
则用来描述构成成份的个别性质及彼此之间的呼应关系
(Agreement Restriction)。这个系统的剖析器是强化的联并导
向 LR 剖析器(Generalized Unification-based LR Parser)。

这套系统对中文的时制及动貌 (Tense and Aspect) 作了特别的
处理。他们分析了时态成份 (Temporal Constituent)，如「了」
等，以抽离出时制及动貌信息。在解决词汇歧义方面，系统
使用的是特征结构 (Feature Structure)。在结构转换方面，
CEMAT使用的是一种 Top-down Guided Bottom-up Structure
Transfer 的作法。这种转换方式是根据组合原理
(Compositionality Principle)，将下层信息带到上层节点。系
统并特别处理了中文的「把」字句及名物化结构
(Nominalization)。而目标语的生成是以规则来驱动(Rule-
Driven)。生成语法的形式是 X 标杠理论 (X-bar Theory) 及
概化结构语法。

6. 清华大学资讯科学研究所

清华大学资讯科学所从 1990 年开始研究英中翻译系统，计
划是由张俊盛教授主持。目前人力有博士班学生 1 名，硕士
班学生 3 名，以及专任助理 2 名。这个计划是以中英文版的
国际无线电联合会公约为对象，进行小规模的句法剖析、转
换及合成研究。其中句法剖析是以 PROLOG 语言制作程式。
系统采用简单的句法规则及联并式的图表剖析方式。转换部
份是由主动式的双语词典驱动，进行有限的转换动作。中文
翻译部份是采用以系统语法为基础的句子合成器。

另外在1991年，资讯科学研究所还以印表机使用手册为语料
，研究自动产生英文及中文句子的方法。他们是以句子中名
词组之间的格位关系作为输入格式，采用系统语法来合成句
法结构。

从1992年起，资讯科学研究所开始从事整合式英中翻译系统
的研究。他们整合了机率式、范例式、传统模组式的机器翻
译作法，采用机读式朗文当代英汉双解词典及双语技术手册
语料库为工具，以一般性文章为语料进行研究。目前已经完
成的工作包括：词典资料的撷取、词性分析、词组分析、双
语资料的辞汇对应。

另外，从1992年起，资讯科学研究所也开始研究可翻译及审
查计算机名词的机器辅助系统。这个系统是利用词典资料及
适切的使用者介面，来降低翻译、修正、审查的打字输入及
认知过程的成本。目前的效果据估计已经能节省 50% 左右的
人力。

三、结语

一般说来，机器翻译需要钜量而琐细的知识 (规则)。传统上
，归纳规则的工作是由人来完成。这需要非常大量的人力，
而且也很难维持这些知识的一致性。往往在加入一些规则以
改进某些句子的翻译之后，其他一些原本可以处理的句子，
又变得无法处理。形成像跷跷板一样，在某处将错误压下去
，在别的地方又会冒出新的错误。这种现象使得系统在日趋
庞大之后，变得愈来愈复杂、愈来愈难维护及改进。这个严
重的问题，是许多以传统方法设计的机器翻译系统，最后无
法突破瓶颈的原因。

目前比较有希望的方法，可能是所谓的「以语料库为基础，
以统计为导向的作法」
(Corpus-based Statistics-oriented Approach) [4、10]。这种方法是
先建构一个大型的语料库，然后由人设计一些语言模式
(Language Model) 及语言使用模式 (Language Using Model)。这
些模式是由许多参数来规范。参数值的计算，则是由计算机
从语料库中自动学习。这种作法将获取知识 (Knowledge
Acquisition) 的重担，从人转移到计算机，由计算机去获取及
管理这一大堆参数。因为计算机每次在学习这些参数时，都
是同时考虑这个语料库中所有的资讯，因此可以避免前述的
不一致问题及跷跷板问题。同时每次加入新的语料，或是处
理一个新的领域时，计算机只要重新学一次即可。简言之，
未来的机器翻译系统将会逐渐强调：(1) 参数化的模式；(2)
以语料为基础，以统计为工具，建构在高层语言知识上的语
言模式；(3) 一致性的歧义解决方式与客观的评分机制；(4)
强化鉴别力及强健性的自动学习策略；(5) 双向式的系统设
计；(6) 依使用者需求调整系统行为的回馈控制功能。

虽然从全世界的机器翻译发展史看来，台湾的研究起步较晚
，但在这一波新的研究风潮中，台湾跟其他国家是站在同一
起跑线上，具有很好的契机。目前国内投入机器翻研究的人
力已略见规模。同时经过传播媒体多次的报导之后，社会上
对机器翻译感兴趣的人也愈来愈多。整体说来，台湾已有了
良好的基础。为了使机器翻译的研发工作早日开花结果，我
们希望能有更多对机译系统感兴趣的人，积极加入这个行列
。

最后要感谢致远科技张景新先生、台大陈信希教授、电通所
黎伟权先生、松下郭俊桔先生、交大李锡坚教授、及清大张
俊盛教授热心提供资料，本文才得以顺利完成。
----------------------------

四、参考文献：

[1]
谢清俊、黄居仁、陈克健、郑秋豫、李琳山，「计算语言专
辑」，科学月刊，21 卷第 4 期，280-305 页，科学月刊社，
1990 年 4 月。

[2]
Chang, J.-S., Y.-F. Luo and K.-Y. Su, "GPSM: A Generalized
Probabilistic Semantic Model for Ambiguity Resolution,"
Proceedings of ACL-92, pp. 177-184,30th Annual Meeting of the
Association for Computational Linguistics,University of Delaware,
Newark, DE, USA, 1992.

[3]
Chang, J.-S. and K.-Y. Su, "A Corpus-Based Statistics-Oriented
Transfer and Generation Model for Machine Translation,"
Proceedings of TMI-93,pp. 3-14, 5th Int. Conf. on Theoretical and
Methodological Issues in Machine Translation, Kyoto, Japan, 1993.

[4]
Chen, S.-C., J.-S. Chang, J.-N. Wang and K.-Y. Su, "ArchTran: A
Corpus-Based Statistics-Oriented English-Chinese Machine
Translation System,"Proceedings of Machine Translation Summit
III, pp. 33-40,　Washington, D.C.,USA, 1991.

[5]
Chiang, T.-H., Y.-C. Lin and　K.-Y. Su, "Syntactic Ambiguity
Resolution Using A Discrimination and Robustness Oriented
Adaptive Learning Algorithm",Proceedings of COLING-92, vol. I,
pp. 352-358, 14th Int. Conference on Computational Linguistics,
Nantes, France, 1992.

[6]
Lin, Yi-Chung, Tung-Hui Chiang and Keh-Yih Su, "Discrimination
Oriented Probabilistic Tagging," Proceedings of ROCLING-V,
ROC Computational Linguistics Conference V, pp. 87-96, 1992.

[7]
Su, K.-Y. and J.-S. Chang, "Semantic and Syntactic Aspects of
Score Function," Proc. of COLING-88, vol. 2, pp. 642-644, 12th Int.
Conf. on Computational Linguistics, Budapest, Hungary, 1988.

[8]
Su, K.-Y. and J.-S. Chang, "Some Key Issues in Designing MT
Systems,"Machine Translation, vol. 5, no. 4, pp. 265-300, 1990.

[9]
Su, K.-Y., J.-N. Wang, M.-H. Su and J.-S. Chang, "GLR Parsing
with Scoring," In M. Tomita (ed.), Generalized LR Parsing,
Chapter 7, pp. 93-112,Kluwer Academic Publishers, 1991.

[10]
Su, K.-Y and J.-S. Chang, "Why Corpus-Based Statistics-Oriented
Machine Translation," Proceedings of TMI-92, pp. 249-262, 4th Int.
Conf. on Theoretical and Methodological Issues in Machine
Translation, Montreal,Canada, 1992.

[11]
Su, K.-Y., M.-W. Wu and J.-S. Chang, "A New Quantitative
Quality Measure for Machine Translation Systems," Proceedings of
COLING-92, vol. II, pp. 433-439, 14th Int. Conference on
Computational　Linguistics, Nantes, France,1992.

来自218.171.116.125

		自动登录	找回密码
密码			注册

機器翻譯在台灣之研究與發展

相关帖子

机器翻译在台湾之研究与发展

浏览过的版块