一个汉英机器翻译系统中的语义处理框架及其作用
作者:常宝宝* 詹卫东**来源:http://ling.ccnu.edu.cn/message/yyxlwx/collection-3/12-bbzwd.htm
【摘要】在汉英机器翻译中,由于汉语本身的一些特点以及汉语和英语的巨大差异,因而语义的处理显得十分重要。本文介绍在我们研制的一个汉英机器翻译系统中所采用的语义处理框架及其设计思想,并简要讨论了该语义处理模式在系统中的作用以及存在的问题。
关键词: 机器翻译语义处理配价语法格语法
一、前言
综观我国的机器翻译研究,尤其是英汉、汉英机译研究。从机器翻译的译文质量来看,英汉系统要远优于汉英系统 。究其原因,一般认为,主要是由于汉语的特点造成的,一方面,汉语的形式标记不发达,分析难度高于英语,另一方面,由于英语形态丰富,较难生成,在汉语到英语的翻译过程中,一些汉语中缺乏的语言范畴在英语生成过程中难以处理。这些特点都必然决定了汉英机器翻译系统必须加强语义处理工作,汉英转换不仅要在语法层面上进行、也要在语义层面上进行。
语义处理至少有下面两个显著作用:(1)语义处理有助于得到句子正确的句法结构。(2)语义处理有助于多义词问题的解决。
同时,在当前语义处理技术还远不成熟的背景下,构筑一个实用机器翻译系统,要求我们必须应用工程的观点看问题,既要吸收语义研究的新成果,也要考虑它们的可行性及可操作性。
本文介绍我们目前研制的一个汉英机器翻译系统** 中的语义处理框架。下面第二部分简要介绍语义处理框架的主要设计思想;第三部分、第四部分较为详尽地介绍了系统所采用的语义分类体系和语义关系体系;第五部分简单地分析了该语义处理框架在系统中的作用以及存在的问题。
应当特别指出,在我们目前的系统中,基于句法信息的处理仍然占据着中心位置,利用语义信息处理的主要目的是在系统中起辅助作用。
二、语义处理框架的设计
在语义处理领域,菲尔墨的格语法理论目前已获得广泛应用,在格语法中,主要描述了中心动词和句中与之共现的名词性成分之间的语义关系,但对名词与名词、名词与形容词之间的语义关系则较少涉及,这同机器翻译对语义处理的要求相比还是不够的。由法国语言学家特思尼耶尔创立的配价语法近年来在汉语学界得到了很多的讨论,并有所拓展,尤其是学者们对于汉语名词和形容词的配价研究。
从研究思路上说,配价语法、格语法有很强的一致性。二者均把句法结构中的主要成分区分为支配成分和从属成分。但二者在研究内容上各有侧重,并且配价语法除对动词的配价关系进行探讨以外,还对名词、形容词的配价关系进行了有益的探讨。可见,综合运用格语法、配价语法的理论,将句法结构中的主要成分区分为支配成分和从属成分,根据支配成分和从属成分之间的语义关系,由支配成分给从属成分指派语义角色,有助于建立面向机器翻译的系统的语义处理模式。
基于上述原则,我们首先建立了一个汉语词语的语义分类体系,然后在分类的基础上,描述中心动词与受其支配的名词、名词与受其支配的其它名词以及形容词之间的语义关系。
三、语义分类体系
在机器翻译中,词的语义分类是标明一个词的语义属性的常用手段,也是我们基于分类原则描述语义结构的基础,词语的语义分类的原则和标准应是受应用目标驱动的。以下简要介绍我们的分类原则和分类体系。
3.1 分类原则
关于词义研究的语义分类方法,无论在语言学界,还是在信息处理界,都已有过很多的讨论。在自然语言处理系统中采用语义分类法标识词义,无论是在理论上还是在实践上,都还有许多不足之处。例如,如何确定分类标准,如何避免在分类中出现交叉现象,分类体系难以全面,分类的深度和广度如何确定。而当在使用某个具体的分类体系对具体词语进行归类时,往往又会碰到许多难以解决的问题,很多词语难于明确归入某一类。我们认为,探讨语义分类,首先要考虑它的应用目标,也就是说,要用它来干什么。只有确定了应用目标。我们才能对诸如分类标准等缠绕分类体系的许多问题作出一个合适的抉择。在机器翻译中,必须从为句法分析、确定语义关系服务的角度确立分类原则和分类基础。
根据以上指导思想,我们在分类对象、分类的深度、广度以等方面做了如下的规定:
(1)分类对象:语义分类建立在词的语法分类的基础之上,主要对汉语动词、名词和形容词三大类实词进行了语义分类。
(2)分类深度、广度:由于我们以动词为中心描述动词、名词之间的语义关系,以名词为中心描述名词和名词间的语义关系,因而我们对名词采用了较细的分类,对动词、形容词采用了相对较粗的分类。同时在分类中,由于抽象事物的分类标准不易确定,而且具体实践也证明,对抽象事物做过细分类也不利于实际操作,因而我们在分类中只对具体事物进行了层次较多、较细的分类,而对抽象事物采取相对较粗的分类。
(3)在具体归类实践中,允许一个词兼属多个语义类,一个词在不同的上下文环境中,意义表现有不同的侧重,追求一词一类的思想是不现实的。
3.2 分类体系
我们将汉语词语总分为事物、性状与运动三个大类。其中事物类又分为具体事物、抽象事物、时间和空间等小类。图3.2为语义分类的一个概貌。
事物 具体事物 生物 人类 人 泛称:男人 女人 老人 少年
职业:教师 工人 会计
......
集体:工厂 委员会 监狱 医院
构件:头 脸 鼻子 嘴 耳朵 头发
动物:鸡 鸭 狗 猪 牛 羊 老虎
......
非生物 自然事物 天体:太阳月亮星星
气象:风雨云红晚霞
......
人为事物 建筑物:楼房别墅礼堂 会议室
可食物:菜 饭 面包 药 补品
用具:剪子 刀子 伞拖把脸盆
......
抽象事物 事情:学潮 往事 命运 经验 形势 事物
性能:特征 性质 质量 力量 标准
性格:品行 道德 作风
意识:意图 幻想 兴趣 主意 见解 感情
......
时间 绝对时间:宋朝 三国
相对时间:昨天 当代 古代 今天
空间 方位:东南前面
具体空间:浙江 西湖
抽象空间:战线 基层 体坛
性状 外形:长 短 大 小 方 圆 尖
表象:亮 紧 松 凉爽 粗糙
颜色:红 黄 鲜艳 素淡
......
运动 关联:是 有 包括 等于 姓 含 存在
心理活动:企图 认识 赞成 吝惜 重视
行为动作 自变:死 病
促变:繁荣 减少
自为:笑 休息 咳嗽
......
图3.2语义分类概貌
四、语义关系
有了上述语义分类,就可以以此为基础,刻画词与词之间的语义关系。下面介绍我们关于语义关系划分的一些做法。
4.1 原则
(1)描述对象:主要描述三大类实词之间的语义关系,描述名词和动词、名词和名词、形容词和名词之间的语义搭配关系。
(2)描述深度:在语义关系的分析实践中,异类词之间的语义关系的描述起来相对较易,同类词间语义关系描述起来要难一些。例如:动词与名词之间的语义关系易于描述,而动词和动词之间的语义关系就较难描述。在我们的语义关系划分中,采用了较粗的划分,主要区分为主体、客体、邻体、处所、工具等几种。主要是为了在描述格框架时易于操作和保持较好的一致性。
4.2语义关系设置
我们综合应用配价语法和格语法的观点,对一个词语,描述它的配价数,以及该词对其各个配项的语义要求。
(1)配价数
用配价数来描述一个实词跟其他实词之间发生语义联系的能力。例如:
1)形容词“大”可以跟一个事物类的词发生语义关联。配价数为1。表现为:
大树
形容词“热情”可以跟两个事物类的词发生语义关联。配价数为2。表现为:
老王对我很热情
2)名词“儿子”可以跟一个事物类的词发生语义关联。配价数为1。表现为:
老王的儿子
名词“意见”可以跟两个事物类的词发生语义关联。配价数为2。表现为:
老王对你的意见
3)动词“咳嗽”可以跟一个事物类的词发生语义关联。配价数为1。表现为:
老王咳嗽得厉害
动词“吃”可以跟两个事物类的词发生语义关联。配价数为2。表现为:
孩子在吃苹果
动词“给”可以跟三个事物类的词发生语义关联。配价数为3。表现为:
老师给了学生一本书
(2)词的语义框架描述
对于动词、名词和形容词的配价要求在词典中进行详细描述。主要有如下设置:
·主体: 动作或性状的发出者或承当者;事物的参照者,例如:
他把书给我。 动词“给”的主体是“他”,语义要求是“人”
花蔫了。 形容词“蔫”的主体是“花”,主体语义类要求是“植物”
老王的妻子 名词“妻子”的主体是“老王”,语义要求是“人”
·客体: 动作或变化的影响者;事物的关联对象,例如:
老师正在指导学生。 动词“指导”客体是“学生”,客体语义要求是“人”
他对象棋的兴趣淡薄了。形容词“淡薄”的客体是“兴趣”,语义要求是“抽象事物”
老王对油画的兴趣 名词“兴趣”的客体是“油画”,语义要求“领域”
·与事: 事件中的受益者或受损者,例如:
他把书给我 动词“给”的与事是“我”,与事语义要求是“人”
能跟动词发生语义联系的名词性成分还有时间、处所、方式等等多种情况。这里就不一一列举了。
五、语义处理的作用及其存在的问题
经过实际考察,我们发现在引入上述语义处理框架之后,译文质量有了明显的改善,但也发现了一些问题。我们引入语义处理模式主要是为了解决多义词问题、消解句法结构的歧义。下面我们围绕着这两个环节分别简单加以讨论,更为详尽的论述参见文献。
5.1多义词意义的确定
多义词问题提高译文质量的主要障碍之一。引入语义分类及语义关系的描述体系,可以有效的解决其中的一部分问题。例如,下面的多义词问题。
(1) 妈妈想女儿
(2) 爸爸想主意
(1)、(2)中的“想”在译成英语时,显然要选择不同的译词。这时候,我们可以根据“想”所带客体语义类来确定“想”表现为何种意义。当客体语义类为“人”时,“想”的意义为“想念”,译成英语是“miss”。当客体语义类为“事理”,“想”的意义为“思考”,译成英语是“think”。
但是凭借语义分类以及语义关系并不能完全解决多义词问题。首先是一个词的不同义项可以带相同义类的配价成分。例如,下面两句中
(3) 她在帮姐姐看孩子。
(4) 她深情地看着自己的孩子。
两句中的“看”需要译成不同的英文译词。第(3)句中的“看”的意义为“看护”,应翻译为“look after”,而第(4)句中的“看”的意义为“注视”,应翻译为“look at”。然而凭借与之搭配的主体、客体语义类显然不能就其意义作出正确区分。
另外,对于有的词语,同一义项带不同的客体翻译成英语时却有不同的译法,这也可以视为一种多义词现象,例如,“看电影”、“看电视”这种情况下语义分类结合语义关系也难给出满意的解答。
5.2 消解句法结构的歧义
正确消解歧义是正确翻译的基础。引入前文的语义模式可以有效地消解一些歧义现象。例如,下列潜在歧义结构,
VP+NP1+“的”+NP2
既可以分析为],结果为VP结构,也可以分析为[+“的”+NP2],结果为NP结构。
(5) 他在清理学生的寝室。
(6) 他是清理学生寝室的工人。
动词“清理”的配价数是2,它的主体语义类要求为“人类”,客体语义类要求为“建筑物”、“空间”等,在(6)中,“工人”的语义类是“人”,由此,机器可以判断“工人”不会是动词“清理”的客体,“清理学生寝室的工人”的合理分析只能是[+“的”+NP2],而“寝室”的语义类是“空间”,因而,在(7)中“寝室”不会是“清理”的主体,其语义类符合“清理”的客体的语义要求,是“清理”的宾语,“清理学生的寝室”的合理分析只能为]。
同样,该语义处理模式也不能保证消解所有的歧义现象,考察下面的汉语句子
(7) 咬死猎人的老虎已被人们打死。
(8) 狐狸经常咬死猎人的鸡。
(7)、(8)两句中“咬死猎人的老虎”、“咬死猎人的鸡”分别与(5)、(6)两句中“清理学生寝室的工人”以及“清理学生的寝室”结构对应,但却不能按同样的方法消解歧义。这是因为,动词“咬”对主体、客体的语义要求都可以是“动物”或“人”,“猎人”、“老虎”和“鸡”都满足这样的要求,既可以做主体,也可以做客体,层次结构无法确定。
从上面的讨论可以看出,语义信息的介入有助于多义词的意义的确定和在分析过程中分化歧义现象,从而有效地提高译文的质量。但是,语义信息的介入并不能完全解决多义词问题以及歧义消解问题。从机器翻译的实践来看,语义信息介入是必要的,但是,要想获得更高的译文效果,单纯靠语义信息仍然是不够的。
六、结束语
本文介绍了一个用于汉英机器翻译的汉语语义处理框架,主要是在汉语配价理论和格语法的指导下,对动词、形容词以及名词三类主要实词进行基于语义分类的框架描写,并简要讨论了该框架在汉英机器翻译中的作用以及存在的问题。
可以看出,我们目前所引入的语义处理框架还比较简单,对词语之间语义关系的描述还不是很细。并且在确定词语之间的配价关系时,多数是描述处于同一句法层次上的两个直接成分(IC)之间的语义关系,对处于不同句法层次上的非直接成分之间的语义关系较少兼顾。经过实际测试和分析,我们发现该处理模式使译文质量有了明显改善,但同时也存在一定的局限性。在我们目前的系统中,基于句法层面的转换仍然占据中心位置。我们正在对这一体系进行改进,以期获得更好的翻译效果。
参考文献
段慧明,俞士汶,关于1995年度机器翻译评测的总结报告,《计算机世界报》评测版,1996年3月25日
俞士汶,自然语言语义分析技术,中国计算机用户,1988年第5期
沈阳,郑定欧主编,《现代汉语配价语法研究》,北京大学出版社,1995
袁毓林,一价名词的认知研究,中国语文,1994年第4期
袁毓林,现代汉语名词的配价研究,中国社会科学,1992年第3期
詹卫东,刘群,语义分类在汉英机器翻译中的作用及其存在的问题,第四届全国计算语言学会议文集,北京,1997
陈群秀,信息处理用现代汉语语义分类体系的设计思想,《计算机时代的汉语和汉字研究》,清华大学出版社,1996
孙宏林,信息处理用汉语语义词典的描述方法,《现代语言学,理论建设的新思考》,语文出版社,1994
冯志伟,论歧义结构的潜在性,中文信息学报,1995年第4期
(此文发表于《计算机世界报》,1998年第13期“技术专题版”)
--------------------------------------------------------------------------------
* 本文工作得到了国家863计划的资助 (编号: 863-306-03-06-2)
** 中国科学院计算所二室和北京大学计算语言学研究所目前正在联合研制的一个汉英机器翻译系统
页:
[1]