湘里妹子学术网

 找回密码
 注册
查看: 2868|回复: 0

语音学与计算语言学研究:推出一批学术成果

[复制链接]
发表于 2007-1-7 21:23:21 | 显示全部楼层 |阅读模式
语音学与计算语言学研究:推出一批学术成果
作者:江荻
来源:中国社会科学院院报 2006-1-19 10:03:12

   
    一、计算语言学研究

     2005年,民族所语音学与实验语言学室围绕国家自然科学基金课题“面向信息处理的现代藏语语法属性库研究”课题,将主攻方向由藏语文本分词以及句法分析调整到句法分析与词法分析相结合的方向,以前期研究所建立的藏语信息处理语法框架为平台,在句法框架模式下开展了词法的分析和应用研究。
     藏语词法问题不是单纯从词语内部进行静态分析就可解决的,词法基本模式只能给研究提供基础知识,更多的实际应用取决于词法与句法的相互配合。为此,我们建立了以词为核心的词法句法数据库,调用藏民族学生对词语进行句法例句填充,然后再对词法进行分类和分析,观察词法在句法中的功能和作用。以动词为例,我们给每个词语设计了词形、意义、音节数、构词类型、构词结构、时态结构、词根语素义等20余项词法句法填充内容。为了开展好这样的工作,我们分别针对动词、形容词、名词开展更精细的研究。例如,动词的句法语义类别是设计动词项的关键,我们在研究中突破传统语法对动词的分类,将动词按照句法语义特征分为12大类,分别是性状动词,动作动词,心理动词,感知动词,变化动词,趋向动词,述说动词,关系动词,领有动词,存在动词,互动动词,致使动词。除此之外,藏语动词分类中还可分出许多小类,如获得义动词、等价义动词、称呼义动词、给予义动词等,这些动词在论元要求和句法标记上也各有特点。还有一些特殊句式与动词句法语义也有关系,如比较句、气象句等。至于藏语传统的动词语法分类或古典文法分类,如及物与不及物动词、自动与使动动词、自主与不自主动词,我们认为均不能全面细致反映各类语法句式,可以放在更高层次上或者与句法语义类别交互加以概括和运用。
     为此,我们在国际国内会议上发表了专题论文,就这两方面的深入研究加以阐述。论文《现代藏语动词的句法语义分类及相关语法句式》在全国计算语言学专门会议上发表,该文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则,区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求。因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词。动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础。这篇论文获得与会学者的好评,也被中文信息学会计算语言学专业委员会评为优秀推荐论文,提交中文信息学报发表。另一篇论文《藏语语法词典的动词信息项及相关功能描述》(英文版),被第二届亚洲自然语言处理大会接受,并被收入Sprig出版社专辑,进入SCI国际联机检索体系。该文不仅从理论上阐述了藏语动词信息项建设的可能性以及技术性,而且是一篇具有实际操作价值的论文。论文讨论根据面向信息处理的藏语语法体系,设计出适合信息处理所需的动词信息项,提出藏语动词语法信息包括形态、词法、句法三个大类,其中句法以动词的句法语义分类为核心,并详细讨论了不同类动词对句法结构的影响。论文设计的动词信息表基本囊括了动词的各类相关属性,是实践与理论结合的产物。
     在词法研究方面,发表了论文《藏语电子词典复合动词的收词原则》,讨论了藏语复合动词的构词特点以及由这些特点决定的电子词典收词原则。由于藏语复合动词的复杂性,以及语言在使用中的心理复杂性等原因,藏语复合动词是否适于都收入词典不仅存在理论上的问题,也存在操作上的问题。该文初步确定的几条原则是:⑴收入全部单音动词,并对单音动词进行构词能力语法标注。⑵尽量收入各类由动词语素与其他语素构成的名词,并对它们进行语义类别和结构类别标柱。⑶收入不单独成词而与动词语素结合的复合动词,如重叠式复合动词。
     在组块研究方面,发表的《现代藏语带助动词谓语组块的识别方法》论文,实际是在谓语组块研究基础上的深化研究,首先介绍了藏语助动词的功能以及在各类句法结构中的分布特征,包括出现在动词谓语组块、非谓动词组块、从句组块和复合句的内嵌分句的情况;然后根据这些句法分布特征提出了助动词的基本识别算法以及识别中可利用的句法规则。
     实验室藏语自然语言处理方面最重要的突破性研究的代表作是《面向机器处理的现代藏语句法规则和词类、组块标注集》。这篇论文意义重大,宣告了研究室初步建立起有关面向藏语自然语言处理的语法体系,是我们进一步开展藏语计算语言研究的基石。这篇论文长达8万字,对藏语所有句法单位进行了分析和标记建设,同时也就涉及到了藏语各类语法现象,包括词法和句法。
     
二、语音学研究

     年度语音学的研究主要集中在普通话协同发音研究方面,由于协同发音是一个新的科研领域,目前的研究还处在摸索阶段。在国家自然科学基金项目“基于动态腭位的普通话协同发音研究”支持下,2005年完成了多项具体研究,包括普通话声学参数和生理参数数据库,约150个双音节词、轻声、句子,绘制出132张图形。
     语音学科年内撰写出数篇科研论文,如许洁萍、王安红、鲍怀翘、郑玉玲的论文《汉语合成语音评测实验研究》发表在《声学技术》2005增刊上;鲍怀翘、郑玉玲的“建立统一的中国民族语言语音声学参数数据库”在第10届少数民族语言信息处理研讨会上发表;郑玉玲,刘佳的《论普通话N1C2(C#C)协同发音的声学模式》在《南京师范大学文学院学报》第三期上发表;哈斯其木格的《从腭位角度论普通话元音/i/》在会议论文集中发表。
     
三、语言文字应用研究

     中国民族语言文字应用研究领域也获得较好的成绩,主要研究涉及藏语文字识别、蒙古秘史全文检索以及突厥语文献研究。研究室与北京理工大学合作的“藏语OCR”项目今年全部完成,小型实验项目“藏文OCR系统”取得成功,实验系统的识别率达到100%。合作期间,双方发表多篇论文,部分论文收入研究室的论文集。其中,严海林、江荻、戴亚平的《基于基线分割的藏文相似字丁识别方法》对藏文识别中的难点提出挑战,对相似问题提出全新的看法,并基本解决藏文中常见的相似字形问题;康才畯等的《一种基于构件的藏文识别算法》提出了完全不同的藏文识别理念,较之前人的研究更富新意,识别效果也很好。
     《基于字丁的藏文N-gram统计语言模型》不是单纯的应用论述,文章将藏文N-GRAM模型概念扩及到其他应用领域,从理论和方法上讨论了N-GRAM模型在语音、文字以及语法研究方面的功能。这篇文章对整个民族语言的理论发展均有一定的引导作用。
     研究室开展的另一项研究是“古代蒙古语文献检索系统”。我们在全面论证基础上提出了“《元朝秘史》电子检索系统及大型检索工具书的研制”项目,并邀请蒙古语专家斯钦朝克图教授以及文献学专家孙伯君博士参与课题研究。该课题现已完成软件设计,30多万字的四部丛刊语料也已经完成第5遍校样。目前该项目的其他研究项目正在进行之中,已提交有关学报的论文《〈元朝秘史〉电子文本检索系统的研制》即将出版,《元朝秘史汉字用字分析》也在撰写之中。
     《突厥语词典》是历史上最著名的突厥语文献,具有很高的历史、文学、语言以及其他方面的价值,中亚和欧洲多个国家竞相译成本国文字,现已有维吾尔、克孜别克、土耳其、哈萨克、汉、英6种文字的突厥语词典版本。研究室还根据专家建议,邀请突厥语专家赵明鸣教授参加突厥语文献的研究,设计了“五种语言对照《突厥语词典》文献信息总集及全文检索系统”课题。
     
四、推出一批学术成果
   
    年度研究室在计算语言处理方面取得较大进展。由江荻、孔江平主编的《中国民族语言工程研究新进展》(实验室成立20周年论文集)在社科文献出版社出版。该书收入论文22篇,大部分是未曾发表的论文,也是2004年以来研究室的主要科研成果。其中《面向机器处理的现代藏语句法规则和词类、组块标注集》约8万字,为我国藏语自动处理建立了第一个可操作体系,也是一个较全面的面向信息处理的藏语语法框架。全书包括了计算语言学、实验语音学、应用语言学三大类,均衡地反映了学科的发展和研究成果。
     郑玉玲主持的国家自然科学基金项目“基于动态腭位的普通话协同发音研究”,年度发表论文3篇,比较全面的总结对普通话和蒙古语辅音的最新思考,为协同发音研究认真总结了普通话动态腭位的研究成果,为更深层次的协同发音研究奠定了基础。由鲍怀翘主持的教育部“语音合成系统评测研究”课题已发表论文1篇。这项研究将为学科制定全国语音评测标准。由江荻主持的自然科学基金课题“面向信息处理的现代藏语语法属性库研究”已发表论文14篇,其中1篇论文收入国际联机检索SCI系统。这项研究全面推进了国内藏语自然语言处理的研究,使我国的藏语自然语言处理研究处于国际研究的前沿。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 06:41 , Processed in 0.093005 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表