湘里妹子学术网

 找回密码
 注册
查看: 4399|回复: 0

北京大学计算语言学成果

[复制链接]
发表于 2005-10-11 16:50:00 | 显示全部楼层 |阅读模式
来源:北大中文
200510-11


1.现代汉语语法信息词典
    这部电子词典集成了国家“七五”、“八五”科技攻关的成果。现已收录50,000多词语,并包含丰富的语法知识。长达20页的规格说明书发表在《中文信息学报》1996年第2期上。更详细地介绍这部词典的内容和应用的专著《现代汉语语法信息词典详解》已于1998年4月由清华大学出版社出版。已有中国大陆境内外的23个单位从北大计算语言所购买了这部词典的许可使用权。到1999年7月,这部词典将扩充到7万词语。
1.中文概念辞书(CCD)
    中文概念辞书(Chinese Concept Dictionary, CCD)是WordNet框架下的现代汉语概念词典。在佳能、北佳公司资助下,CCD一期工程于2001年3月结束,共收取了1,634个概念(其中包括:名词概念771个,动词概念455个,形容词概念356个和副词概念52个)。 ICL的CCD小组将计算词典学的诸多新思想引入开发的各个环节,实现了词典结构的自动维护和语言知识的人机交互检查,正在研制中的"可视化词典辅助开发软件"的设计思想是ICL在计算词典学上的又一个新发展。CCD继承并发展了WordNet的合理研究成果,在实际开发中又紧密结合汉语的特点,将对基于概念的信息提取系统与信息检索系统提供宝贵的语义资源。 CCD二期工程计划完成20,000个概念,并在复杂结构词典的构建理论方面有所创新。CCD最终将至少包含60,000个概念,并与专业术语库(Term Bank)相结合。最重要的是CCD将与《现代汉语语法信息词典》、《现代汉语语义词典》和大规模语料库一同纳入ICL的综合型语言知识库中,成为中文信息处理的基础资源之一

2.受限汉语及辅助写作系统
    这是同北京信息工程学院联合承担的国家“九五”攻关项目。除参与制订受限汉语的规范外,还开发了受限汉语辅助写作系统(原型),拟进一步开发面向受限汉语的汉英机器翻译系统。

3.机器翻译系统
    自1994年起,与中国科学院计算技术研究所合作开发汉英机器翻译系统。1996年至1998年双方共同承担了国家863高科技项目。此项目的基础是词组本位语法体系和《现代汉语语法信息词典》,同时充分吸收了两个单位多年开发英汉和日汉机器翻译原型系统所积累的经验。此项目在1998年度863办公室组织的机器翻译评测中取得了很好的成绩。1998年又获得新的立项,成为重点项目。

4.机器翻译自动评估系统
    这是国家“七五” 科技攻关项目、国家自然科学基金项目、863 高科技项目的研究成果。北大计算语言所采用孤立测试点和题库相结合的办法成功地解决了机器翻译译文质量自动评测的难题。现在英汉机译测试大纲已相当完备,测试集的规模已达9,000多句。汉英和日汉的测试大纲及相应的题库正在建设中。

4.综合语言知识库的建设
    除《现代汉语语法信息词典》外,北大计算语言所还拥有大量的语言资源,在机器翻译自动评估系统积累了大量的双语对照的题库,与中科院计算所合作开发的《现代汉语语义词典》也初具规模。 正在建设中的短语知识库将描述汉语中大量半固定短语的功能分类,结构分类及其他语法属性,还考虑增加相应的英语译文。 现代汉语语法信息词典、语义信息词典、短语知识库、双语对照的题库以及经过深加工的大规模现代汉语语料库都是拟建的综合语言知识库的组成部分。 这个综合语言知识库的建成将为现代汉语以及语言信息处理的研究提供最重要的资源,将彻底改变语言研究的现状。

5.现代汉语语料库的多级标注
    最基础的工作是开发了汉语句子的词语自动切分和词性自动标注软件。已有19个境内外的单位从北大计算语言所购买了该软件的许可使用权。 负责人: 北大计算语言学研究所在词语切分和词性标注的基础上又探索了短语的自动辨识及类型标注。 凭借资源与技术的优势,1999年4月我所同富士通公司签订了协议。按北大计算语言学研究所提出的规范将加工1年《人民日报》的语料(合同暂订半年的)。这将是对中文信息处理又有巨大影响的一项语言工程。已开始实施。

6.平行语料
    “平行语料”(Parallel Texts)是指使用不同语言撰写、相互间具有“翻译关系”的文本。在计算语言学界,它有别于“对比语料”(Comparable Texts),后者也使用不同的语言撰写、并且针对同一主题,但相互之间却不存在直接的“翻译关系”。
    人类历史上曾有过各式各样的平行语料。埃及出土的罗塞塔石碑,其碑文用两种语言、三种文字刻成,是颇具盛名的古代的平行语料。通过比较石碑上的文字,法国古代语学者商博良解读了古埃及的象形文字。此外,用不同语言对照书写的契约协议、宗教经典、文学作品也在不同的时期和不同的领域影响着人们的生活。20世纪50年代末,平行语料开始出现在机器翻译研究中。由于当时计算机的存储空间和计算能力有限,而大量文本数据的输入又相当困难,平行语料库的作用并没有得到太多的关注。70年代末期,翻译资源的收集工作在 Xerox PARC 、Brigham Young 等研究中心广泛地开展起来。1987年,Martin Kay 和 Martin Roscheisen 提出了最早的平行语料自动对齐算法。之后各种对齐方法层出不穷,对齐后的平行语料也被系统地应用到自然语言处理中,包括建立翻译记忆、编纂词典和双语术语表、跨语言信息检索、计算机辅助教学、语言对比研究等。
    babel 汉英平行语料库始建于2001年,它最初服务于一个面向新闻领域的机器翻译系统,为基于其中存储的引擎提供翻译实例。目前,语料库的规模已达20万句对。在建设babel 的过程中,我们一方面探索语言资源建设的方法,一方面开展相关的应用研究。这个站点向您介绍babel 汉英平行语料库的相关情况,衷心希望它能为您提供帮助,衷心希望您能多多指教。
项目资助
国家重点基础研究发展规划项目: 面向新闻领域的汉英机器翻译
教育部人文社会科学重点研究基地重大项目: 基于大规模汉英对齐语料的语言研究与教学
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 21:46 , Processed in 0.086503 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表