霜叶红 发表于 2006-9-2 22:26:08

语言学家打造大规模汉语口语库

来源:《华声报》


上海语言文字网讯:中国语言学家即将建成大规模汉语口语语料库,并准备基于这个语料库编写第一部现代汉语口语词典和语法手册。

新华社报道,据中国社会科学院语言研究所所长沈家煊介绍,现代汉语口语语料库下设3个子库:北京地区现场即席话语语料库、汉语方言自然口语语料库、汉语自然口语语音标注库。

他说,北京地区现场即席话语语料库包含650个小时现场录取的北京地区即席话语,这些语料刻成975张光盘,转写成约890万字的文本。汉语方言自然口语语料库包括上海、西安、广州、北京、重庆、厦门6个方言点的自然口语语料,另加一个方言字音库。自然口语语料用光盘和移动存储器存储,既有语音形式又有从语音转写的汉字文本,文本语料用国际音标标注方言语音。汉语自然口语语音标注库对自然口语的语料作精细的语音韵律标注,这对提高语音合成和语音识别的质量,实现高水平的语音人机对话都具有十分重要的意义。

沈家煊这项为期近4年的中国社科院A类重大课题研究。该课题被列为中国社科院最高级别的科研课题是有深刻国内和国际背景的。语料库建设的开始阶段主要集中在书面语的文本语料库,然而语言学家认识到,和书面文献一样,口语也是一个民族极其宝贵的文化资源。现代成熟的录音技术以及计算机和多媒体技术使大规模开发和利用这种资源成为可能。

沈家煊大规模口语语料库的出现,尤其是国家级的大型口语语料库的不断建设和开发,使得发达国家在语音信息技术应用方面占尽先机,甚至取得垄断地位。”

目前,国外一些高技术公司纷纷用优厚待遇挖走中国人才去开发现代汉语语料库,而直接服务于语音信息技术的口语语料库正成为顶尖高技术公司的开发前沿。

沈家煊如果我们不早日建成中国自己的大规模汉语口语语料库,就很可能在可以预见的未来丧失母语的研究中心地位,从而失去在汉语语言工程开发和应用上本应属于我们的优势。”

他说,现代汉语口语语料库的发展前景十分广阔。研究人员计划用数据库管理软件开发北京地区现场即席话语语料库的管理与检索工具,编写第一部现代汉语口语词典和语法手册,建立国内第一个发音生理参数库以用于发音机制研究,建立儿童语音库以用于语音认知和儿童语音习得研究。
页: [1]
查看完整版本: 语言学家打造大规模汉语口语库