霜叶红 发表于 2006-12-20 16:11:00

网络新词发现

来源:http://pop.clr.org.cn/achieve.jsp#hotEvent

随着互联网的飞速发展,各种新词汇大量涌现,仅靠人工无法及时地发现这些新词。而且,最近的研究(Sproat and Emerson 2003; Chen 2003)显示,60%的分词错误是由新词汇导致的,因此,有效地识别网络新词汇(NWI:New Word Identification),将为观察研究分析语言现象的动态变化、规范语言文字、监测网络语言文字、词汇编撰等提供基础性支持。

    我们通过对汉字中,串与串之间的关系来分析和抽取网络新词,有效地提高了新词识别能力。部分数据摘录如下: 2005年9月 郭叁俊 韩凯臣 瓦斯燃烧 詹春柏 叶静漪 吕振霖 徐韶杉 两岸经济交流与合作 孙凤岐 夏瑞馥2005年8月 粱晓丽 卡扎菲 刘瑞璞 吕丽莉 卧佛寺 汤姆森 杨玉琼 戴季陶 柳棵峪 凤凰岭2005年7月 邵琪伟 陈师傅 赖尚斌 凤宜楼 刘仕忠 芥末油 陈雅凤 梁丽婵 邢振亮 黑龙江省母婴保健条例
页: [1]
查看完整版本: 网络新词发现