跨语言文档对齐
http://www.icl.pku.edu.cn/icl_intra/internal_rev/uploaded/WangHongJun跨语言文档对齐.pdf_王洪俊,施水才,俞士汶
内容:
本文提出了一种新的双语文档对齐算法,该算法用TfIDf方法进行文本特征提取和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方法的改进算法计算双语文档的相似度。实验表明,该算法可以准确地发现一种语言书写的文档在另一种语言中的译稿,可应用于双语重稿检测、跨语言相似文本检索等领域。
[ 本贴由 Artvine 于 2005-3-1414:18 最后编辑 ]
页:
[1]