湘里妹子学术网

 找回密码
 注册
查看: 3297|回复: 1

漢語文獻自動分詞存在的問題及趨向

[复制链接]
发表于 2004-4-10 16:57:20 | 显示全部楼层 |阅读模式
发表于 2004-4-11 00:58:10 | 显示全部楼层

汉语文献自动分词存在的问题及趋向

文章主题: 汉语文献自动分词存在的问题及趋向
发表时间: 2004年04月10日 16时34分  
发表作者: 情报理论与实践  
发表内容:
汉语文献自动分词存在的问题及趋向
王玮 撰(广东中山大学)
《情报理论与实践》,1994/06,28─30页

--------------------------------------------------------------------------------------------
摘要

详细分析了目前汉语文献自动分词存在的问题,即词法的复
杂性、切分的模糊性和语法分析问题。然后提出了汉语文献
自动分词的发展趋向。

  文献自动分词是文献检索,尤其是自然语言处理系统的
关键。国外自动分词与自然语言处理的研究始于50年代末
,现已获得很大进展。中国汉语文献自动分词与处理的研究
起步较晚,主要开始于80年代初,近几年来这项研究工作
进展较快,取得了许多可喜的成绩。但是,由于汉语构词与
书写的特点与西方相异,因此不能把西文自动标引理论技术
完全照搬到汉语自动分词与标引中来。汉语词在不同人中有
不同的概念与标准,而且汉语字间组词丰富、复杂,这给汉
语词的正确切分带来了极大困难,使这项研究工作长期以来
缺少突破性进展。

1 汉语文献自动分词存在的问题

  近十年来,语言学界和人工智能领域的学者,在汉语自
动分词与标引的研究与实践上进行了大量的研究,找到了许
多解决汉语分词与标引问题的方法。根据这些方法实现的手
段不同,大致可分为7类:词典切分标引法、切分标记法、
统计标记标引法、单汉字标引法、机助标引法、语法与语义
分析分词法和神经网络汉语分词法。但这些方法都存在优劣
两面,至今没有一种方法完全解决了汉语文献自动分词这一
问题。以下举例分析汉语文献自动分词存在的问题。

1.1
词法的复杂性

  在汉语中,词与词之间不像西文那样有明显的空格分隔
。汉语字的组词非常灵活,难以确定字在词中的位置,而且
虚词较多,新词不断增加,这些现象必然导致文献分词中的
混乱现象。例如,“酸牛奶”可以分为3个词:“酸/牛/
奶”。虽然“牛奶”可以分成两个词,但是“水牛”却只能
作为一个词而不能分成“水”和“牛”两个词。

  从标引员或检索者的角度来说,自动区分同形异义词是
很困难的。例如,“牛皮”照字义理解为“牛的皮”,但是
它还有“夸大”的意思。同样,将同义词联系起来考虑也是
难以做到的。例如,大陆所用的“计算机”一词,在港台地
区则用“电脑”代替,现有的分词标引方法很难将这两个词
作为同一词处理。

  一个汉语表达可以当作一个词或一个短语,但是其含义
不同。当它作为一个词时,则不应切分;而如果是一个短语
,它就能切分成词。例如,“中国解决了吃饭问题”中的“
吃饭”作为一个词的意思是“食物”或“吃”,而“昨天吃
面,今天吃饭”中的“吃饭”则是一个动词短语,意思为“
吃米饭”。

  许多专有名词(如地理名称或人名)、缩略语和外来语
同样存在切分问题。解决这一问题的方法是把这些词存储在
词典里。但是,任何词典都不可能穷尽所有的词,因此容易
导致错误的切分。例如,“水口水电站”的正确切分为:“
水口/水电/站”。但是由于词典中一般不包括“水口”这
个小地名,因此可能导致:“水口/口水/电站”这种错误
切分。同样,“生产科教”这个缩略语的正确切分为“生产
/科教”,而不是“生/产科/教”。

1.2
切分的模糊性

  某一汉字字符串C1-C2-C3可以切分成C1-C2/
C3或C1/C2-C3。这种模糊性给汉语文献切分提出了
最棘手的问题。例如,对“认真实行”这一汉字字符串的几
种可能切分为:“认真”、“真实”、“实行”。一些模糊
性问题可以通过改变切分方向来解决,即用逆向扫描代替顺
向扫描。因为重要的词素和词通常出现在复合词或短语的右
端,因此逆向扫描可能产生比顺向扫描更多的正确切分结果
。但是,任何一种扫描方式都不能保证总是正确的,甚至有
时两种扫描方式都会产生错误结果。例如,对“发展中国家
”进行顺向扫描可切分为:“发展/中国/家”,逆向扫描
可切分为:“发展/中/国家”。在这种情况下,逆向切分
是正确的。对“中国科学院”进行顺向扫描可切分为:“中
国/科学/院”,逆向扫描可切分为:“中国/科/学院”
,在这种情况下顺向扫描切分是正确的。又如“信息技术等
高技术产品”的正确切分为:“信息/技术/等/高/技术
/产品”。在这种情况下,逆向扫描和顺向扫描都产生同样
的错误切分:“信息/技术/等高/技术/产品”。

  许多研究人员试图解决多种切分方法导致的模糊性,但
收效不在,不够完善。这是因为试图产生全部可能切分的系
统会遇到组配过泛的问题。此外,即使这样的系统是可行的
,它仍难以选择正确的切分。还有,即使采取语义分析也不
可能完全解决切分的模糊性,这就使汉语文献自动分词困难
重重。

1.3
语法分析问题

  目前已有的自动分词方法利用了自然语言处理中的某些
技术,但仍不能完善地解决汉语语法分析问题。词的分类是
自然语言语法分析的必要前提之一。但是,由于汉语缺少派
生的词缀,而且标准的句法范畴系统尚不存在,甚至权威性
词典也不能表明一个词属于哪一类,从而导致语法分析时易
产生分类模糊问题。总之,消除范畴歧义是非常困难的。在
一些情况下,消除范畴歧义和文献分词之间相互依赖。同时
,由于在自然语言中存在句法的多义性,消除范畴歧义还可
能遇到组配问题。对检索来说,消除动词和名词之间的歧义
尤为重要。许多复合词含有两个名词,其中第二个词也可以
用作动词,如“图像/处理”。对“图像/处理/技术”这
个短语进行语法分析,“图像/技术”就是一个正确的短语
。相反,对“图书馆/处理/图书”这个句子,抽取“图书
馆/处理”就是错误的。当然,动词和名词之间的歧义并非
孤立存在的问题,它与其它词性的歧义密切相关。

  复合词的语法分析亦是分词难点所在。假如一个复合词
由3个名词部件N1-N2-N3组成,人们很难清楚地判断
正确的语法分析是N1-N2/N3还是N1/N2-N3。也
许只有一种是正确的,也许两种都是正确的。假如,把“汉
字电脑输入”分析成“汉字/电脑输入”更为合适,但对“
汉字电脑开发”来说,更贴切的分析是“汉字电脑/开发”
。确定在一个短语、句子或段落中,非相邻的词是否应组配
成短语,对文献分词系统来说难度更高。例如上例中“汉字
输入”是正确组配,但是“汉字开发”则是错误组配。

  汉字句法并非固定,它基本上可归纳为两个方面:自由
词序和主题突出。一方面,英文词序以“主-谓-宾”作为
句子的基本结构,而在汉语句法中则有不同的词序:主-谓
-宾、主-宾-谓、宾-主-谓,甚至宾-谓-主。例如,
“我看过这本书。”是主-谓-宾结构,而“这本书我看
过”。是宾-主-谓结构。另一方面,人们可以按照作者或
讲话人所强调的内容来理解主题,因为主题通常出现在句首
位置。主题与主语的区别在于主语通常是动作的执行者或与
连系动词有关,且主语应与谓语保持一致,而主题与动词之
间没有这种限制关系。总之,主题突出是解决汉语句法中自
由词序问题的主要方法。

2 汉语文献自动分词的发展趋向

  从以上分析可以看出,现有的各类标引技术还不够完善
,切分处理技术还不能适应汉语丰富的构词变化,语法和语
义分词标引法还不成熟。因此,自动分词和标引技术有待于
在以下方面发展。

2.1
切分词典设计

  就目前普遍使用的微机环境而言,首先必须解决切分词
典的设计问题,研究压缩技术以及词典的代码化,以减小系
统的空间开销。其次,抽词标引算法技术的研究应更注重实
际应用的研究,以提高切分的正确率,解决歧义、交集型字
符串等问题。再次,为适应当今社会、经济和科学技术的高
速发展,新概念、新词汇层出不穷的状况,自动分词系统必
须具有增加新词的能力。

2.2
汉语自动分析研究

  机械分词难以解决复杂的汉语组词的关系,因此今后应
注重对汉语句法和语义的自动分析研究,并将其应用到汉语
文献自动分词与标引领域。应引入知识分词的技术与方法,
采用知识分词语义分析法进行文献标引专家系统的研究。此
外,应从自然语言理解角度出发,采用不同层次的处理方法
。具体地说,从语义、句法、知识库、语境相关分析等语言
学角度出发,进行知识分词的理论性研究,以推动整个自动
标引技术研究的迅速发展。

2.3
神经网络分词方法

  神经网络分词方法是未来汉语自动标引技术发展的必然
。由于人们目前采用的规则推理与状态转移机理不能完全表
达人脑思维的机制;对复杂、模糊的语义信息的处理,仍显
得无能为力;分词知识库的构造,词典中信息的选择,具有
很大的人力因素;同时,系统本身的自学习与再学习缺乏有
效手段,所以自然语言处理中的语法、语义研究的进一步发
展必然要走向神经网络的分词与理解系统。

  总之,汉语文献自动分词是汉语文献自动标引的基础。
近年来,中国的自动标引系统正从实验阶段走向实用阶段。
注重汉语文献自动分词的研究,无论对我国汉语自动标引的
研究,还是对中国情报检索系统的发展,都有一定的现实意
义。
----------------

参考文献


Zimin Wu,Gwyneth Tseng.Chinese Text Segmentation for TextRetrieval:Achievements and Problems.Journal of the American Societyfor Information Science,1993,44(9):532~542


苏新宁.汉语文献自动标引综析.情报学报,1993,1
2(4):309~316


湛述勇.汉语文献自动分词与标引研究综述.情报科学,1
992,13(5):66~71


贺前华,除秉铮.汉语分词神经网络方法的模拟实现.中文
信息,1992(3):32~37


徐秉铮,贺前华.汉语自动分词歧义及处理策略.中文信息
,1992(1):17~20
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-5-4 01:46 , Processed in 0.064931 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表