湘里妹子学术网

 找回密码
 注册
查看: 3817|回复: 1

自然語言處理與信息檢索

[复制链接]
发表于 2004-4-10 16:56:46 | 显示全部楼层 |阅读模式
发表于 2004-4-11 00:59:36 | 显示全部楼层

自然语言处理与信息检索

文章主题: 自然语言处理与信息检索
发表时间: 2004年04月10日 16时44分  
发表作者: 图书情报工作  
发表内容:
自然语言处理与信息检索
黄敏 撰(北京师范大学信息系)
《图书情报工作》,2001/04,41~44,65页

--------------------------------------------------------------------------------------------------

【内容提要】
探讨自然语言处理与信息检索之间的关系、它们的结合方式
和自然语言检索的有关问题。

1 自然语言处理
11
概念

  自然语言是指人们日常生活中所使用的语言,如汉语、
英语等,它是千百年来在社会生活中自然形成的语言。计算
机的程序设计语言如PASCAL、C等则是由人工设计而成的语
言,故称为“形式语言”。

  自然语言处理(naturallanguage processing,简称NLP)也
称为自然语言理解,是语言信息处理的一个重要分支。所谓
语言信息处理,在中国就是中文信息处理。它是指用计算机
对包括汉语(字)的形、音、义等信息及词、句子、篇章的
输入、输出、存储和识别、分析、理解、生成等多方面的加
工处理。其中,自然语言处理侧重于研究计算机对于句子、
篇章的处理。

  美国认知心理学家GMOlson曾提出4条准则作为衡量
计算机理解语言的标帜,它们是:

  能成功地回答输入语料中的有关问题;
  在接受一批语料之后,有作出该语料摘要的能力;
  能用不同的词语覆述输入的语料;
  有将一种语言翻译为另一种语言的能力。

  无论使用什么机器,或采用何种算法,只要具有这4种功
能之一,就可以说该机器实现了自然语言理解。

12
研究内容

  计算机要理解和处理自然语言,必须像人一样具有词法
、句法、语义和语用等知识。就人自身而言,对语言文字信
息的理解和处理大约有6个层次,与此相应的,自然语言处
理也有6个层次,它们是:(1)语音学层次,是关于对声音
的识别、理解与合成;(2)形态学层次,涉及对各种词形
和词的可识别部分的处理,如前、后缀、复合词等;(3)
词汇学层次,其重点在于全词操作和词汇系统的控制;(4)
句法层次,它与语言结构单元的鉴别有关,具体而言就是对
输入的单词序列进行分析,看它们能否构成合法句子,如果
能则给出相应的合法句子结构;(5)语义层次,指对自然
语言文本意义的识别、理解和表示,它涉及各级语言单位(
单词、词组、句子、句群)所包含的意义及其在语言使用过
程中所产生的意义;(6)语用学层次,这是对涉及上下文
和语言交际环境以及背景意义和联想意义的语义分析。

  由于自然语言处理侧重于句子、篇章,因而句法分析、
语义分析、语用分析3方面便构成了自然语言处理研究内容
的基础部分。

  一般认为,自然语言处理主要有以下4个应用领域:机
器翻译、信息检索、人机接口、篇章理解。因此,这4个方
面的技术构成了其研究内容的应用技术部分。

2 自然语言处理与信息检索的关系

  自然语言处理和信息检索发生联系与信息检索的计算机
化及自然语言化有着直接的关系。信息检索是一种“语言的
游戏”,为了从某信息集合中搜索出特定信息,检索者需构
造合适的语言集合以作为提问。随着检索的计算机化和自然
语言化,这项工作便将从检索者转移给机检系统内部,这就
给机检系统提出了更高的要求。而自然语言的处理则使得其
应用成为必要与关键。这里要区别的是信息检索中提到自然
语言是指文献作者或文摘提要的作者原来使用的语言,而非
与形式语言相对应的那个概念。

21 从信息检索的过程看

  信息检索有这样几个步骤:信息源处理、提问信息处理
、匹配过程、结果排序输出。自然语言处理可以运用在任何
一个或全部步骤中,至于应用多少,是否深入则要视实际情
况而定。

  在信息源处理阶段,自然语言处理的应用能够对信息源
做更精深的分析提炼,其它如数据挖掘的应用亦如此,它朝
着知识管理的层次发展。

  在提问处理及匹配阶段,运用自然语言处理有两个明显
的好处:用自然语言提问,用户更容易传达他们的信息需求
;自然语言处理的全面应用有利于消除一些问题,如用户的
提问未将潜在的有用信息包括在内、用词正确却导致检索与
意义不匹配等。这样对查全率与查准率都有好处。

  在信息排序输出阶段,能提高信息排序的质量,因为它
能更确切地理解用户的提问和意思倾向。

22 从自然语言处理方面看

  如前所述,信息检索是自然语言处理的4个应用领域之
一,因而也构成了其研究内容的一个方面,关系十分紧密。
从自然语言处理的6个层次的技术来看,应用到信息检索领
域较多的是形态学、词汇学这两个层次的技术,属于前者的
如自动标引中的词汇识别、联机检索过程中的截词检索和字
顺浏览式检索;属于后者的如自动标引时的停用词排除、检
索键自动替换、拼写错误的检测与改正、缩略语的处理等。
其它如在语音、句法、语义、语用等层次上的应用则很少。
比较特殊的是语用学层次,自然语言处理目前在这一层次上
有很大困难,而信息检索领域采用的一些方法如引文索引法
、同引聚类以及动态词关联显示技术等则似乎走在了前面。

3 自然语言在信息检索中的应用

  自然语言很早就被纳入到情报检索语言中,但在手工条
件下其应用很困难,因而已逐渐被规范语言所替代。随着信
息检索的计算机化和文献数量的急剧增加,规范语言的缺陷
日益明显而自然语言的应用成为可能,并形成了新的趋势。
自然语言在信息检索中的应用方式主要有以下几种:

  关键词法。可用于编制印刷本的关键词索引,数据库的
倒排档等。

  以自然语言作为入口词。利用计算机的换词功能,以自
然语言辅助规范检索语言的使用。

  自由标引。标引人员在对文献情报内容进行主题分析的
基础上,按一定规则自拟标引用词。

  自动赋检索词和自动赋分类号。利用计算机的自动换词
功能,根据从文献题名、文摘中自动抽出的关键词,通过自
然语言与分类表或词表的对应表,赋予文献检索词或分类号


  自动标引。由计算机实现文献标引,分为抽词标引和赋
词标引两种类型,前者是从文献中自动抽出能表征文献主题
的词作为标引词,而后者则在此基础上引入预先编制的词表
来规范自动抽取出的词,不过这种词表从其生成来看与规范
语言词表本质上是不同的。

  自动文摘。利用计算机来完成文献文摘的编制。其一般
过程如下:(1)原始文献的录入,使之转化为机读形式;
(2)确定每个单词和句子的“意义”与权值的测量标准;
(3)通过计算每个单词和句子的权值来分析输入计算机内
的文献,选出一组最能代表文献主题内容的句子;(4)排
列和打印句子,形成文摘。

  可以看出,自然语言及其处理技术虽在信息检索中得到
了充分应用,但其难度是较大的。目前,自动文摘方法基本
上是建立在统计规律基础上的,如何解决自然语言及其处理
技术在信息检索中的应用问题,还有待于自然语言处理技术
的深入发展。

  文本检索。文本是文献题名或文摘、文献的正文。文本
检索就是不对文献进行标引,而是以自然语言表达检索课题
。它需要借助计算机的自动匹配功能,直接在篇名、文摘、
正文中查找。文本检索要掌握字符串匹配、截词检索、位置
逻辑检索等技术。

  如果是在正文中查找,则也称为全文检索。对于全文检
索而言,全文数据库的建立以及文本检索功能的实现是其两
大技术支持。与传统检索方法相比,全文检索的主要优点体
现在以下4方面:(1)避免了自动标引过程中的不准确和选
词问题;(2)用户可以直接浏览最终检索结果,从而为实
现反馈检索提供了条件;(3)能有效地克服假组配,有较
高的查全率;(4)可以达到任意的专指度。

  全文检索存在不少有待解决的问题,如存贮空间、误检
率较高、文本匹配的算法优化等。对于中文全文检索而言,
汉语切分问题则是一个关键问题。

  单汉字检索。以单个汉字作为标引和检索基本单位的检
索即为单汉字检索。其实质也是文本检索,不同点在于它将
文本中的每个汉字以字为单位全部做成倒排索引,检索时,
用单汉字组配法查找。因而也被称为“全标引”。从另一个
角度看,因单个汉字绝大多数不能独立表达文献主题概念或
作为索引项,又等于没有标引,故也属于“无标引系统”。

  单汉字检索的优点有:(1)具有实现检索词的左截断
、右截断、中间截词(通配符)功能;(2)组配灵活,可
任意调整检索专指度水平,有利于“字面成族”检索;(3)
能节约人工标引的大量劳动,避免标引的主观性和不一致性
;(4)可用于文献内容的统计、分析和研究。

  单汉字检索的缺点表现在:(1)加重了检索者构造检
索策略的智力负担;(2)难于处理文本中的隐含概念主题;
(3)单汉字自动标引会使无检索价值的虚字或分辨力很差
的常用字在索引中占很大比例。

  虽然单汉字检索有上述缺点,但由于它迴避了汉语分词
这一问题,故目前仍有不少系统在使用这种方式。

  这里需要指出的是,上述应用方式中,自由标引与单汉
字检索虽然都应用了自然语言,却并未涉及自然语言处理技
术。前者由人工进行,后者则根本迴避了自然语言处理方面
的问题。其余的各种方式则不仅引入了自然语言,更引入了
自然语言处理技术。

4 自然语言处理在信息检索中的应用与自然语言检索
41
自然语言处理在信息检索中的应用

  自然语言处理在信息检索中的应用方式大致有以下两种


  对传统规范语言检索的自然语言化。它又分为两种:
(1)对规范语言检索中的叙词表增补大量入口词;(2)在
叙词表之前增设一个自然语言接口。无论哪一种都使得在标
引和检索阶段可使用自然语言,而检索系统却仍然是由严密
的叙词语言所控制。

  信息检索与自然语言处理的有机融合。它也分为两种:
(1)在无标引的检索系统中,以关键字、词、词组作为检
索用语,在文本中直接进行匹配查找。这种方式实际上就是
融入了自然语言处理技术的全文检索;(2)在检索系统中
,标引采用的是自动标引、抽词标引或赋词标引技术,目的
是赋予文献自然语言标引词,以使检索时直接用自然语言词
进行匹配查找。

  自然语言接口在技术上并不复杂,目前的主要问题是缺
乏自然语言与情报检索语言的对应转换词典,包括汉语的对
应转换词典和外语与汉语的对应转换词典。这种对应转换词
典以专业性的比较适应,综合性的不仅编制困难,使用效果
也不理想。而全文检索在有限地采用了一些自然语言处理技
术,有待于进一步开发利用更多自然语言处理技术的同时也
向自然语言处理领域提出了新的要求,如现有的句法语义分
析技术效率低、覆盖面小,不适应检索需要。需要进一步开
发对段落和篇章的深层次的分析技术,特别是对文本结构和
会话模型的研究等,这些研究将有助于更好地理解全文。标
引系统中自动标引的抽词、选词问题,也有待于进一步研究
解决。

  可以看出,上述两种方式虽都是信息检索与自然语言处
理的结合,然而其性质却是不同的。第一种方式实际上是对
传统规范语言检索的改良,它虽然加入了自然语言及其处理
技术,但却并未改变其规范语言检索系统的性质。后一种方
式则是将自然语言处理技术有机地融入到信息检索中,从而
产生了一种与规范语言检索系统根本不同的自然语言检索系
统。

42
自然语言检索

  421 概念 目前,关于自然语言检索还没有一个精确
的定义,我们可以从3个方面来界定它。从检索语言来讲,
自然语言检索就是在为文献检索标识时,使用文献作者、文
摘编写者原来所用的语词或标引人员自拟的词语,而不是取
自词表的语词;从技术上讲,就是将自然语言处理技术应用
于信息检索系统的信息组织、标引与输出;从用户来讲,就
是用自然语言作为提问输入和对话接口的检索方式。

422
自然语言检索的优、缺点及面临的问题

  ──自然语言检索的优、缺点。

  优点:(1)符合客观需要,可以不受限制地随时输入
新词,因而可以跟踪学科发展,加速机检数据库的建设;(
2)相对受控语言来讲易用性强,检索方便简单;(3)更好
地体现了文献保障原则;(4)完全是专指的;(5)相对于
受控语言统一性好。

  缺点:(1)不能反映概念词间的一一对应关系,也不
能反映概念关系的隐含性,无法排除同义词、近义词、多义
词等词间的含糊现象,影响查全率;(2)由于选词没有严
格限制,词量过多过杂,造成主题分散,影响查准率;(3)
相关文献不能相对集中,容易漏检。

  ──面临的难题:

  如何从文中抽出最能准确、充分地表达文献中有价值的
词以及这些词与检索课题的有效匹配问题。其复杂性在于文
献作者的用词无明显规律性,而自然语言不可能用纯自然科
学的方法去研究解决。这一问题的解决还有待于自然语言处
理技术的进一步发展。

  怎样克服自然语言由于不规范和缺乏语义关联性而对检
索不利的问题。这种不规范及其结果正是自然语言检索的缺
点所在。在这点上,它与规范语言具有天然的互补性,也说
明纯自然语言的检索是不可能也是不可行的,必须对其施加
一定的控制。目前较一致的看法是对其采用后控词表的控制
方式。后控制词表的性质类似于入口词表,作为一种转换工
具和扩检工具,它罗列了供选择的自然语言检索标识。其特
点是:其中的控制词(或分类号)并非直接用于标引,而是
对作为文献检索标识的自然语言词进行控制(建立等同、等
级、相关关系)。因此,在后控制词表中,标引─检索用词
是自然语言,而非标引─检索用词却是人工语言,与一般词
表正好相反。

  针对自然语言检索存在的这些问题,目前需要在自动抽
词及抽词词典、改进全文检索系统和单汉字检索系统、后控
制词表编制自动化等方面加强研究。

5 系统实例

51
军用主题词表应用管理系统

  该系统就其主要方面而言是一个优秀的叙词机助标引系
统。它是一种改良型系统,具有自然语言入口功能,属于第
一种应用方式。在用该系统标引文献时,若表达文献主题概
念的自然语言词与词表中的叙词一致,或与词表中的入口词
(同义词或被组代词)一致,都可立即自动转换成叙词,并
自动将叙词登录入标引结果字段;若表达文献主题的自然语
言词在词表中没有对应的叙词或入口词,该系统便会对自然
语言词进行词素分析,利用词素相似性匹配原理,自动推荐
一批有相同词素的叙词供选择;通过人工判别,选定合适的
叙词(或组配)进行标引;若所推荐的词均不合适,则可将
自然语言词作为自由词进行标引,并同时作增补记录。

  该系统在应用词的相似度匹配原理时,以相同词素的个
数为统计单位,并结合叙词词素的位置特征(如词素在词尾
、在词首、在词中)及长度特征进行加权,可调整权值来扩
充或压缩推荐词的数量以便选择,并加入同义词素避免遗漏
等,从而使所推荐的词更具针对性和全面性。这种方法提高
了词表的入口率,使标引工作更为容易。该系统所用的词素
词表(称为知识库)采用在叙词表自身词汇和语义关系的基
础上进行自动、滚动切分,辅以少量人工干预的方法,切分
效率较高。

52
France Telecom的研究系统Telmi

  France Telecom作为各种服务和用户之间的中介,提供
名为Minitel Server的服务,它旨在通过一个视频文本终端给
用户(社会公众)提供选择各种服务途径(包括银行、电子
出版物、医药或法律咨询等)。它开发的Telmi系统是一
个带有语言、语义数据的信息检索系统,包含3个模块:自
然语言处理模块、自动标引模块、检索匹配模块。其中,自
然语言处理模块和自动标引模块用于分析文献信息并构建被
标引的文本数据库;而自然语言处理模块与检索匹配模块则
用于分析提问信息并从文本数据库中抽取相关文献。自然语
言处理对于消除系统中文献信息标识用语的歧义和不确定性
以及概念化地表达文献信息起着重要作用。

  在其自然语言处理模块中,含有词汇、句法及语义网分
析工具,它们是构建在开放型、宽领域的知识库基础上的,
因而无论工具还是数据都可重覆利用。其中:词汇层负责处
理如误拼写、打字错误等问题;句法层用于消除词汇的模糊
性并形成概念化的表达;语义层的作用在于完成句法层无法
做到的消除句子的歧义性和模糊性。

  不难看出,这一系统属于第二种应用方式,即它是一个
与传统规范语言检索系统不同的自然语言检索系统。

  Telmi是为中型短文本数据库设计的,France Telecom
将其用在信息的中介服务中。所有边界在Minitel网上的服务
项目都有对自己服务的一个介绍,它包括标目、标题、文摘
。标题和文摘就是与每项服务活动对应的自然语言文本。这
些信息经过Telmi的自然语言处理工具的处理形成语义表达
,所有的语义描述经过处理后汇集成文本数据库。同样,用
户提问也经过这样的处理。最后,通过匹配得到的就是经过
相关排序的服务项目的代码集。
----------------------

【参考文献】

1
陈光祚主编.计算机情报检索系统导论.北京:书目文献出
版社,1992:320~344,347~355

2
张立公,吴新年编着.计算机情报技术导论.兰州:兰州大
学出版社,1996:153~157,216~220

3
赖茂生等编着.计算机情报检索.北京:北京大学出版社,
1993:320~323

4
张琪玉.检索语言讲座(九)──自然语言在情报检索中的
应用.情报理论与实践,1996(3):63~64

5
张琪玉.我国情报语言20年来的进步与向21世纪前进的目标
.图书馆,1999(4):1~7

6
李法勇.谈自然语言检索的发展.情报理论与实践,1997
(5):260~262

7
吴建中,张琪玉.情报检索语言的发展趋势──关于图书馆
未来的对话之九.图书馆杂誌,1996(4):29~31

8
寇钧锋.论情报检索语言的自然语言化发展趋势.中国图书
馆学报,1999(3):28~31

9
刘伟权,锺义信.自然语言处理与全文情报检索.情报理论
与实践,1997(1):43~46

10
张琪玉.积极为自然语言与情报检索语言的结合创造条件
──建议大量编制自然语言词表(上).图书馆杂誌,1999
(9):7~9

11
张琪玉.积极为自然语言与情报检索语言的结合创造条件
──建议大量编制自然语言词表(下).图书馆杂誌,1999
(10):8~10

12
Feldman,SusanNLP meets the jabberwocky:natural language
processing in information retrieval

13
Edmond LassalleTelmi:a reusable informatin retrieval system
and its applicationsAslib Proceedings,1993(5):144~148
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-5-4 00:56 , Processed in 0.065321 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表