智能化信息檢索研究
http://artvine.com.tw/cgi-bin/board/bbsboard.pl?board_id=6&type=show_post&post=400智能化信息检索研究
文章主题: 智能化信息检索研究发表时间: 2004年04月10日 16时54分
发表作者: 图书馆
发表内容:
智能化信息检索研究
何儒云、汤艳莉 撰(北京师范大学信息管理系)
《图书馆》,2003/03,34~37,41页
------------------------------------------------------------------------------------------
【内容提要】
针对传统信息检索的缺陷,本文探讨了智能信息检索的相关
问题。文中论述了智能信息检索应具有的特点和功能,并讨
论了智能信息检索系统的基本结构及其采用的各种方法,重
点介绍了语料库方法。文章最后总结了智能信息检索目前存
在的困难和进一步需研究的问题。
1 传统信息检索面临的问题
信息检索的主要任务是解决信息集合和需求集合的匹配
与选择问题,以达到尽量满足用户的信息需求的目的。一个
完整的信息检索系统应完成信息的收集、表示、存储,同时
形成信息集合;提供能表达用户信息需求的检索模型,进而
形成需求集合;按照一定的匹配算法进行信息集合与需求集
合的一致性比较,并把最终结果返回给用户;用户对检出的
结果进行相关性判断,调整或修改检索策略,重新检索,直
到满意为止。所以,信息检索系统的基本功能模块包括:文
本处理、数据存储、匹配机制和人机接口部分。
当前的系统和实验中,常用的检索模型包括布尔检索、
向量空间模型、概率检索和模糊集合模型等。这些检索模型
存在的共同问题有以下方面:文献标识是根据词频统计得出
的,标引时只利用了文献的字符形式,未涉及文献的内容本
身,所以标识往往不能反映文献的真实含义;不能很好地处
理主题概念、标识之间的各种联系和因果关系;检索系统要
求用户用规范化的语言来表达其信息需求,并规定了严格的
输入格式,从而造成信息需求表达不完整或有偏差;检索结
果只是一些文献线索,指引用户去获得原始文献;缺乏适当
的人机交互。
由于以上问题,导致了传统信息检索中主题概念相同或
相似的文献不能完全被检索出来,或检索结果中包括了很多
关键词一致但主题相去甚远的文献。随着用户对检索过程的
要求越来越高,传统信息检索的缺陷也越来越明显。为解决
这些问题,人们开始寻找新的途径来弥补这些缺陷和不足,
智能信息检索被提了出来。
2 智能信息检索的基本理论
21
智能信息检索的概念和特点
智能检索把现代人工智能的技术与方法引入到信息检索
系统,使后者具有一定程度的智能特征,在更高的层次上完
成其功能。智能化信息检索的目的是使信息检索系统“理解
”文件包含的信息内容和用户的信息需要。它在对内容的分
析理解、内容表达、知识学习、推理机制,决策等基础上实
现检索的智能化。具体地说,智能信息检索具有以下特点:
211
智能检索系统是建立在大规模的知识库基础之上的,能够处
理自然语言文本,它利用知识库的有关知识进行语法、语义
分析,从内容上真正理解并准确描述文献所论述的主题。
212
智能信息检索则可以在知识库中使用语义网络、框架等各种
知识表示方法来充分体现各主题概念和标识之间的分、属、
交叉的复杂关系。
213
智能检索系统能理解、分析用户的自然语言提问,检索过程
中用户和计算机之间可以不断地进行自由、充分、多方面的
反馈交流,具有较高的人机交互水平。
214
智能检索系统中的检索结果是用户可以直接加以利用的信息
,而且系统可以将部分文献内容以知识形态存放于目标知识
库中,通过对知识库的搜索和推理,得出用户能够直接加以
利用的信息。
215
智能检索系统的智能特性还体现在提问模型的形成过程中,
即用户对问题的描述,借助于知识库里的有关知识,推断出
他的真正需求,产生合适的提问模型。
22 智能信息检索的系统结构
一般来说,智能信息检索系统由知识库,文本处理和智
能接口三部分组成。
221
知识库部分:知识库是智能检索的核心。它又由知识库系统
、数据库系统和检索推理系统三个子系统构成。
222
文本处理部分:文本处理系统就是利用计算机自动处理自然
语言形式的文本输入。它利用知识库中的语言学知识、科学
知识和其他知识,对文本进行语法、语义分析界定,从内容
上理解文献所论述的主题,并把它们表示成知识库中的知识
单元和数据库中的数据元素,不断的丰富知识库和数据库。
223
智能接口部分:智能接口是用户与系统之间的通道。它的主
要功能是对自然语言进行查询和处理;并作为智能终端建立
用户兴趣档案;加工提取结果。
3 智能信息检索的主要方法
智能信息检索的实现可采用不同的方法,这些方法主要
有以下类型。
31
统计方法
信息处理和信息检索中,统计方法是一种最基本的方法
。最典型的统计方法是词频统计法,其最早的理论依据是
Zipf定律。早在20世纪50年代Luhn就注意到Zipf定律,并在此
基础上提出自动抽词标引的思想。指出标引词应该在某特定
文献中的发生频率较高,在整个文献集合中出现的频率较低
的特征词。现在许多自动标引的工作都是在Luhn频率统计思
想的基础上展开的,如自动标引的矢量空间模型、概率标引
原理等。统计方法也是智能信息检索的基本方法。
32
文本分析方法
智能信息检索的文本处理离不开文本分析。进行文本分
析时,首先处理文本源,这种文本源可能是几个词组、句子
、段落乃至篇章。计算机首先通过文本上下文中的一些线索
来识别文本源所使用的语言。对于汉语文献,一个难点在于
汉语的分词。汉语的分词涉及到汉语的词法、句法、语义各
个层面上。由于汉语的多义性,语义消歧成为文本分析自始
至终都面临的难题。汉语分词后,文本分析需要确定各个词
在文本源中的重要程度;以及多字词、缩写词和其他词汇,
如日期和流通数量,而汉语分词及特征词提取的方法决定文
本分析方法的质量。
33 人工智能方法
利用人工智能进行信息检索主要涉及以下方法。
331
知识表示和处理的方法
知识表示是将关于世界的事实、关系、过程等编码成为
一种合适的数据结构,是人工智能研究中涉及的重要内容。
知识表示方法有许多种,在人工智能传统研究中,常见的知
识表示有产生式表示法、框架式表示法、语义网络表示法、
面向对象的表示法等几种。
语义网络是知识表示中最重要的方法之一。语义网络利
用节点和带标记的边构成的有向图描述事件、概念、状况、
动作及客体之间的关系。采用语义网络表示的知识库的特征
是利用带标记的有向图描述可能事件。结点表示客体、客体
性质、概念、事件、状况和动作,带标记的边描述客体之间
的关系。采用网络表示法比较合适的领域大多数是根据非常
复杂的分类进行推理的领域以及需要表示状况、性质以及动
作之间的关系的领域。
产生式表示法又称产生式规律表示法,是用来表示具有
因果关系的知识,其形式是P→Q,或者如果P,那么Q。即
当前提P所指条件满足时,应该得到的结论或应该执行的操
作为Q。
框架式表示法是以框架为理论基础发展起来的一种结构
化的知识表示,它是描述对象属性的数据结构。框架是一种
关于某个体类的结构化表示法,通常由描述事物的各个方面
的槽组成,每个槽可以拥有若干个侧面,而每个侧面可以拥
有若干个值。一个框架系统常被表示成一种数形结构,树的
每一个节点是一个框架结构,子节点和父节点之间用isa和
AKO槽连接。框架的一个重要特性是其继承性,所谓框架的
继承性,就是当子节点的某些槽值或侧面值没有被直接记录
时,可以从其父节点继承这些值。
面向对象知识表示是一种最有结构化的知识表示方法。
用面向对象知识表示如同用框架表示知识一样要进行描述其
对象一类,并可以按照一定层次形式来组织,因而面向对象
知识表示具有结构化和模块化的特点。
332
基于自然语言处理的方法
在自然语言理解过程中,对语言的理解和生成都是对语
言进行正确分析的结果。各个自然语言处理系统其结构各不
相同,但是对语言的分析总是要包括词法分析、句法分析以
及语义和语用分析等几个阶段,句法分析和语义分析是自然
语言处理的基础。
句法分析是自然语言处理中的一个重要组成部分,句法
分析的任务是要对输入的单词序列进行分析,并在此基础上
构造出相应的句法树。所谓句法树是用来表示句中各成分之
间句法关系的树状结构。
在句法分析理论方面,自然语言处理最早采用的方法是
上下文无关语法(也叫短语结构语法)。由于其中的上下文
无关语法既有一定的描述能力又比较简单,并能成功地根据
这类语法来实现各种计算机程序设计语言的编译与解释系统
,所以早期的自然语言处理系统都试图采用上下文无关语法
来实现自动句法分析。后来人们逐渐发展出一些其他句法分
析的语法,其中较着名的有:扩充转移网络语法、词汇功能
语法、广义短语结构语法、功能合一语法、定子句语法,这
些语法大大扩充了短语结构语法(即上下文无关语法)描述
与生成自然语言的能力,同时又保持了短语结构语法表达简
洁、处理效率高的优点,因而得到较广泛的应用。
语义分析是在句法分析的基础上进行的。语义分析的结
果是语义网,而语义分析的工具之一便是语义关系。系统在
进行信息处理过程中进入句法分析后,可以从全解中得到一
个优化的有用解,然后进入句法语义分析。在这一阶段,对
语言自身结构和句法属性进行综合分析,这包括:语法分析
是句法结构、句法属性、句法关系的分析与确定,语义分析
是对句子的语义分类、语义属性、语义关系的分析与确定。
在句法分析的过程中分成三个层次,即短语子树层、谓词框
架之内层以及谓词框架之间层,与句法分析的这三个层次相
适应,每次句法分析后都相应地产生一个语义分析结果。因
此,语义分析的过程也相应地分成三个层次,即短语子树的
语义子网内的语义关系、谓词框架形成的单网内的语义关系
以及各个谓词框架之间形成的多网间的语义关系。在语义分
析理论方面,研究也在不断深化,其中比较引人注目的是语
义网络,格语法,概念从属理论。
在自然语言处理的研究领域中,传统的方法是基于规则
的方法。规则包括句法知识、语义知识、语用知识的表示及
相应的推理知识。这是一种模拟人类理解语言的方法。由于
自然语言是一个开放系统,用这种方法实现语言理解要求建
造庞大的句法、语义知识库,庞大的专业知识库以及复杂的
推理机制。因此自20世纪80年代以来,有些自然语言处理学
者主张用基于语料库的方法理解自然语言。这种方法的特点
是,分析方法主要依赖于对语料库中语言结构成分的统计特
征,而不完全依赖于语法规则。因此基于语料库的方法不要
求建造很完备的知识库和复杂的推理机制,这是其优点,但
需要建造庞大的语料库,而建造具有一定规模的语料库不仅
要输入大量经过精选的语料,而且还要对这些语料进行多种
不同层次的加工,如自动分词、标注语法属性乃至语义属性
等,这些语料才有利用的价值。
4 语料库方法
41
语料库方法解决问题的思路
语料,又被称为素材,是自然发生的语言材料的集合。
而语料库(Corpus)是一个由大量在真实文本经过词法、句
法、语义等多层次加工形成的语言材料库。这些加工的方式
包括在语料中标注各种记号,标注的内容包括每个词的词性
、语义项、短语结构、句型和句间关系等。随着标注程度的
加深语料库逐渐熟化,成为一个分布的、统计意义上的知识
源。语料库本身不能直接应用于自然语言处理中的句法或语
义分析,但因为语料库包含了语言或者语言变体的词汇、语
法结构、语义和语用信息,为语言学的研究提供了无穷无尽
的资料来源,是计算机对文本进行各种分类、统计、检索、
综合、比较等研究的基础,可以帮助语言学家揭示语言的词
汇、语法、语义和语用规律,由这些语言学的规律汇集成词
法、语法、语义词典或知识库等文本分析的工具,然后利用
这些工具进一步对其他大量新文本逐词标注词性,划分句子
成分,进行语义标注等。
42
语料库方法在信息检索中的应用
语料库包含了大量的文本,字数常常超过百万、甚至千
万。人工维护、管理语料库所需的时间、资金是无法想像的
,更不要说利用语料库进行语言研究,实现语料库的语言学
理论和应用价值了。语料库的魅力来自语料库自动检索系统
。借助于计算机的强大运算和信息处理能力和自动检索系统
,语言学家可以迅速查找例证、对文本进行分析。正是语料
库检索系统的开发和完善才使得语料库的应用价值得以体现
。语料库检索系统一般有下列功能:选定一个或者多个检索
文本;建立词汇表;查找关键词;排序并显示检索结果,等
等。由语料库检索系统提供的检索结果为词法分析、句法分
析和语义分析提供工具,从而实现在信息检索中的文本分析
功能。
43
基于语料库方法的信息检索系统的实现
随着语料库的发展,语料库在信息检索和自然语言处理
中起着越来越重要的作用,为克服传统的基于理解的理性主
义的方法的局限,在中文分词,词性标注、句法分析、语义
分析等过程中引入语料库的方法。语料库方法基于统计,在
方法上是经验主义的。目前,对语料库至少可以做以下检索
和统计;词项的频率分析,即将语料中所有的单词按字母顺
序、或按出现频率的高低、或按单词的长短排列成表;上下
文语境的共一分析,即将某个单词或某种词组形式在语料中
每一次出现的前后语境全部列出,并且可以按需要设定其前
后语境延伸的长度。同时将检索出来的项目自行作统计分析
。在自动分词方面,有人利用语料库用统计的方法自动建立
起附有相关度的切词词典,用于自动分词,提高了分词准确
率。有人利用语料库生成汉字的二元语法关系,解决汉语自
动分词中的交集型歧义问题,在词性标注方面,一般采用N
元模型(N─Gram)来计算词性标记串的概率,选择概率最
高的一个标记串作为输出。在本例中,“元”就是指词性标
记,N元模型的意思是,当前词的词性取决于它前面已经出
现的N─1个词的词性,为了计算每个可能的标记串的概率,
就需要从训练语料库中统计每个长度为N的标记串的出现次
数,如要统计任意两个标记的出现次数。可以把“长度为N
的标记串的概率”看成是对语言知识的一种描述,跟规则形
式的描述相比,具有以下优点:可自动获取(无需人工干
预),能反映,小颗粒知识,这种知识在人写规则时常常被
忽略。
目前,越来越多的人开始参与基于语料库的研究之中,
语料库的研究渗透到自然语言处理的各个环节,与基于规则
的自然语言处理方法相结合,从而进一步促进基于自然语言
处理的信息检索的发展,加深对被检索文档和用户提问的理
解和知识表示,实现信息检索的智能化,提高查全率和查准
率。
5 智能信息检索目前的困难和问题
51
智能技术本身的不成熟
人工智能技术本身还有许多不完善的地方。主要体现在
两个方面:
511
知识的获取与表示。其中较难解决的问题就是如何把复杂多
样的专业知识形成系统化。此外,如果把人工智能技术应用
到一个多学科综合的检索系统中,那么如何辨别某个多义词
当前的具体含义,如何辨析用户特定的需求,这些都有待于
继续研究。
512
受来自自然语言处理技术方面的局限。要想使计算机准确地
分析、表达并传输知识,就必须使计算机具备理解自然语言
的能力。目前对自然语言的处理,虽然已从语法阶段上升到
语义阶段,但对自然语言的理解能力还限制在一些规范的语
句和语法规围内,这就决定了智能信息检索系统所能具有的
智能化表达程度。
52
信息检索系统本身的障碍
就检索而言,信息检索系统是一个复杂的系统,检索过
程本身存在着以下难题:
521
信息检索系统所面对的用户来自不同专业领域,知识层次也
各不相同,要使计算机对其进行合理定位是一个难题。
522
信息检索系统涉及的专业知识丰富,将诸多知识形式化较为
困难。
523
信息检索专家系统不易建立。不仅这些专家的经验和技术很
难准确地表达出来,而且不同的检索专家很可能对同一问题
持不同的观点,这对专家系统的建立提出了难题。
6 结束语
智能信息检索是信息检索未来的发展方向。在智能信息
检索算法的构建、信息检索的建设中,一些常用的基本智能
方法和技术,如基于统计的方法,对文本分析将发挥一定的
作用。同时,由于智能信息检索的关键在于对文献对象内容
和用户提问的理解,所以,自然语言理解成为智能信息检索
的基础。实践证明,句法分析和语义分析方法虽然仍有其价
值,但语料库方法将成为文献对象内容理解和用户提问理解
的重要方法。尽管目前智能信息检索的实现还存在着很多问
题和困难,但这些问题的解决途径却在逐步明朗和清晰,随
着这些问题的不断解决,信息检索中智能化程度会不断提高
。
-----------------------
【参考文献】
1
DaviesRoyIntelligent information systems progress and prospectsHalsted Press,1986
2
袁名敦,刘时衡等社会科学信息资源网络建设北京图书
馆出版社,20021
3
赖茂生计算机情报检索北京大学出版社,19933
4
石纯一,黄宁昌人工智能原理清华大学出版社, 1993
10
5
耿骞,袁名敦等信息系统分析与设计高等教育出版社,
20013
6
Mary Dee HarrisA introduction to Natural Language Pro cessing
Reston Publishing Company,Inc,1985
7
李明,沈红君情报检索智能化情报理论与实践, 1996
(6):42─44
8
王娟琴人工智能与情报检索的合壁图书情报工作,1998
(3):22─26
9
金燕,李建www上的全文信息检索技术计算机应用研究
,1999(1):40─43
10
栗莉我国智能情报检索研究的回顾与展望情报学报,
2001(2):217─221
11
卫红我国智能情报检索的现状及存在的问题,情报杂誌,
2002(2):84─86
12
陈力为计算语言学研究与应用北京语言学院出版社,
1993
13
刘小虎,吴葳等基于词典和统计的语料库词泄级对齐算法
情报学报,1997(2):20─26
14
冯跃进语料库语言学的最新动态及未来发展趋势山东外
语教学,1998(4):8─12
15
齐璇,马红妹汉语的语义分析研究计算机工程与科学,2001(3):89─92
16
冯柳平句法分析中的知识表示桂林电子工业学院学报,1999(2):58─61
页:
[1]