数字图书馆的检索技术

梦的轻波 · 发表于 2004-8-5 20:53:13

文章主题: 数字图书馆的检索技术
发表时间: 2001年09月09日 06时44分
发表作者: 计算机世界
发表内容:数字图书馆的检索技术
北京大学信息科学中心
王军杨冬青唐世渭
载《计算机世界》周报
2000年2月21日产品与技术版来源：青藤书屋
---------------------------------------------------------------------------------------------------

----由于数字图书馆所包含的内容和涉及的领域非常广泛，其检
索技术五花八门，因此，所研究的问题基本上涵盖了当前信息
检索的各个方面，但基本上集中在以下两方面，一是解决目前
Internet上信息检索问题，二是多媒体信息的检索。

Internet检索技术现状

----当前，Internet上的信息检索模式是在交互的过程中进行浏览
和自由词全文检索。自由词是指检索的关键词是由用户自由选
择的，不受任何限制。客户端的WWW浏览和全文查找分别是
在服务器端的HTTP服务器和由WebCrawler等自动搜索软件产生
的索引表的支持下完成的。面对网上巨大的信息量，目前的浏
览方法费时费力，网络门户的分类索引并不解决根本问题。全
文检索的自由词，也就是无控词，可能来自于文献的标题、作
者、文摘或全文；而用户所选择的词又有很大的随意性。这样
的全文查找，其查准率之低是难以避免的，更不要说查找图
像、声频、视频等多媒体文档了。

----造成这一问题的关键原因有三：

----(1)自动搜索及索引软件只是进行关键词匹配，而信息检索需
要的是概念匹配。

----(2)网上电子文献的无结构性。当前网络上的电子文献以
HTML为主，HTML基本上是无结构的，其主要功能是提供资源
的超级链接。

----(3)在传统的图书馆中，用户的文献查找过程是在图书馆员的
协助下完成的，他们帮助用户确定准确的检索词，选择查找的
信息源。而现在的网络检索机制没有提供相应的支持。

结构检索

----好的查找需要好的组织。所谓结构检索，就是首先在服务器
端对信息进行良好的组织和结构化，将所有的信息文档按照统
一的方式进行标识、存储和索引。在此基础上，利用文档中的
结构化描述实现高精度的检索。

----下面，以UIUC数字图书馆项目所实现的检索技术为例来说
明。

----利用文档的细粒度结构采用SGML来标记文档的结构，包括
全文、章节、图、表、公式、文摘和参考引文。跨信息源的查
询借助于一套规范的元数据和标签来实现，将对SGML仓储的
查找和目录、词表等其他图书馆的服务结合起来。

----将文档对像化并保存在仓储中仓储是有组织的对象集合并带
有索引和视图，索引支持查找，视图支持显示。对分布式的仓
储进行联邦化操作，在仓储中记录对像的结构，并利用这种结
构导引跨仓储的联邦化查找。

----按照每个查找的需求调整查找界面例如，用户可以用布尔连
接符来指定一个短语或多个短语，用不同的邻近度来限定，并
使用SGML标签将查找限制在文档的某个指定部分。也可以从
挚事?列表中选择出现在收藏中的合适的词语，使用事先选定的
摰湫?文档列表直接选择文档。

----交互式术语提示在用户的全文查询界面中进行交互式的术语
提示，提供主题词表和同现词表。主题词表是由专业的图书馆
员将某个专业领域内的重要术语按照语义层次结构排列而成的
词汇表，其主题词都是专业内的规范词；同现词表是由自动索
引程序对文档进行同现统计分析，根据词汇在文档中出现的频
率排列而成的词汇表，其中包含有更广泛的词汇，能够反映新
的词汇，也更加灵活。用户可以从任一词表中选取词汇进行全
文查询。一般情况下，用户先参考主题词表，得到粗粒度的提
示，标识总的主题范围；然后参考同现词表，得到细粒度的提
示，确定所需要的检索用词列表。最后，用这些词进行全文查
找。

----状态网关要从实质上提高Web查找的性能，需要保留Web交
互的状态信息，通过状态网关以提供会话历史。

InterSpace和语义检索

----信息检索的目的是在信息收藏中查找包含用户所需的信息内
容的文档。这里有两个问题需要解决：一是描述文档的信息内
容；二是表达用户的信息需求。

----传统的解决方法是受控词匹配。在统一主题词表的控制下，
专业人员对文档进行描述和标引，用户选用规范的主题词表达
自己的信息需求。其优点是双方参照统一词表选用相同的词语
表达概念；缺点是受限于词表。

----当前的网络信息系统采用自由词匹配。用户任意选用词语描
述自己的信息需求，在文档的全文中进行词语匹配。其优点是
灵活；缺点是有大量的误匹配和漏查。由于并不是文档中的任
何一个词都能表达文档的内容，因此，用户所选的词也不一定
是文中所用的词，尽管表达的是同一概念。

----未来的信息系统应当是概念匹配，又称为语义检索。即自动
抽取文档的概念，加以标引；用户在系统的辅助下选用合适的
词语表达自己的信息需求；然后在两者之间执行概念匹配?匹配
在语义上相同、相近、相包含的词语。例如，用户要查询的是
摬僮飨低?，那么，客nix斀□怯胫□拍钕嗥涞拇视镏□弧?斯
悄芎妥匀挥藁岳斫庠谡庖涣渲蚪□辛烁挥谐尚□难芯浚□□
悄壳八□乖斓恼饫勒低骋□蠷□南鬃试聪拗圃谝桓鼋险□淖ㄒ
盗渲蚰淞?/P>

----概念匹配还可以解决信息检索中的挚驶鬮侍?。研究人员常
常需要借鉴其他领域的研究成果，但是由于专业术语的隔阂，
即便是在非常接近的领域也常常难以找到所需的文献。例如，
在山谷中架桥的工程师为了研究风力对桥梁结构的影响，希望
能参考在海底舖设管道的工程师研究水流对管道结构的影响的
成果。解决词汇问题的方法是从所涉及的专业领域中在语义上
可匹配的术语之间进行词汇切换。如前述的桥梁工程师可直接
使用自己熟悉的空气动力学术语，系统则自动将之转换为海洋
流体方面的术语。

----语义检索只有在相应的信息基础结构上才能实现。特别是在
一个由分布的、异构的信息仓储构成的多媒体网络信息环境中
实现仓储的语义联邦和检索的概念匹配?语义互操作，这是数字
图书馆所面临的最大挑战。

----DLI在UIUC的项目InterSpace中提出了建构互联的信息空间
（Inter□Space），以实现跨仓储的语义联邦和语义检索，指出
了本世纪网络信息环境的发展方向?信息分析环境。主要研究内
容如下：

----语义索引首先识别并抽取表达文档内容的概念。方法是上下
文同现统计分析（Co□occurence），分析哪些词一同出现在同
一句中，并统计其频率，构造同现词概念图。然后用抽取出来
的这些概念词对文档自动标引。仓储中各文档概念图的集合形
成了本仓储的概念空间，也就是该仓储所属的专业领域的概念
空间。

----语义互操作（SemanticInteroperability）即跨专业领域的词汇
切换。在不同领域的同现概念图间交叉互连，即在分属不同的
概念空间、具有相应语义的术语之间进行映射，实现跨仓储的
语义联邦。由于这些概念空间常来自于不同的社区图书馆，这
样，就提供了一条在不同的图书菁浣□懈拍钣成涞耐揪叮□迪
挚缱ㄒ怠□缤际楣莸挠镆寤僮鳌?/p>

----语义检索完全的语义检索有待于人工智能技术和自然语言理
解技术的成熟。InterSpace是在词汇切换和语义联邦的基础上，
借助交互式的术语提示来实现语义检索的。在用户检索的过程
中，系统向用户提供概念图，并根据用户输入的查找词定位相
关的部分，供其选择候选的检索词。对于词汇切换问题，由用
户在两个不同领域中指定一个共同的术语，系统根据此线索在
两个专业领域的概念图间交叉连接，并显示这两个领域中此术
语周围的概念图。如此，用户就有了2个术语提示表，以比较那
些分属于不同的专业领域却表达了同一概念的2套词语。

----对未来的期望是将概念空间纳入到网络信息系统的基础体系
结构中。网络上所有的信息，个人的、社区的，都组织到仓储
中，概念空间的构建和交叉互连成为仓储的基本操作。这样，
从个人到社区都有自己的信息空间，Inter□Net成为Inter□
Space。在概念空间互连和语义匹配的支持下，InterSpace提供对
知识跨网的透明操作，其基本功能是互连信息空间，以完成跨
仓储的信息关联（Correlation）。用户在InterSpace中选取相关对
像的导航路径，系统自动记录下来，然后以此路径去匹配其他
仓储的相关路径，实现全网的无缝语义检索，给我们一个单一
的、虚拟的、统一的网络，一个联邦的信息分析环境。

多媒体检索技术的前沿
?数字影像图书馆

----数字图书馆检索技术研究的另一个热点是多媒体信息检索技
术，如地图、航测照片、声频、视频等基于内容的检索。其中
最有代表性的是卡内基□梅隆大学的Informedia数字影像
（Video）图书馆项目。Informedia的目标是建立一个大规模的联
机数字影像图书馆，实现全内容的、基于知识的查询和检索。
它综合应用了图像处理、语音识别、自然语言理解、视频分析
的最新技术，展示了计算机多媒体信息处理的无限空间。

----1．影像处理的技术难点

----影像是一种与文本完全不同的媒体类型，影像的组织、存
储、检索、传递与利用需要一系列的新技术，其中的核心问题
是如何表示影像的内容。对于每秒钟30帧的数据量，用传统的
文字描述的方法是难以想像的。其他的主要问题有：

----(1)数字影像需要大量的存储空间

----因此，压缩技术和高速网络通信技术是大范围影像应用的基
础。

----(2)索引影像的内容

----影像含有丰富的内容，这些借助视频信号（镜头的运动、场
景变换、颜色）和声频信号（噪声、静止、对话）来传达的信
息用基于文本的处理技术很难处理，无法想像用关键词等人工
标引方法来解决。怎样对影像进行有效的索引是数字影像图书
馆要解决的一个关键问题。

----(3)影像的分段

----影像的数据量很大，在网络中传送整部的影像节目非常费
时，而且不便于用户略读（Skim）以定位所需的片段。最好将
影像分割成短片段并有代表性地标识每一片段的内容。一种方
法是直接把影像节目物理地切割成固定长度的短片段，这样做
破坏了影像节目的完整性且不便于影像的存储组织。可行的办
法是对影像增加索引，每个索引项指向有意义的短的逻辑片
段。需要解决的问题是：

----□如何自动识别影像的逻辑结构，如主题、场景、人物、场
次的变化等；

----□如何在整个影像中迅速定位有关的部分并传递给用户；

----□影像的压缩方法必须支持所需的随机访问。

----(4)影像片段的代表性表示

----要快速查找影像的内容，应向用户提供影像的代表性表示，
即影像的层信息。如一部半小时的影片分别有一个文字标题、
一段文字简介、一篇全文脚本、一幅代表性的图像和一段1分钟
长的略览影像片段。所有这些代表性的表示构成其层信息。用
户在检索时可以先廉价地查阅某一层的代表信息，再决定是否
调看更丰富的代表层。但是，如何自动生成层信息及其描述，
怎样使这些层信息尽可能地完全和精确，这是需要解决的问
题。

----(5)影像的检索

----影像所包含的内容广泛而庞杂，对影像的检索常会产生大的
检索结果集。对检索结果集的处理有两个主要问题：

----□尽量返回短小的影像片段这样可以使用户更快地浏览和过
滤检索结果集。问题是怎样生成这些短小的影像片段，使其能
充分代表影像的相关内蕁?庑枰□□萦跋竦哪谌萁□淝蟹殖上喽
远懒□穆呒□糠植□□兴饕□?馐墙畴□诙杂跋衲谌堇斫獾幕□
≈□系摹?敲矗□绾问迪钟跋衲谌莸幕□骼斫馐切枰□饩龅奈侍
狻?/p>

----□检索结果集的可视化可视化是操作大检索结果集的有效途
径，将检索结果集中的对象按照某方面的特征分组并形象化地
显示，包括外延特征和内涵特征。问题是如何提取影像的这些
特征并加以表示，以便在可视化的过程中利用。其关键仍然是
影像内容的机器理解。

----(6)影像的浏览

----不同于文字和图像的声频与视频是连续时变的、有着固定输
出速率的信息流。因此，浏览由声频和视频组成的影像需要特
殊的处理。若简单地加快影像的播放速度，首先需要更高的传
输带宽；其次，当回放速度达到普通速度的1.5～2倍时，语音
就听不懂了；再有，长时间的快放画面是无法忍受的。若采用
跳过一定数量的帧进行扫览（Scan）的办法，可能跳过的部分
刚好是要找的内容。最好的解决办法是影像折叠，使用可变比
率压缩影像。即首先理解影像的内容，根据内容的主题来区分
重要和不重要的部分，然后保留重要的部分而跳过不重要的部
分。这样，用户在扫览的同时，仍然能得到对整个影像段落的
完整理解。其中，问题的关键仍是内容理解。

----(7)影像资源的重用

----当用户检索到所需的影像后，还应支持其对影像的进一步开
发利用，如发表自己的观感、加注释、对影像进行编辑与剪
接。数字影像图书馆应将这类开发工具集成到其应用平台中
去。

----2．数字影像处理的关键技术

----由上可见，影像内容的理解和分段是影像处理的关键所在。
由于影像数据的复杂性，对上述问题的完全解决方案，即从影
像中自动抽取语义信息或通用的视觉识别系统，目前还难以实
现。唯有全方位地综合应用文字描述、图像处理、语音识别、
自然语言理解、视频分析等技术才是一条可行的途径。

----(1)收集文字描述

----尽可能地收集与影像有关的文字描述，充分利用已有的成熟
的文字处理与检索技术，如影像的标题、解说词、制作说明、
销售材料、影评回顾、商业宣传材料、版权说明等。将收集到
的大量文字资料组织成一定的结构，如层组织，与被描述的影
像联系起来。

----(2)声频信息的利用和语音识别

----影像的声频信息中所包含的文字和语音是影像处理的重要的
信息源。利用语音识别技术可自动生成影像的文字脚本，除了
对话、解说词等语音信息外，还应识别特殊的声音效果，如停
顿、静止、音乐、笑声等，用于补充其他类型的影像描述信息
之不足。例如，根据停顿来识别影像段落的自然开始和结束，
制作影像的略览片段时用静止来判断影像可折叠压缩的部分。

----(3)自然语言理解

----自然语言理解主要用于以下方面：自然语言查询处理，提供
各种类型的相似性匹配；或然性匹配，并返回按等级排列的检
索结果；矫正利用语音识别自动生成的脚本中的错误；影像标
题生成和摘要创建（如略览版的生成）。

----(4)图像处理

----图像处理是理解影像内容的关键技术，在影像的组织、分
类、分段、检索和重用中举足轻重。各种互相联系的影像分析
技术配合起来，完成对影像基于内容的或与内容无关的特征描
述，实现影像的分段和查找，如下图所示。

----(5)通过集成处理理解影像内容，识别重要的影像片段，折叠
压缩，以生成影像的概要，提供略览

----第一步，首先应用词语权重衡量技术，在影像的文字脚本中
识别出最重要的短语和关键词，文字脚本是从影像的音轨中自
动生成的；然后再到影像中含有这些词汇的对应位置检查场景
的变化和间断、相关对像、运动等。

----第二步，对分段后的影像统计计算每一个场景内容的相对重
要性。图像的重要性以所想要的镜头运动和对像呈现为特征。
通过光线流分析，确定场景中的哪一幅图包含最想要的运动。
通常，影像的制作人员在镜头动作之前或之后加上一段静止画
面作为给定场景的焦点。人脸、文字等对像在影像的概要片段
制作中是判断重要性的基础。

----最后，将上述两步得到的声频和视频集成起来，形成影像原
始内容的概要片段，提供有效的影像略馈?/p>

----(6)建设性的用户界面

----数字影像图书馆所需的用户界面与以文字为主的普通图书馆
的用户界面有着本质的区别。其关键特征如下：

----□平行呈现当某检索包含多个命中时，系统同时呈现像标、
智能运动像标和权运动序列及其相应的文字概要。

----□上下文大小用户能够调节被检索的视频/声频段落的大
小。这里的大小可以是持续的时间，也可以是其场景或所包含
信息的复杂度。

----□重用与开发允许用户对检索到的影像片段进行剪接、编
辑、合成等进一步的开发。

		自动登录	找回密码
密码			注册

数字图书馆的检索技术

相关帖子

浏览过的版块