湘里妹子学术网

 找回密码
 注册
查看: 2854|回复: 0

数字图书馆的检索技术

[复制链接]
发表于 2004-8-5 20:53:13 | 显示全部楼层 |阅读模式
文章主题: 数字图书馆的检索技术
发表时间: 2001年09月09日 06时44分  
发表作者: 计算机世界  
发表内容:数字图书馆的检索技术
北京大学信息科学中心
王军 杨冬青 唐世渭
载《计算机世界》周报
2000年2月21日产品与技术版
来源:青藤书屋
---------------------------------------------------------------------------------------------------

----由于数字图书馆所包含的内容和涉及的领域非常广泛,其检
索技术五花八门,因此,所研究的问题基本上涵盖了当前信息
检索的各个方面,但基本上集中在以下两方面,一是解决目前
Internet上信息检索问题,二是多媒体信息的检索。

Internet检索技术现状

----当前,Internet上的信息检索模式是在交互的过程中进行浏览
和自由词全文检索。自由词是指检索的关键词是由用户自由选
择的,不受任何限制。客户端的WWW浏览和全文查找分别是
在服务器端的HTTP服务器和由WebCrawler等自动搜索软件产生
的索引表的支持下完成的。面对网上巨大的信息量,目前的浏
览方法费时费力,网络门户的分类索引并不解决根本问题。全
文检索的自由词,也就是无控词,可能来自于文献的标题、作
者、文摘或全文;而用户所选择的词又有很大的随意性。这样
的全文查找,其查准率之低是难以避免的,更不要说查找图
像、声频、视频等多媒体文档了。

----造成这一问题的关键原因有三:

----(1)自动搜索及索引软件只是进行关键词匹配,而信息检索需
要的是概念匹配。

----(2)网上电子文献的无结构性。当前网络上的电子文献以
HTML为主,HTML基本上是无结构的,其主要功能是提供资源
的超级链接。

----(3)在传统的图书馆中,用户的文献查找过程是在图书馆员的
协助下完成的,他们帮助用户确定准确的检索词,选择查找的
信息源。而现在的网络检索机制没有提供相应的支持。

结构检索

----好的查找需要好的组织。所谓结构检索,就是首先在服务器
端对信息进行良好的组织和结构化,将所有的信息文档按照统
一的方式进行标识、存储和索引。在此基础上,利用文档中的
结构化描述实现高精度的检索。

----下面,以UIUC数字图书馆项目所实现的检索技术为例来说
明。

----利用文档的细粒度结构采用SGML来标记文档的结构,包括
全文、章节、图、表、公式、文摘和参考引文。跨信息源的查
询借助于一套规范的元数据和标签来实现,将对SGML仓储的
查找和目录、词表等其他图书馆的服务结合起来。

----将文档对像化并保存在仓储中仓储是有组织的对象集合并带
有索引和视图,索引支持查找,视图支持显示。对分布式的仓
储进行联邦化操作,在仓储中记录对像的结构,并利用这种结
构导引跨仓储的联邦化查找。

----按照每个查找的需求调整查找界面例如,用户可以用布尔连
接符来指定一个短语或多个短语,用不同的邻近度来限定,并
使用SGML标签将查找限制在文档的某个指定部分。也可以从
挚事?列表中选择出现在收藏中的合适的词语,使用事先选定的
摰湫?文档列表直接选择文档。

----交互式术语提示在用户的全文查询界面中进行交互式的术语
提示,提供主题词表和同现词表。主题词表是由专业的图书馆
员将某个专业领域内的重要术语按照语义层次结构排列而成的
词汇表,其主题词都是专业内的规范词;同现词表是由自动索
引程序对文档进行同现统计分析,根据词汇在文档中出现的频
率排列而成的词汇表,其中包含有更广泛的词汇,能够反映新
的词汇,也更加灵活。用户可以从任一词表中选取词汇进行全
文查询。一般情况下,用户先参考主题词表,得到粗粒度的提
示,标识总的主题范围;然后参考同现词表,得到细粒度的提
示,确定所需要的检索用词列表。最后,用这些词进行全文查
找。

----状态网关要从实质上提高Web查找的性能,需要保留Web交
互的状态信息,通过状态网关以提供会话历史。

InterSpace和语义检索

----信息检索的目的是在信息收藏中查找包含用户所需的信息内
容的文档。这里有两个问题需要解决:一是描述文档的信息内
容;二是表达用户的信息需求。

----传统的解决方法是受控词匹配。在统一主题词表的控制下,
专业人员对文档进行描述和标引,用户选用规范的主题词表达
自己的信息需求。其优点是双方参照统一词表选用相同的词语
表达概念;缺点是受限于词表。

----当前的网络信息系统采用自由词匹配。用户任意选用词语描
述自己的信息需求,在文档的全文中进行词语匹配。其优点是
灵活;缺点是有大量的误匹配和漏查。由于并不是文档中的任
何一个词都能表达文档的内容,因此,用户所选的词也不一定
是文中所用的词,尽管表达的是同一概念。

----未来的信息系统应当是概念匹配,又称为语义检索。即自动
抽取文档的概念,加以标引;用户在系统的辅助下选用合适的
词语表达自己的信息需求;然后在两者之间执行概念匹配?匹配
在语义上相同、相近、相包含的词语。例如,用户要查询的是
摬僮飨低?,那么,客nix斀□怯胫□拍钕嗥涞拇视镏□弧?斯
悄芎妥匀挥藁岳斫庠谡庖涣渲蚪□辛烁挥谐尚□难芯浚□□
悄壳八□乖斓恼饫勒低骋□蠷□南鬃试聪拗圃谝桓鼋险□淖ㄒ
盗渲蚰淞?/P>

----概念匹配还可以解决信息检索中的挚驶鬮侍?。研究人员常
常需要借鉴其他领域的研究成果,但是由于专业术语的隔阂,
即便是在非常接近的领域也常常难以找到所需的文献。例如,
在山谷中架桥的工程师为了研究风力对桥梁结构的影响,希望
能参考在海底舖设管道的工程师研究水流对管道结构的影响的
成果。解决词汇问题的方法是从所涉及的专业领域中在语义上
可匹配的术语之间进行词汇切换。如前述的桥梁工程师可直接
使用自己熟悉的空气动力学术语,系统则自动将之转换为海洋
流体方面的术语。

----语义检索只有在相应的信息基础结构上才能实现。特别是在
一个由分布的、异构的信息仓储构成的多媒体网络信息环境中
实现仓储的语义联邦和检索的概念匹配?语义互操作,这是数字
图书馆所面临的最大挑战。

----DLI在UIUC的项目InterSpace中提出了建构互联的信息空间
(Inter□Space),以实现跨仓储的语义联邦和语义检索,指出
了本世纪网络信息环境的发展方向?信息分析环境。主要研究内
容如下:

----语义索引首先识别并抽取表达文档内容的概念。方法是上下
文同现统计分析(Co□occurence),分析哪些词一同出现在同
一句中,并统计其频率,构造同现词概念图。然后用抽取出来
的这些概念词对文档自动标引。仓储中各文档概念图的集合形
成了本仓储的概念空间,也就是该仓储所属的专业领域的概念
空间。

----语义互操作(SemanticInteroperability)即跨专业领域的词汇
切换。在不同领域的同现概念图间交叉互连,即在分属不同的
概念空间、具有相应语义的术语之间进行映射,实现跨仓储的
语义联邦。由于这些概念空间常来自于不同的社区图书馆,这
样,就提供了一条在不同的图书菁浣□懈拍钣成涞耐揪叮□迪
挚缱ㄒ怠□缤际楣莸挠镆寤僮鳌?/p>

----语义检索完全的语义检索有待于人工智能技术和自然语言理
解技术的成熟。InterSpace是在词汇切换和语义联邦的基础上,
借助交互式的术语提示来实现语义检索的。在用户检索的过程
中,系统向用户提供概念图,并根据用户输入的查找词定位相
关的部分,供其选择候选的检索词。对于词汇切换问题,由用
户在两个不同领域中指定一个共同的术语,系统根据此线索在
两个专业领域的概念图间交叉连接,并显示这两个领域中此术
语周围的概念图。如此,用户就有了2个术语提示表,以比较那
些分属于不同的专业领域却表达了同一概念的2套词语。

----对未来的期望是将概念空间纳入到网络信息系统的基础体系
结构中。网络上所有的信息,个人的、社区的,都组织到仓储
中,概念空间的构建和交叉互连成为仓储的基本操作。这样,
从个人到社区都有自己的信息空间,Inter□Net成为Inter□
Space。在概念空间互连和语义匹配的支持下,InterSpace提供对
知识跨网的透明操作,其基本功能是互连信息空间,以完成跨
仓储的信息关联(Correlation)。用户在InterSpace中选取相关对
像的导航路径,系统自动记录下来,然后以此路径去匹配其他
仓储的相关路径,实现全网的无缝语义检索,给我们一个单一
的、虚拟的、统一的网络,一个联邦的信息分析环境。

多媒体检索技术的前沿
?数字影像图书馆

----数字图书馆检索技术研究的另一个热点是多媒体信息检索技
术,如地图、航测照片、声频、视频等基于内容的检索。其中
最有代表性的是卡内基□梅隆大学的Informedia数字影像
(Video)图书馆项目。Informedia的目标是建立一个大规模的联
机数字影像图书馆,实现全内容的、基于知识的查询和检索。
它综合应用了图像处理、语音识别、自然语言理解、视频分析
的最新技术,展示了计算机多媒体信息处理的无限空间。

----1.影像处理的技术难点

----影像是一种与文本完全不同的媒体类型,影像的组织、存
储、检索、传递与利用需要一系列的新技术,其中的核心问题
是如何表示影像的内容。对于每秒钟30帧的数据量,用传统的
文字描述的方法是难以想像的。其他的主要问题有:

----(1)数字影像需要大量的存储空间

----因此,压缩技术和高速网络通信技术是大范围影像应用的基
础。

----(2)索引影像的内容

----影像含有丰富的内容,这些借助视频信号(镜头的运动、场
景变换、颜色)和声频信号(噪声、静止、对话)来传达的信
息用基于文本的处理技术很难处理,无法想像用关键词等人工
标引方法来解决。怎样对影像进行有效的索引是数字影像图书
馆要解决的一个关键问题。

----(3)影像的分段

----影像的数据量很大,在网络中传送整部的影像节目非常费
时,而且不便于用户略读(Skim)以定位所需的片段。最好将
影像分割成短片段并有代表性地标识每一片段的内容。一种方
法是直接把影像节目物理地切割成固定长度的短片段,这样做
破坏了影像节目的完整性且不便于影像的存储组织。可行的办
法是对影像增加索引,每个索引项指向有意义的短的逻辑片
段。需要解决的问题是:

----□如何自动识别影像的逻辑结构,如主题、场景、人物、场
次的变化等;

----□如何在整个影像中迅速定位有关的部分并传递给用户;

----□影像的压缩方法必须支持所需的随机访问。

----(4)影像片段的代表性表示

----要快速查找影像的内容,应向用户提供影像的代表性表示,
即影像的层信息。如一部半小时的影片分别有一个文字标题、
一段文字简介、一篇全文脚本、一幅代表性的图像和一段1分钟
长的略览影像片段。所有这些代表性的表示构成其层信息。用
户在检索时可以先廉价地查阅某一层的代表信息,再决定是否
调看更丰富的代表层。但是,如何自动生成层信息及其描述,
怎样使这些层信息尽可能地完全和精确,这是需要解决的问
题。

----(5)影像的检索

----影像所包含的内容广泛而庞杂,对影像的检索常会产生大的
检索结果集。对检索结果集的处理有两个主要问题:

----□尽量返回短小的影像片段这样可以使用户更快地浏览和过
滤检索结果集。问题是怎样生成这些短小的影像片段,使其能
充分代表影像的相关内蕁?庑枰□□萦跋竦哪谌萁□淝蟹殖上喽
远懒□穆呒□糠植□□兴饕□?馐墙畴□诙杂跋衲谌堇斫獾幕□
≈□系摹?敲矗□绾问迪钟跋衲谌莸幕□骼斫馐切枰□饩龅奈侍
狻?/p>

----□检索结果集的可视化可视化是操作大检索结果集的有效途
径,将检索结果集中的对象按照某方面的特征分组并形象化地
显示,包括外延特征和内涵特征。问题是如何提取影像的这些
特征并加以表示,以便在可视化的过程中利用。其关键仍然是
影像内容的机器理解。

----(6)影像的浏览

----不同于文字和图像的声频与视频是连续时变的、有着固定输
出速率的信息流。因此,浏览由声频和视频组成的影像需要特
殊的处理。若简单地加快影像的播放速度,首先需要更高的传
输带宽;其次,当回放速度达到普通速度的1.5~2倍时,语音
就听不懂了;再有,长时间的快放画面是无法忍受的。若采用
跳过一定数量的帧进行扫览(Scan)的办法,可能跳过的部分
刚好是要找的内容。最好的解决办法是影像折叠,使用可变比
率压缩影像。即首先理解影像的内容,根据内容的主题来区分
重要和不重要的部分,然后保留重要的部分而跳过不重要的部
分。这样,用户在扫览的同时,仍然能得到对整个影像段落的
完整理解。其中,问题的关键仍是内容理解。

----(7)影像资源的重用

----当用户检索到所需的影像后,还应支持其对影像的进一步开
发利用,如发表自己的观感、加注释、对影像进行编辑与剪
接。数字影像图书馆应将这类开发工具集成到其应用平台中
去。

----2.数字影像处理的关键技术

----由上可见,影像内容的理解和分段是影像处理的关键所在。
由于影像数据的复杂性,对上述问题的完全解决方案,即从影
像中自动抽取语义信息或通用的视觉识别系统,目前还难以实
现。唯有全方位地综合应用文字描述、图像处理、语音识别、
自然语言理解、视频分析等技术才是一条可行的途径。

----(1)收集文字描述

----尽可能地收集与影像有关的文字描述,充分利用已有的成熟
的文字处理与检索技术,如影像的标题、解说词、制作说明、
销售材料、影评回顾、商业宣传材料、版权说明等。将收集到
的大量文字资料组织成一定的结构,如层组织,与被描述的影
像联系起来。

----(2)声频信息的利用和语音识别

----影像的声频信息中所包含的文字和语音是影像处理的重要的
信息源。利用语音识别技术可自动生成影像的文字脚本,除了
对话、解说词等语音信息外,还应识别特殊的声音效果,如停
顿、静止、音乐、笑声等,用于补充其他类型的影像描述信息
之不足。例如,根据停顿来识别影像段落的自然开始和结束,
制作影像的略览片段时用静止来判断影像可折叠压缩的部分。

----(3)自然语言理解

----自然语言理解主要用于以下方面:自然语言查询处理,提供
各种类型的相似性匹配;或然性匹配,并返回按等级排列的检
索结果;矫正利用语音识别自动生成的脚本中的错误;影像标
题生成和摘要创建(如略览版的生成)。

----(4)图像处理

----图像处理是理解影像内容的关键技术,在影像的组织、分
类、分段、检索和重用中举足轻重。各种互相联系的影像分析
技术配合起来,完成对影像基于内容的或与内容无关的特征描
述,实现影像的分段和查找,如下图所示。


----(5)通过集成处理理解影像内容,识别重要的影像片段,折叠
压缩,以生成影像的概要,提供略览

----第一步,首先应用词语权重衡量技术,在影像的文字脚本中
识别出最重要的短语和关键词,文字脚本是从影像的音轨中自
动生成的;然后再到影像中含有这些词汇的对应位置检查场景
的变化和间断、相关对像、运动等。

----第二步,对分段后的影像统计计算每一个场景内容的相对重
要性。图像的重要性以所想要的镜头运动和对像呈现为特征。
通过光线流分析,确定场景中的哪一幅图包含最想要的运动。
通常,影像的制作人员在镜头动作之前或之后加上一段静止画
面作为给定场景的焦点。人脸、文字等对像在影像的概要片段
制作中是判断重要性的基础。

----最后,将上述两步得到的声频和视频集成起来,形成影像原
始内容的概要片段,提供有效的影像略馈?/p>

----(6)建设性的用户界面

----数字影像图书馆所需的用户界面与以文字为主的普通图书馆
的用户界面有着本质的区别。其关键特征如下:

----□平行呈现当某检索包含多个命中时,系统同时呈现像标、
智能运动像标和权运动序列及其相应的文字概要。

----□上下文大小用户能够调节被检索的视频/声频段落的大
小。这里的大小可以是持续的时间,也可以是其场景或所包含
信息的复杂度。

----□重用与开发允许用户对检索到的影像片段进行剪接、编
辑、合成等进一步的开发。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-21 15:41 , Processed in 0.157000 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表