湘里妹子学术网

 找回密码
 注册
查看: 3278|回复: 0

90年代中国全文数据库及检索研究综述

[复制链接]
发表于 2004-1-2 19:59:02 | 显示全部楼层 |阅读模式
-----------------------------------------------------------------------------------------------------
文章主题: 90年代中国全文数据库及检索研究综述
发表时间: 2003年10月19日 01时14分  
发表作者: 情报理论与实践  
发表内容:90年代中国全文数据库及检索研究综述
徐建华、杨毓丽 撰(南开大学国际商学院图书馆学系)
《情报理论与实践》,2000/05,392~394
来源:青藤书屋  
     
   

    所谓全文数据库及其检索,就是将文献全文以机读形式
存储,然后用自然语言表达检索课题,借助于截词、逻辑等
匹配方法,直接对文献正文进行查找,以检出所需文献的一
种方式。由于其具有检索直接、使用方便、专指性好等优点
,其发展近年来受到普遍关注。因此,本文拟就90年代以来
中国全文数据库及检索研究现状作一概观性描述和评价,以
求理清其发展脉络,探索其未来发展趋势,为其今后发展提
供借鉴。

1 全文数据库建设概况的研究

  1973年,美国米德公司建成了世界上第一个面向公众查
询的大型全文数据库Lexis,标帜着一个新的情报检索领域
的诞生。随着计算机在信息产业的广泛应用,80年代中期开
始,国外全文数据库的建设呈现出迅猛发展的势头,中国则
由于汉字处理的复杂性,全文数据库的发展滞后一些,只有
湖北省地方志全文检索系统、经济日报全文数据库、人民日
报全文数据库等几个全文数据库投入使用。所以90年代初期
,中国全文数据库概况研究主要是对国外全文数据库的重点
介绍[1~3],及中国独立开发的全文数据库建设情况的初步
探索[4]。 随着中国汉字激光照排技术的发明和广泛使用,
为全面开发全文数据库奠定了技术基础,中国全文数据库进
入大规模研制时期,因此这一阶段出现了多篇研究中国全文
数据库建设概况的文章[5~ 7]。 同时这一时期香港也制定了
一项The Hong Kong Newspaper Full─text Database Project[8],
准备在香港中文大学建立一个港版的中英文全文数据库。这
里特别值得一提的是由清华大学编辑制作的《中国学术期刊
(光盘版)》的出版发行。《中国学术期刊(光盘版)》
1996年底在中国发行后,由于其学科覆盖范围广,更新及时
,并且提供了一种新的传统检索入口和全文检索相结合的检
索模式,所以其应用十分广泛,促使人们从各方面对其进行
研究,既有动态新闻报导[9],又有检索实践评价[10], 还有
从向读者推广利用的角度出发对《中国学术期刊(光盘版)
》与美国“Applied Science& Technology Plus”的对比分析
[11]。可以说, 《中国学术期刊(光盘版)》在一定程度上
代表了中国电子期刊全文数据库的发展水平,因此对其的系
统研究,无疑具有一定的意义。

  通过以上分析可知,开展对全文数据库建设概况的研究
,对于我们及时了解全文数据库的建设现状,交流开发经验
,把握全文数据库发展动态和趋势,避免盲目开发,具有一
定的参考作用。

2 全文数据库及检索理论问题的研究

  全文数据库及检索理论的研究呈现出阶段性发展特点。

  90年代初期,由于中国全文数据库的发展处于起步阶段
,因此这一时期的研究只是对全文数据库及检索的技术进展
和应用作一些概要性描述[12~15]等。这些文章通过对国内
外全文数据库的发展状况的研究,分析了全文检索与其他检
索相比的优缺点,探讨了中国目前全文数据库研制过程中存
在的问题,预测了今后发展前景。可见,中国全文数据库发
展初期,就处于一定的理论指导下。这种理论指导使得中国
全文数据库的开发、研制始终坚持正确的发展方向。

  随着中国全文数据库开发数量的不断增多,研究重点开
始探讨其迅速发展因素,并对汉字全文数据库单汉字、词索
引两种机制的研究转入定量分析[16,17]。 另外还有作为全
文数据库的电子出版物对信息产业影响的研究[18]。

  随着中国全文数据库发展初具规模,这一时期对全文数
据库的论述重点转移到全文数据库建设中存在问题的对策分
析,出现了总结评述性论文[19~21]。这些文章考察了中国
全文数据库的开发应用状况,探讨了现有某些问题的解决方
法,它说明全文数据库的建设绝非一蹴而就,它需要全盘考
虑,统筹规则,系统分析。因此,这几篇文章对于我们在中
国全文数据库建设已经具有一定发展影响和实力的同时,及
时总结和回顾全文数据库及检索研究的优点和局限性,适时
调整研究重点和研究力量,具有一定的指导意义。特别值得
一提的是,张政宝的《我国全文数据库建设的现状与发展》
一文,首次提出了开展对全文数据库用户研究[21]。由于这
一时期全文数据库在图书情报机构的广泛应用,因此本阶段
也有不少论述全文检索技术对图书情报服务影响的文章[22,
23]。

  近年来,因特网在全球范围内的应用,改变了人们的工
作和生活方式,利用网上信息,成为人们获取信息的一个重
要途径;但是目前网上信息量极度膨胀,在大量信息面前如
何搜索选择自己所需信息的能力显得越发重要。在这种条件
下,越来越多的WWW 服务器开始加入辅助人们进行信息查
询的检索工具,而几乎所有的检索工具都采用了相同的方式
──全文检索。因此,研究网络环境下的全文检索技术成为
全文检索研究的前沿课题。孙国泉的《网络环境下的全文检
索系统》一文对此方面的问题进行了论述,并预测“网络环
境下的Client/Server模式,多媒体数据、自动索引、超文本
链接、自动分词”[24]是未来全文检索系统的发展趋势。

  当前,互联网的发展推动了信息化建设,而作为信息资
源的重要组成部分──全文数据库也相应得到发展,已成为
处理文献信息中的知识与数据的有力工具,因此,这一时期
再次出现了全面总结评述性论文,同前一次相比,论文内容
更为系统,涉及范围更广、更具有针对性,既有为实现信息
资源共享,建立电子文献传递系统的研究[25],又有对国内
外较成功的和新推向市场的全文检索系统的分析和选择[26]
,还有对全文数据库建库原理与应用技术的全面探讨[27]。
这些论文的出现标帜着全文检索技术走向成熟。

  从以上分析可以看出,全文数据库及检索的理论研究重
点随时代的发展而有所不同,这是因为其理论发展是以技术
为背景,同时技术变革对理论有定向性选择。所以,90年代
初期,中国全文数据库的发展刚刚起步时,其最初理论研究
是描述性和探讨性的,但是这种科学的概况和总结解决了最
初的技术困难,将全文数据库及检索技术推向高一层次的阶
段,这又符合理论从实践中总结规律,并反过来对实践起指
导、促进作用这一规律。这一定律反覆运用,使得全文数据
库及检索技术渐进发展,理论不断成熟、深入。

3 全文数据库的开发与检索技术的研究

  全文数据库开发与检索技术的研究主要集中于一些技术
难点和热点上。

31 汉字自动标引技术

  汉字标引是中国情报检索领域内的重要研究课题,目前
研究侧重于自动标引,而自动标引又可分为单汉字标引法和
词切分标引法研究。
1 )
单汉字自动标引技术研究。 陈光祚的《论单汉字检索系统》
[28]及苏新宁的《汉语文献检索词自动标引研究》[29]是目
前此方面的代表作。前者从汉语文本和汉字的特点出发,分
析了单汉字检索模式的发展趋势和可行性,是一篇对单汉字
检索一般性问题进行全面总结的高水平的论文。后者提出了
一种新的文献自动标引算法──检索词后组标引法,这种方
法避免了先组式切分标引的障碍,因此本文对于实现真正的
、完全的多维标引和检索,突破汉语自动标引处理的瓶颈具
有一定的参考价值。
2)
词典切分标引法研究。以词为处理单位进行标引,可以提高
查准率和系统响应时间,是全文检索系统标引技术的最好选
择。但是由于汉语的复杂性,基于自动分词的全文检索在实
现上难度很大。因此,目前此方面的研究甚少,未有专文论
述,研究散见于介绍相关问题的文章。

32 用全文检索技术制作电子出版物

  目前,中国新闻出版界普遍采用了电子出版技术,这种
电子文本如果经过进一步的格式化形成全文数据库后,配以
经过改进和完善的全文检索软件就可作为电子出版物向社会
发行,对于这种电子出版物的制作技术、过程和特点,陈光
祚在《利用全文检索技术制作电子出版物》[30,31]等几篇
文章中作了介绍。

33 将自然语言和受控语言相结合提高检索效率

  随着计算机存储容量、运算速度和软件的改善,大量原
始信息可以被存入检索系统,导致了全文数据库的大量出现
,而全文数据库的出现必然促使使用自然语言检索势在必行
,因此张琪玉、周全明、贾同兴、许慧[32~38]等人根据当
前中国检索系统的具体情况,提出了在传统检索语言体系的
基础上采取后控制手段,以期在不断加深自然语言化程度的
过程中达到殊途同归的兼容化的思路。这种思路的提出必然
会不断完善基于自然语言的结构化大型词库,使之成为一个
具有词间联想功能的,具有自然语言理解能力的新一代智能
化检索系统。

34 全文本汉字检索软件

  全文检索是在全文数据库的基础上进行的。检索功能的
实现不仅取决于全文数据库的结构,而且取决于检索软件的
设计水平。《全文文本及其汉字软件研究》[39]和《通用全
文本汉字信息系统存贮和检索软件H─CGRS》[40]两文针对
各自的检索系统,介绍了软件设计的模型。

35 超文本全文检索系统的研究

  超文本系统是随着网络的发展出现的一种非线性高级动
态文本系统。传统的文本信息是按顺序组织的,而超文本全
文数据库检索则完善了传统数据库的知识组织模式,提出了
一种新的动态“联想”的功能。方正、张子枫等人合作完成
的《超文本全文检索系统的研究》[41,42] 就是针对当前在
所有的超文本系统上基于提问的检索尚未实现这个问题,提
出了一个基于超文本Dexter参考模型。这个模型充分考虑了
超文本和全文检索技术可扩展性和软件易维护性,构建了一
个全文检索系统与超文本相互独立的结构。目前,超文本全
文检索的研究尚在探讨阶段,这种系统的参考模型和用户接
口的检索语言还没有统一标准。

  从全文检索技术本身来看,随着科学的进一步发展,全
文检索技术将不断得到完善和发展。自动标引、全文软件设
计与开发、全文后控词表以及超文本链接结合技术仍是全文
检索开发与设计技术研究的热点问题,因为这些领域仍是进
一步发展中国全文数据库及检索问题的关键技术。
---------------------

【参考文献】

1
殷怀义Dialog系统全文数据库系统情报科学技术,1991,(5)
2
刘冬平Dialog系统期刊的全文数据库及其启示 情报理论
与实践,1992,(4)
3
罗兴辉Dialog系统全文型百科全书数据库分析世界图书, 1992,(9)
4
陈睿,等湖北省地方志全文检索系统情报理论与实践, 1991,(6)
5
谢维民国家军用标准全文数据库系统核情报工作与研究
, 1995,(3)
6
魏相利用全文本检索技术在微机上建设超大型文献管理系统农业图书情报学刊,1996,(4)
7
李廷杰中国自然科学核心期刊全文数据库建设的探讨 中
国科技期刊研究,1997,(1)
8
Michael M LThe Hong Kong Chinese University DocumentRetrieval Database高校文献信息学刊,1994,(6)
9
中国学术期刊(光盘版)正式发行现代图书情报技术,1997,(3):61
10
顾藏知,等清华大学中文学术期刊(光盘版)全文检索系
统在我馆的实现江苏图书馆学报,1998,(1)
11
姜爱蓉,黄晓玲中英文光盘版电子期刊的比较分析情报
学报,1998,(2)
12
李京华联机检索的新领域:全文数据库世界图书,1991
,(8)
13
顾耀芳综述全文检索系统现代图书情报技术,1992,
(1)
14
石玉军全文数据述略情报理论与实践,1993,(1)
15
邵品洪全文数据库的技术进展和应用现代图书情报技术
,1993,(4)
16
王任阁全文数据库及全文检索迅速发展因素高校图书馆
工作,1995,(3)
17
杨沛汉字全文数据库索引机制的定量研究现代图书情报
技术,1996,(2)
18
陈光祚作为全文数据库的电子出版物对信息产业影响高
校文献信息学刊,1994,(1)
19
赖茂生,张洪弟中文全文数据库开发与检索技术高校文
献信息学刊,1994,(1)
20
宋明亮我国报纸信息数据库开发的现状与对策中国图书
馆学报,1995,(1)
21
张政宝我国全文数据库建设的现状与发展情报理论与实践,1996,(5)
22
杨学仑全文检索技术及在图书馆中的应用北京图书馆馆
刊,1996,(1)
23
林立全文检索技术及其对情报服务的影响福建图书馆学刊,1997,(3)
24
孙国泉网络环境下的全文检索系统图书馆,1997,(3)
25
刘晓清全文数据库和电子文献传递系统研究中国图书馆
学报,1999,(6)
26
王梅全文检索系统的分析与选择图书情报工作,1999,
(6)
27
王兰成全文数据库建库原理与应用技术情报学报,1999
,(4)
28
陈光祚论单汉字检索系统情报学报,1992,(1)
29
苏新宁汉语文献检索词自动标引研究情报学报,1993,(4)
30
陈光祚 轻印刷的中间产品可开发成全文数据库并可作为电
子出版物发行武汉大学学报,1991,(6)
31
陈光祚利用全文检索技术制作电子出版物情报学报,1993,(2)
32
张琪玉论后控制词表图书情报工作,1994,(1)
33
贾同兴检索语言与自然语言现代图书情报技术,1995,(5)
34
周全明关于全文检索系统后控技术研究的基本观点和结论
图书馆杂誌,1996,(4)
35
周全明全文检索系统后控关键词采集政策研究情报理论
与实践,1996,(4)
36
周全明全文检索系统后控词表范畴体系确立方法初探情
报理论与实践,1996,(6)
37
周全明一个具体的全文后控检索系统的设计现代图书情
报技术,1996,(3)
38
许慧检索语言的发展及其在网络环境中新型体系的建立
大学图书馆学报,1997,(2)
39
胡燕,等全文文本检索及其汉字软件实现研究情报科学
技术,1990,(5)
40
毛楚祥通用全文本汉字信息存贮和检索软件H─CGRS
情报科学技术,1991,(3)
41
张子枫,方正超文本全文检索系统的研究现代图书情报
技术,1996,(1)
42
方正,等基于超文本的全文检索系统的研究情报学报,1996,(6)


来自61.217.195.54
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-26 03:17 , Processed in 0.065288 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表