湘里妹子学术网

 找回密码
 注册
查看: 2145|回复: 1

關鍵詞自動擷取技術之探討

[复制链接]
发表于 2004-3-7 15:44:26 | 显示全部楼层 |阅读模式
发表于 2004-3-7 21:49:08 | 显示全部楼层

关键词自动撷取技术之探讨

文章主题: 关键词自动撷取技术之探讨
发表时间: 2004年03月07日 15时37分  
发表作者: 中国图书馆学会会讯  
发表内容:
关键词自动撷取技术之探讨
曾元显 撰(辅仁大学图书资讯学系副教授)
中国图书馆学会会讯106 期
http://blue.lins.fju.edu.tw/~tseng/papers/keyword.htm

----------------------------------------------------------------------------------------------------

壹、前言

过去大部份的书目检索系统,受限于资料库管理系统
(DataBase Management System)特殊的索引制作方式,仅能
以布林逻辑及右切截比对功能提供资料查询,对于书目记录
的全文式(左右切截)检索,则以建立关键词库的方式达成
。然而此类关键词库,必须以人工或半人工的方式建立,除
了耗费大量人力、时间之外,还必须经常维护更新,以反应
书目资料的新增异动。

目前网际网路通达的程度与普及速度,使资料成长更为快速
,各种检索系统的使用情况更为频繁。新一代资讯检索系统
,尤其是允许全文式查询的系统,必须能够运用更具效率的
自动化技术,以提供简易有效的检索服务。然而此类自动化
技术,如自动索引、索引典自动建立 [1]、自动摘要 [2]、自
动分类 [3]、相关回馈 [4]、自动过滤 [5]、概念检索 [6] 等,
大部份都必须先进行关键词撷取(keyword extraction)的动
作,依此结果再进行其他的处理。因此,无论是书目性资料
或网路上的全文资料,关键词自动撷取都是资讯检索系统的
基础与核心技术,其重要性将随网路的发展而越来越明显。

「关键词自动撷取」是一种辨认有意义且具代表性片语或
词汇的自动化技术。由于用途的差别,不同的研究,对此问
题的定义、采用的方法、运用的条件与撷取的成效也各有差
异。例如,自然语言处理的领域将此问题定义为「断词」问
题(word segmentation),其目的在扫瞄一段文句,将此文
句断开成各个可赋予词类的片语或单字,以做为机器翻译或
了解语意的基础 [7]。因此其运用条件是即使输入单一个句
子,亦必须将构成句子的各个词汇断出来。由于断出来的字
汇中包含组成句子的各种词类,如名词、动词、代名词、连
结词、介系词等,这种结果对资讯检索而言,并非必要。因
此,底下的讨论将只针对关键词撷取应用于资讯检索的领域


贰、撷取方法的比较

从文献的分析得知 [8-12],关键词撷取的技巧主要有三种方
法。第一种为词库比对法:即利用已建立的词库,来比对输
入文件(或文句),将文件中出现在词库中的片语撷取出来
。此种方法制作简单,只要将词库中的每个词,去比对是否
出现在输入文件中即可。其结果都是词库中的正确词汇,但
并不保证所有关键词都能被撷取出来。除此之外,其缺点还
包括:需要耗费人力、时间维护词库以容纳各个领域的专业
用语与新生词汇,无法应付未曾预料的人名、地名、机构名
等专有名称,且词库越大比对速度越慢。

第二种为文法剖析法:透过自然语言处理技术的文法剖析程
式,剖析出文件中的名词片语,再运用一些方法与准则,过
滤掉不适合的词汇。其结果几乎也都是有意义的名词片语,
但大部份的剖析程式,需要藉助已经建立的词典或语料库
[13],因此其缺点也和词库比对法一样。除此之外,有些文
法剖析法甚至只能剖析合乎文法的完整文句,使得书目、标
题等资料里的关键词无法被撷取出来。

第三种方法为统计分析法:透过对文件的分析,累积足够的
统计参数后,再将统计参数符合某些条件的片语撷取出来。
最简单的统计参数是计数词汇发生的频率,即词频,将词频
落在某一范围的词汇取出。由于没有用到词库或语料库,会
有撷取错误的情况发生,得到无意义或不合法的词汇。此外
,统计参数不足的关键词无法被选到。然而其优点是较不受
语文国别与句型的限制,而且可以撷取出未曾被词库、语料
库网罗的专业用语、新生词汇与专有名称等片语。

其他的方法还包括上述方法的综合运用,或加入一些变化。
例如,利用一些排版规则,将重要的片语取出,如标题项、
条列项中的文字,或强调词(大写、字头语、斜体、加粗、
加底线、引号内的文句)等等 [3]。可以想见,各个方法都
有其优缺点,运用时需要针对不同的环境条件加以考量。

关键词在本文中虽定义为有意义且具代表性的片语或词汇,
然而关键词的认定牵涉到个人的主观判断,且相同的词汇在
不同的主题下,也有不同的认定。在此情况下,要比较各种
方法的撷取成效,并不容易。不过一些文献对此问题仍有初
步的探讨,其中 Arppe [14] 以文法剖析方式试验其撷取成效
,结果发现大约 80%-99% 的关键词为名词片语,而且虽然
名词片语的撷取准确率与召回率皆可达 95% 以上,然而具
代表性的名词片语不到总数的 50%,因此单纯剖析出名词片
语后,仍需要依据其他特征以过滤掉不要的词汇。Godby
[15] 则比较文法剖析法与统计分析法的优劣,发现统计分析
法除了可以跟文法剖析法做得一样好之外,亦具备简单、不
受语文国别与句法的限制、以及可同时过滤不具代表性片语
的优点。

参、中文关键词撷取

国内对中文关键词自动撷取的问题也有研究。清大自然语言
处理实验室曾尝试撷取关键词作为书后索引(book index),
其主要方法为运用电子字典协助断出词汇 [16],再以统计方
式配合自然语言处理技术剖析名词片语,最后再设定过滤条
件,筛选索引词汇 [17]。与人工索引做比较,其精确率与召
回率可同时达到 63% 的程度。至于导致错误的主要来源有:
断词错误(42%)、统计特征不足(39%)、以及无法处理复
杂语法结构(19%)。

中央研究院资讯科学研究所也有关键词自动撷取运用在资讯
检索的研究。其主要作法乃先建构一种称为 PAT-tree 的资料
结构,再辅以词频等统计特征撷取出关键词 [18]。PAT-tree
虽然在资讯检索上有相当优良的特性,不过其建造过程需耗
费相当长的时间,例如,建构 600 Mega bytes 的资料需要一
个星期的时间 [19]。可以想见,此种方式的有效运用,必须
要能改进 PAT-tree 的建构速度。

最近,我们也发展出一套关键词撷取的技术,并且已实际运
用在辅仁大学图书馆的 OPAC 线上书目检索系统上 [20]。其
方法为统计分析法,运用统计词频的方式来断出关键词,没
有用到辞典、语料库、或自然语言处理的技巧。因此具备撷
取速度快、撷取的正确率高(82%-100%)、中英文均适用、
撷取的词汇没有长度限制、可同时撷取广义词与狭义词等特
性 [21]。有兴趣的读者可连上 WWW 网站测试 [22]。

肆、结语

关键词自动撷取乃资讯检索领域的基础与核心技术。过去中
文方面的研究较少,未来如要将中文资讯检索的领域拓展到
自动索引、索引典自动建立、自动摘要、自动分类、相关回
馈、自动过滤、概念检索等地步,则中文方面的基础技术还
要再投入更多的研究。目前我们已有一些初步的成果运用在
实际的检索系统上,展望未来这类的应用会更加丰富,届时
网路上越来越多非资讯专业的使用者在进行资讯检索时,将
会觉得更加简单便利。
-------------------

参考资料

[1]
Gerard Salton, "Automatic Text Processing: The Transformation,
Analysis, and Retrieval of Information by Computer" Addison-
Wesley, 1989.

[2]
Timonthy C. Craven, "An Experiment in the Use of Tools for
Computer-Assisted Abstracting" ASIS 1996 Annual Conference
Proceedings, Oct. 19-24, 1996. Also available at
http://www.asis.org/annual-96/ElectronicProceedings/craven.html

[3]
Bruce Krulwich, "Learning Document Category Descriptions
through the Extraction of Semantically Significant Phrase"
Workshop on Data Engineering for Inductive Learning, IJCAI-1995,
Montreal, Canada, Aug. 20 1995. Also available at
http://ai.iit.nrc.ca/DEIL/krulwich.ps.Z

[4]
AltaVista, http://www.altavista.digital.com/

[5]
Michael Mc Elligoot and Humphrey Sorensen, "An Evolutionary
Connectionist Approach to Personal Information Filtering" Proc.
Fourth Irish Neural Network Conference, pp. 141-146, Sept. 1994.
Also available at http://odyssey.ucc.ie/pub/filtering/INNC94.ps

[6]
C. Lin and H. Chen, "An Automatic Indexing and Neural Network
Approach to Concept Retrieval and Classification of Multilingual
(Chinese-English) Documents" http://ai.bpa.arizona.edu/papers/chinese93/chinese93.html
, July 5, 1994.

[7]
Richard Sproat, Chilin Shih, William Gale, and Nancy Chang, "A
Stochastic Finite-State Word-Segmentation Algorithm for Chinese"
Computational Linguistics, Vol.22, No. 3, pp.376-404, 1996.

[8]
Burgin, R., Dillon, M. "Improving Disambiguation in FASIT,"
Journal of American Society for Information Science, 43(2), 1992,
101-114.

[9]
Fagan, J. L. "The Effectiveness of a Nonsyntactic Approach to
Automatic Phrase Indexing for Document Retrieval," Journal of
American Society for Information Science, 40(2), 1989, 115-132.

[10]
Jones, L. P., Gassie, E. W., & Radhakrishnan, S. "INDEX: The
Statistical Basis for an Automatic Conceptual Phrase-indexing System," Journal of American Society for Information Science,
41(2), 1990, 87-98.

[11]
Paijmans, H, "Comparing the Document Representation of Two IR
Systems: CLARIT and TOPIC," Journal of American Society for
Information Science, 44(7), 1993, 383-392.

[12]
Zimin Wu and Gwyneth Tseng, "ACTS: An Automatic Chinese Text
Segmentation System for Full Text Retrieval," Journal of American
Society for Information Science, 46(2), 1995, 83-96.

[13]
陈光华,"资讯检索查询之自然语言处理",中国图书馆学会
会报,第 57 期, 85年 12月,页 141 - 153 。

[14]
Antti Arppe, "Term Extraction from Unrestricted Text,"
http://www.lingsoft.fi/doc/nptool/term-extraction.html
, 1995.

[15]
Jean Godby, "Two Techniques for the Indentification of Phrases in
Full Text," http://www.oclc.org/oclc/research/publications/review94/part1/twotech.htm .

[16]
Jen-Nan Chen, Jyun-Sheng, Chang and Huey-Chyun Chen, "Using
Word Segmentation Model for Compression of Chinese Text"
http://nlplab.cs.nhtu.edu.tw/~mathis/own/html/PAPER/JNL/95/cpcol/ CPCOL95.htm

[17]
Mathis H. C. Chen, Tsong-Yi Tseng, Jason J. S. Chang, "Automatic
Generation of Indices for Chinese Books," http://nlplab.cs.nthu.edu.tw/~mathis/own/html/ PAPER/JNL/96/cpcol/BookIdx.htm

[18]
简立峰,"寻易系统(Csmart)与中文智慧型资讯检索",资
讯传播与图书馆学, 3卷 2期, 85年 12月,页28-37。

[19]
William B. Frakes and Ricardo Baeza-Yates, Infomation Retrieval: Data Structure and Algorithms, Prentice Hall, 1992.

[20]
曾元显,"新一代资讯检索技术在图书馆 OPAC 系统的应用",大学图书馆,1卷 3期,86 年 7月。

[21]
Yuen-Hsien Tseng, "Fast Keyword Extraction of Chinese
Documents in a Web Environment," to appear in Information
Retrieval Workshop for Asia Languages - 1997.

[22]
辅大书目资料检索系统在http://140.136.250.49/ 。此网站乃过渡
性的雏形系统,未来将被正式启用的系统所取代,新系统网
站位址将变更,在交接期间,读者可改连至 http://www.lins.fju.edu.tw/~tseng/infofun/ 测试。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-18 08:54 , Processed in 0.064338 second(s), 15 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表