Artvine 发表于 2004-3-7 15:44:26

關鍵詞自動擷取技術之探討

http://artvine.com.tw/cgi-bin/board/bbsboard.pl?board_id=6&type=show_post&post=387

湘里妹子 发表于 2004-3-7 21:49:08

关键词自动撷取技术之探讨

文章主题: 关键词自动撷取技术之探讨
发表时间: 2004年03月07日 15时37分
发表作者: 中国图书馆学会会讯
发表内容:
关键词自动撷取技术之探讨
曾元显 撰(辅仁大学图书资讯学系副教授)
中国图书馆学会会讯106 期
http://blue.lins.fju.edu.tw/~tseng/papers/keyword.htm
----------------------------------------------------------------------------------------------------

壹、前言

过去大部份的书目检索系统,受限于资料库管理系统
(DataBase Management System)特殊的索引制作方式,仅能
以布林逻辑及右切截比对功能提供资料查询,对于书目记录
的全文式(左右切截)检索,则以建立关键词库的方式达成
。然而此类关键词库,必须以人工或半人工的方式建立,除
了耗费大量人力、时间之外,还必须经常维护更新,以反应
书目资料的新增异动。

目前网际网路通达的程度与普及速度,使资料成长更为快速
,各种检索系统的使用情况更为频繁。新一代资讯检索系统
,尤其是允许全文式查询的系统,必须能够运用更具效率的
自动化技术,以提供简易有效的检索服务。然而此类自动化
技术,如自动索引、索引典自动建立 、自动摘要 、自
动分类 、相关回馈 、自动过滤 、概念检索 等,
大部份都必须先进行关键词撷取(keyword extraction)的动
作,依此结果再进行其他的处理。因此,无论是书目性资料
或网路上的全文资料,关键词自动撷取都是资讯检索系统的
基础与核心技术,其重要性将随网路的发展而越来越明显。

「关键词自动撷取」是一种辨认有意义且具代表性片语或
词汇的自动化技术。由于用途的差别,不同的研究,对此问
题的定义、采用的方法、运用的条件与撷取的成效也各有差
异。例如,自然语言处理的领域将此问题定义为「断词」问
题(word segmentation),其目的在扫瞄一段文句,将此文
句断开成各个可赋予词类的片语或单字,以做为机器翻译或
了解语意的基础 。因此其运用条件是即使输入单一个句
子,亦必须将构成句子的各个词汇断出来。由于断出来的字
汇中包含组成句子的各种词类,如名词、动词、代名词、连
结词、介系词等,这种结果对资讯检索而言,并非必要。因
此,底下的讨论将只针对关键词撷取应用于资讯检索的领域


贰、撷取方法的比较

从文献的分析得知 ,关键词撷取的技巧主要有三种方
法。第一种为词库比对法:即利用已建立的词库,来比对输
入文件(或文句),将文件中出现在词库中的片语撷取出来
。此种方法制作简单,只要将词库中的每个词,去比对是否
出现在输入文件中即可。其结果都是词库中的正确词汇,但
并不保证所有关键词都能被撷取出来。除此之外,其缺点还
包括:需要耗费人力、时间维护词库以容纳各个领域的专业
用语与新生词汇,无法应付未曾预料的人名、地名、机构名
等专有名称,且词库越大比对速度越慢。

第二种为文法剖析法:透过自然语言处理技术的文法剖析程
式,剖析出文件中的名词片语,再运用一些方法与准则,过
滤掉不适合的词汇。其结果几乎也都是有意义的名词片语,
但大部份的剖析程式,需要藉助已经建立的词典或语料库
,因此其缺点也和词库比对法一样。除此之外,有些文
法剖析法甚至只能剖析合乎文法的完整文句,使得书目、标
题等资料里的关键词无法被撷取出来。

第三种方法为统计分析法:透过对文件的分析,累积足够的
统计参数后,再将统计参数符合某些条件的片语撷取出来。
最简单的统计参数是计数词汇发生的频率,即词频,将词频
落在某一范围的词汇取出。由于没有用到词库或语料库,会
有撷取错误的情况发生,得到无意义或不合法的词汇。此外
,统计参数不足的关键词无法被选到。然而其优点是较不受
语文国别与句型的限制,而且可以撷取出未曾被词库、语料
库网罗的专业用语、新生词汇与专有名称等片语。

其他的方法还包括上述方法的综合运用,或加入一些变化。
例如,利用一些排版规则,将重要的片语取出,如标题项、
条列项中的文字,或强调词(大写、字头语、斜体、加粗、
加底线、引号内的文句)等等 。可以想见,各个方法都
有其优缺点,运用时需要针对不同的环境条件加以考量。

关键词在本文中虽定义为有意义且具代表性的片语或词汇,
然而关键词的认定牵涉到个人的主观判断,且相同的词汇在
不同的主题下,也有不同的认定。在此情况下,要比较各种
方法的撷取成效,并不容易。不过一些文献对此问题仍有初
步的探讨,其中 Arppe 以文法剖析方式试验其撷取成效
,结果发现大约 80%-99% 的关键词为名词片语,而且虽然
名词片语的撷取准确率与召回率皆可达 95% 以上,然而具
代表性的名词片语不到总数的 50%,因此单纯剖析出名词片
语后,仍需要依据其他特征以过滤掉不要的词汇。Godby
则比较文法剖析法与统计分析法的优劣,发现统计分析
法除了可以跟文法剖析法做得一样好之外,亦具备简单、不
受语文国别与句法的限制、以及可同时过滤不具代表性片语
的优点。

参、中文关键词撷取

国内对中文关键词自动撷取的问题也有研究。清大自然语言
处理实验室曾尝试撷取关键词作为书后索引(book index),
其主要方法为运用电子字典协助断出词汇 ,再以统计方
式配合自然语言处理技术剖析名词片语,最后再设定过滤条
件,筛选索引词汇 。与人工索引做比较,其精确率与召
回率可同时达到 63% 的程度。至于导致错误的主要来源有:
断词错误(42%)、统计特征不足(39%)、以及无法处理复
杂语法结构(19%)。

中央研究院资讯科学研究所也有关键词自动撷取运用在资讯
检索的研究。其主要作法乃先建构一种称为 PAT-tree 的资料
结构,再辅以词频等统计特征撷取出关键词 。PAT-tree
虽然在资讯检索上有相当优良的特性,不过其建造过程需耗
费相当长的时间,例如,建构 600 Mega bytes 的资料需要一
个星期的时间 。可以想见,此种方式的有效运用,必须
要能改进 PAT-tree 的建构速度。

最近,我们也发展出一套关键词撷取的技术,并且已实际运
用在辅仁大学图书馆的 OPAC 线上书目检索系统上 。其
方法为统计分析法,运用统计词频的方式来断出关键词,没
有用到辞典、语料库、或自然语言处理的技巧。因此具备撷
取速度快、撷取的正确率高(82%-100%)、中英文均适用、
撷取的词汇没有长度限制、可同时撷取广义词与狭义词等特
性 。有兴趣的读者可连上 WWW 网站测试 。

肆、结语

关键词自动撷取乃资讯检索领域的基础与核心技术。过去中
文方面的研究较少,未来如要将中文资讯检索的领域拓展到
自动索引、索引典自动建立、自动摘要、自动分类、相关回
馈、自动过滤、概念检索等地步,则中文方面的基础技术还
要再投入更多的研究。目前我们已有一些初步的成果运用在
实际的检索系统上,展望未来这类的应用会更加丰富,届时
网路上越来越多非资讯专业的使用者在进行资讯检索时,将
会觉得更加简单便利。
-------------------

参考资料


Gerard Salton, "Automatic Text Processing: The Transformation,
Analysis, and Retrieval of Information by Computer" Addison-
Wesley, 1989.


Timonthy C. Craven, "An Experiment in the Use of Tools for
Computer-Assisted Abstracting" ASIS 1996 Annual Conference
Proceedings, Oct. 19-24, 1996. Also available at
http://www.asis.org/annual-96/ElectronicProceedings/craven.html


Bruce Krulwich, "Learning Document Category Descriptions
through the Extraction of Semantically Significant Phrase"
Workshop on Data Engineering for Inductive Learning, IJCAI-1995,
Montreal, Canada, Aug. 20 1995. Also available at
http://ai.iit.nrc.ca/DEIL/krulwich.ps.Z


AltaVista, http://www.altavista.digital.com/


Michael Mc Elligoot and Humphrey Sorensen, "An Evolutionary
Connectionist Approach to Personal Information Filtering" Proc.
Fourth Irish Neural Network Conference, pp. 141-146, Sept. 1994.
Also available at http://odyssey.ucc.ie/pub/filtering/INNC94.ps


C. Lin and H. Chen, "An Automatic Indexing and Neural Network
Approach to Concept Retrieval and Classification of Multilingual
(Chinese-English) Documents" http://ai.bpa.arizona.edu/papers/chinese93/chinese93.html
, July 5, 1994.


Richard Sproat, Chilin Shih, William Gale, and Nancy Chang, "A
Stochastic Finite-State Word-Segmentation Algorithm for Chinese"
Computational Linguistics, Vol.22, No. 3, pp.376-404, 1996.


Burgin, R., Dillon, M. "Improving Disambiguation in FASIT,"
Journal of American Society for Information Science, 43(2), 1992,
101-114.


Fagan, J. L. "The Effectiveness of a Nonsyntactic Approach to
Automatic Phrase Indexing for Document Retrieval," Journal of
American Society for Information Science, 40(2), 1989, 115-132.


Jones, L. P., Gassie, E. W., & Radhakrishnan, S. "INDEX: The
Statistical Basis for an Automatic Conceptual Phrase-indexing System," Journal of American Society for Information Science,
41(2), 1990, 87-98.


Paijmans, H, "Comparing the Document Representation of Two IR
Systems: CLARIT and TOPIC," Journal of American Society for
Information Science, 44(7), 1993, 383-392.


Zimin Wu and Gwyneth Tseng, "ACTS: An Automatic Chinese Text
Segmentation System for Full Text Retrieval," Journal of American
Society for Information Science, 46(2), 1995, 83-96.


陈光华,"资讯检索查询之自然语言处理",中国图书馆学会
会报,第 57 期, 85年 12月,页 141 - 153 。


Antti Arppe, "Term Extraction from Unrestricted Text,"
http://www.lingsoft.fi/doc/nptool/term-extraction.html
, 1995.


Jean Godby, "Two Techniques for the Indentification of Phrases in
Full Text," http://www.oclc.org/oclc/research/publications/review94/part1/twotech.htm .


Jen-Nan Chen, Jyun-Sheng, Chang and Huey-Chyun Chen, "Using
Word Segmentation Model for Compression of Chinese Text"
http://nlplab.cs.nhtu.edu.tw/~mathis/own/html/PAPER/JNL/95/cpcol/ CPCOL95.htm


Mathis H. C. Chen, Tsong-Yi Tseng, Jason J. S. Chang, "Automatic
Generation of Indices for Chinese Books," http://nlplab.cs.nthu.edu.tw/~mathis/own/html/ PAPER/JNL/96/cpcol/BookIdx.htm


简立峰,"寻易系统(Csmart)与中文智慧型资讯检索",资
讯传播与图书馆学, 3卷 2期, 85年 12月,页28-37。


William B. Frakes and Ricardo Baeza-Yates, Infomation Retrieval: Data Structure and Algorithms, Prentice Hall, 1992.


曾元显,"新一代资讯检索技术在图书馆 OPAC 系统的应用",大学图书馆,1卷 3期,86 年 7月。


Yuen-Hsien Tseng, "Fast Keyword Extraction of Chinese
Documents in a Web Environment," to appear in Information
Retrieval Workshop for Asia Languages - 1997.


辅大书目资料检索系统在http://140.136.250.49/ 。此网站乃过渡
性的雏形系统,未来将被正式启用的系统所取代,新系统网
站位址将变更,在交接期间,读者可改连至 http://www.lins.fju.edu.tw/~tseng/infofun/ 测试。
页: [1]
查看完整版本: 關鍵詞自動擷取技術之探討