|
来源:http://jcxgz.most.gov.cn/shownews.asp?newsid=807
时间: 2004-02-25
一、利用计算机自动提取术语的必要性
当今时代科技信息飞速发展,科技文献大量涌现,随之而来涌现出大批新的术语。大多数人对这些新术语所表示的概念知之不深或一知半解。如果不及时发现、收集并解释这些新术语,势必会影响科技信息在大众之中的理解和传播,给学术交流带来不便,同时也会成为中国与国际接轨的障碍。因此,在中国进行术语库的建设以及对术语进行规范化已经成为当务之急。另一方面,在科技发展的新形势下,传统的手工方式己远远不能满足术语标准化工作的实际需求。利用计算机等先进的信息技术手段已经成为术语标准化工作的一个必然趋势。
本项目研制的术语自动提取软件利用计算机辅助的手段,从大量的科技文献中快速自动地提取出新术语的候选,并将这些新术语候选提交给专家进行确认和规范化。
二、术语自动提取软件系统的总体设计方案
1.术语自动提取软件系统的功能
从术语标准化工作的实际需求出发,术语自动提取软件系统实现了两个主要功能:新术语的批量提取功能和新术语的即时发现功能。
新术语的批量提取实现了从大规模领域语料库中自动批量提取新术语的功能,可以对于出现在领域相关语料中的新术语候选进行定期地广泛收集。该功能可服务于制订术语标准的专家及领域专家,使他们能够定期地针对机器自动提取的新术语候选,进行术语规范化,并更新领域术语库。
新术语的即时发现功能可即时发现在一篇特定的文本中出现的新术语,并可以将该文献中出现的新术语和已有术语分别标注出来。该功能方便术语标准化专家针对某一篇特定的文献,通过阅读上下文进一步了解并规范其中出现的新术语。同时也方便普通用户在阅读专业文献的过程中对于新概念、新技术的学习和掌握。
2.术语自动提取软件系统的结构
术语自动提取软件系统包括:基础资源层、学习层、应用层以及服务层这四个层次。其中,基础资源层为术语提取提供大规模真实文本的语料库和领域术语库,这些基础资源是术语识别知识的主要来源;在学习层,系统实现了术语识别知识的学习功能。该学习功能以大规模的领域语料库、术语库作为学习术语知识的来源,借助于计算语言所多年积累的切分、词性标注等语言分析工具对语料库和术语库进行必要的语言分析,并利用规则与统计相结合等先进的自然语言处理方法自动学习识别术语的知识。学习到的术语识别知识包括术语出现在真实语料中的外部环境特征以及术语本身的内部结构特征。在应用层,通过设计模型把有关术语识别的多种知识综合地应用到术语的自动提取中。新术语的批量提取功能将术语识别知识应用于大规模的语料库,提取出语料中出现的所有新术语;新术语的即时发现功能将术语识别知识应用于某一篇特定的文献,将该文献中出现的新术语和已有术语分别标注出来。在服务层,术语提取软件系统将最终与术语网络信息服务系统结合起来,以便更加广泛地服务于社会。
三、术语自动提取软件的实现技术
1.可以利用的资源
在本项目中,开发术语自动提取软件所利用的资源主要有以下几种:
(1)信息科学与技术领域的术语库:从各种词典收集合并的信息科学与技术领域的术语条目10万余条;
(2)信息科学与技术领域的语料库:从各种期刊及网上下载收集的信息科学与技术领域的文本语料5000万字;
(3)分词与词性标注软件:北大计算语言所开发的通用领域语料分词与词性标注工具。
2.资源的自动加工与整理
(1)术语库的自动加工与整理
术语库为术语提取提供了大量真实的样例,计算机可以从其中学习到术语的内部结构知识。为了从词汇层和语法层等多个角度学习术语的内部构成知识,需要对术语库进行适当的加工,包括:术语自动切分和词性标注以及术语构件的显性属性提取。这些加工过程都是自动完成的。
(2)语料库的自动加工与整理
语料库可以在更大范围内提供术语的组成成分、术语的边界以及术语的外部环境特征等等各种统计关联信息。为使语料库反映的语言规律更为整齐,我们首先对5000万字的语料库进行自动加工与整理,利用分词软件附带的普通词库与术语库对语料库进行自动切分和词性标注。进行自动切分和词性标注后的语料库为以下的形式。
3.术语自动提取的思路
(1)术语的定义、特点及表现形式
术语的定义
据中华人民共和国国家标准GB/T15237.1-2000《术语工作词汇》的定义,术语是在特定专业领域中一般概念的词语指称。
术语的特点
分析以上对于术语的定义可以发现,术语首先是—种词语(包括词和短语),其次它与一般词语又是有区别的,区别之处主要在于术语是在特定的专业领域中使用的。因此,术语具有语言完备性和领域性这两个特点。
术语的表现形式
术语首先是—种结合紧密的固定或半固定的词或短语(具有结合紧密性和语言完备性特点),进而,它还是一种具有很强的领域特征的词语(具有领域性)。术语内部结合紧密的特征可以通过计算组成术语候选的词之间的关联程度来体现出来;语言完备性的特征可以通过其组成成分的组成方式(表现为,例如:词性搭配序列)体现出来;而术语的领域特征可以通过领域术语构件体现出来。例如:同样是结合紧密的短语“移动终端”和“社会经济”,在信息科学与技术领域中,前者是术语,而后者是普通短语。原因在于前者具有领域特征,体现在前者包含有特征构件“终端”。我们可以充分地利用术语的这些特点和表现形式来进行术语的自动提取。
(2)术语自动提取的实现技术
我们利用术语的结合紧密性、语言完备性和领域性等特点来进行术语的自动提取。主要分为学习阶段和应用阶段。
学习阶段:
从语料库中学习词汇之间的关联度信息(衡量结合紧密程度)以及术语外部环境特征。
从术语库中学习术语内部构成规则及词在术语构成中的位置信息:
从经过切分和标注词性的术语集以及冯志伟教授的《现代术语学引论》中共学到1-5词术语构成规则122条,例如:
二词术语构成规则:N-V/VN+N-V/VN
三词术语构成规则:N+M+N
应用阶段:
根据不同的需求及输入语料量的不同决定是应用批量提取还是新术语的即时发现。
1.批量提取实现策略:
(1)计算二—五词组合的置信度(结合紧密性);
(2)利用术语构成规则过滤术语候选(语言完备性);
(3)利用领域特征过滤术语候选(领域性)。
2.新术语即时发现实现策略:
(1)利用术语构成规则、篇章级信息以及已有术语信息提取术语候选;
(2)利用计算2-5词结合的置信度(结合紧密性)过滤术语候选;
(3)利用领域特征过滤术语候选(领域性);
(4)利用外部环境特征过滤术语候选。
3.批量提取实现策略与新术语即时发现实现策略的比较:
联系:二者都需要在应用之前经历学习阶段——从大规模语料库和术语库中学到词汇关联度信息以及词构成术语的位置信息等;
区别:新术语即时发现比批量提取有更多的可以利用的信息,包括:篇章级结构信息以及外部环境特征信息。
四、术语自动提取软件系统的性能分析
术语自动提取软件系统实现了两个主要功能:新术语的批量提取功能和新术语的即时发现功能。
(1)新术语的批量提取功能实现了从大规模领域语料库中自动批量提取新术语的功能。
输入:大规模的领域语料库;
输出:该领域语料库中出现的新术语候选的列表。
使用特点:对于出现在领域相关语料中的新术语候选进行定期地广泛收集。可通过循环的方式不断从新的语料库中提取出最新的术语。首先在一个大规模的领域语料库中提取出该语料库中出现的所有术语,经过人机交互的专家确认,确认后的术语作为已有术语存入术语库中;下一次当有新的语料库时,我们可以通过指定已有术语库,在已有术语库基础上,从新的语料库中提取新出现的术语,再通过人机交互的方式请专家确认,然后更新和扩充已有术语库。通过这种循环提取的方式可以不断提取出最新的术语,保证术语库的即时更新和扩充。可服务于制订术语标准的专家及领域专家。定期地针对机器自动提取的新术语候选,进行术语规范化,并更新领域术语库。
软件实现技术:界面开发采用Microsoft Visual Basic6.0高效的快速界面开发工具;批量提取核心算法的采用Microsoft Visual C++6.0实现,保证了关键计算的高计算效率;大规模数据处理采用了高性能大规模数据库SQL Server2000,使得数据的处理规模达到8千万个词条条目依然稳定的长时间运行各种统计。又由于其自我调整和管理功能,在术语统计分析中稳定而安全,性能较高。另外,由于SQL Server的可伸缩性和可扩展性,可以充分利用具备多个CPU和硬盘阵列的服务器的能力,也可以利用多台计算机联合来提供超级计算海量数据服务,从而具备实现更大规模术语处理的能力。
特点:处理时间长,但一次可以处理大批量的语料,并获得大批量的新术语候选。
(2)新术语的即时发现功能实现了对于任意一篇文本中出现的术语的即时标注,既包含新术语也包含已有术语。
输入:在WORD下打开任意文本;
输出:标注出在该文本中出现的所有新术语和所有已有术语。
用途:方便术语标准化专家针对某一篇特定的文献研究其中出现的术语;方便普通用户对于专业文献的学习和掌握。
软件实现技术:采用先进的基于COM的组件技术,在微软Office平台上实现的无缝嵌入软件,软件在实现上简洁明了,但却非常的实用,标注的同时加上了对术语服务平台的超链接,充分利用网络标准平台的能力达到更好的术语服务。
特点:具有即时性,打开一篇文献,则立刻可以标注出其中出现的所有新术语和所有已有术语。并实现了从术语自动提取的结果到术语网络信息服务系统的超链接。
(3)术语提取软件性能测试
测试选取信息科学技术相关领域的20篇文献进行测试。
测试语料来源:半导体技术、电信科学、电子计算机及其外部设备、固体电子学研究与进展、计算机辅助设计与图形学学报、计算机工程、计算机学报、计算机应用、计算机电动测量与控制、金卡工程、金融电子化、控制理论与应用、软件学报、通信学报、微电子学、无线通信技术、遥感学报、系统仿真学报、移动通信、中国有线电视。
覆盖率:90.02%;准确率:67.86%。
测试原则:在保证术语自动提取的覆盖率足够高的前提下测试准确率。目的是尽量全面地提供给专家新术语候选,由专家进一步决定该候选是否为真正的术语。实现由机器辅助人发现并确认新术语。
五、术语自动提取软件系统与术语网络信息服务系统的连接
术语自动提取软件提取出的是新术语本身。而术语标准化专家在进行术语标准化时,不只希望看到某一条术语本身,还希望了解有关这条术语的更多的信息。为此,术语自动提取软件还实现了从术语自动提取的结果到术语网络信息服务系统的超链接。这样,在计算机自动提取出新术语后,如果希望进一步了解这些术语,则可以点击术语,这样就进入了术语网络信息服务系统。在这里,我们就可以了解有关这条术语的更多的信息。 |
|