术语自动提取软件系统研制报告

湘里妹子 · 发表于 2004-9-1 10:37:08

来源：http://jcxgz.most.gov.cn/shownews.asp?newsid=807
时间： 2004-02-25

　　一、利用计算机自动提取术语的必要性

　　当今时代科技信息飞速发展，科技文献大量涌现，随之而来涌现出大批新的术语。大多数人对这些新术语所表示的概念知之不深或一知半解。如果不及时发现、收集并解释这些新术语，势必会影响科技信息在大众之中的理解和传播，给学术交流带来不便，同时也会成为中国与国际接轨的障碍。因此，在中国进行术语库的建设以及对术语进行规范化已经成为当务之急。另一方面，在科技发展的新形势下，传统的手工方式己远远不能满足术语标准化工作的实际需求。利用计算机等先进的信息技术手段已经成为术语标准化工作的一个必然趋势。
　　本项目研制的术语自动提取软件利用计算机辅助的手段，从大量的科技文献中快速自动地提取出新术语的候选，并将这些新术语候选提交给专家进行确认和规范化。

　　二、术语自动提取软件系统的总体设计方案

　　1．术语自动提取软件系统的功能
　　从术语标准化工作的实际需求出发，术语自动提取软件系统实现了两个主要功能：新术语的批量提取功能和新术语的即时发现功能。
　　新术语的批量提取实现了从大规模领域语料库中自动批量提取新术语的功能，可以对于出现在领域相关语料中的新术语候选进行定期地广泛收集。该功能可服务于制订术语标准的专家及领域专家，使他们能够定期地针对机器自动提取的新术语候选，进行术语规范化，并更新领域术语库。
　　新术语的即时发现功能可即时发现在一篇特定的文本中出现的新术语，并可以将该文献中出现的新术语和已有术语分别标注出来。该功能方便术语标准化专家针对某一篇特定的文献，通过阅读上下文进一步了解并规范其中出现的新术语。同时也方便普通用户在阅读专业文献的过程中对于新概念、新技术的学习和掌握。

　　2．术语自动提取软件系统的结构

　　术语自动提取软件系统包括：基础资源层、学习层、应用层以及服务层这四个层次。其中，基础资源层为术语提取提供大规模真实文本的语料库和领域术语库，这些基础资源是术语识别知识的主要来源；在学习层，系统实现了术语识别知识的学习功能。该学习功能以大规模的领域语料库、术语库作为学习术语知识的来源，借助于计算语言所多年积累的切分、词性标注等语言分析工具对语料库和术语库进行必要的语言分析，并利用规则与统计相结合等先进的自然语言处理方法自动学习识别术语的知识。学习到的术语识别知识包括术语出现在真实语料中的外部环境特征以及术语本身的内部结构特征。在应用层，通过设计模型把有关术语识别的多种知识综合地应用到术语的自动提取中。新术语的批量提取功能将术语识别知识应用于大规模的语料库，提取出语料中出现的所有新术语；新术语的即时发现功能将术语识别知识应用于某一篇特定的文献，将该文献中出现的新术语和已有术语分别标注出来。在服务层，术语提取软件系统将最终与术语网络信息服务系统结合起来，以便更加广泛地服务于社会。

　　三、术语自动提取软件的实现技术

　　1．可以利用的资源
　　在本项目中，开发术语自动提取软件所利用的资源主要有以下几种：
　　(1)信息科学与技术领域的术语库：从各种词典收集合并的信息科学与技术领域的术语条目10万余条；
　　(2)信息科学与技术领域的语料库：从各种期刊及网上下载收集的信息科学与技术领域的文本语料5000万字；
　　(3)分词与词性标注软件：北大计算语言所开发的通用领域语料分词与词性标注工具。
　　2．资源的自动加工与整理
　　(1)术语库的自动加工与整理
　　术语库为术语提取提供了大量真实的样例，计算机可以从其中学习到术语的内部结构知识。为了从词汇层和语法层等多个角度学习术语的内部构成知识，需要对术语库进行适当的加工，包括：术语自动切分和词性标注以及术语构件的显性属性提取。这些加工过程都是自动完成的。
　　(2)语料库的自动加工与整理
　　语料库可以在更大范围内提供术语的组成成分、术语的边界以及术语的外部环境特征等等各种统计关联信息。为使语料库反映的语言规律更为整齐，我们首先对5000万字的语料库进行自动加工与整理，利用分词软件附带的普通词库与术语库对语料库进行自动切分和词性标注。进行自动切分和词性标注后的语料库为以下的形式。
　　3．术语自动提取的思路
　　(1)术语的定义、特点及表现形式
　　术语的定义
　　据中华人民共和国国家标准GB/T15237.1-2000《术语工作词汇》的定义，术语是在特定专业领域中一般概念的词语指称。
　　术语的特点
　　分析以上对于术语的定义可以发现，术语首先是—种词语(包括词和短语)，其次它与一般词语又是有区别的，区别之处主要在于术语是在特定的专业领域中使用的。因此，术语具有语言完备性和领域性这两个特点。
　　术语的表现形式
　　术语首先是—种结合紧密的固定或半固定的词或短语(具有结合紧密性和语言完备性特点)，进而，它还是一种具有很强的领域特征的词语(具有领域性)。术语内部结合紧密的特征可以通过计算组成术语候选的词之间的关联程度来体现出来；语言完备性的特征可以通过其组成成分的组成方式(表现为，例如：词性搭配序列)体现出来；而术语的领域特征可以通过领域术语构件体现出来。例如：同样是结合紧密的短语“移动终端”和“社会经济”，在信息科学与技术领域中，前者是术语，而后者是普通短语。原因在于前者具有领域特征，体现在前者包含有特征构件“终端”。我们可以充分地利用术语的这些特点和表现形式来进行术语的自动提取。
　　(2)术语自动提取的实现技术
　　我们利用术语的结合紧密性、语言完备性和领域性等特点来进行术语的自动提取。主要分为学习阶段和应用阶段。
　　学习阶段：
　　从语料库中学习词汇之间的关联度信息(衡量结合紧密程度)以及术语外部环境特征。
　　从术语库中学习术语内部构成规则及词在术语构成中的位置信息：
　　从经过切分和标注词性的术语集以及冯志伟教授的《现代术语学引论》中共学到1-5词术语构成规则122条，例如：
　　二词术语构成规则：N-V/VN+N-V/VN
　　三词术语构成规则：N+M+N
　　应用阶段：
　　根据不同的需求及输入语料量的不同决定是应用批量提取还是新术语的即时发现。
　　1．批量提取实现策略：
　　(1)计算二—五词组合的置信度(结合紧密性)；
　　(2)利用术语构成规则过滤术语候选(语言完备性)；
　　(3)利用领域特征过滤术语候选(领域性)。
　　2．新术语即时发现实现策略：
　　(1)利用术语构成规则、篇章级信息以及已有术语信息提取术语候选；
　　(2)利用计算2-5词结合的置信度(结合紧密性)过滤术语候选；
　　(3)利用领域特征过滤术语候选(领域性)；
　　(4)利用外部环境特征过滤术语候选。
　　3．批量提取实现策略与新术语即时发现实现策略的比较：
　　联系：二者都需要在应用之前经历学习阶段——从大规模语料库和术语库中学到词汇关联度信息以及词构成术语的位置信息等；
　　区别：新术语即时发现比批量提取有更多的可以利用的信息，包括：篇章级结构信息以及外部环境特征信息。
　　四、术语自动提取软件系统的性能分析
　　术语自动提取软件系统实现了两个主要功能：新术语的批量提取功能和新术语的即时发现功能。
　　(1)新术语的批量提取功能实现了从大规模领域语料库中自动批量提取新术语的功能。
　　输入：大规模的领域语料库；
　　输出：该领域语料库中出现的新术语候选的列表。
　　使用特点：对于出现在领域相关语料中的新术语候选进行定期地广泛收集。可通过循环的方式不断从新的语料库中提取出最新的术语。首先在一个大规模的领域语料库中提取出该语料库中出现的所有术语，经过人机交互的专家确认，确认后的术语作为已有术语存入术语库中；下一次当有新的语料库时，我们可以通过指定已有术语库，在已有术语库基础上，从新的语料库中提取新出现的术语，再通过人机交互的方式请专家确认，然后更新和扩充已有术语库。通过这种循环提取的方式可以不断提取出最新的术语，保证术语库的即时更新和扩充。可服务于制订术语标准的专家及领域专家。定期地针对机器自动提取的新术语候选，进行术语规范化，并更新领域术语库。
　　软件实现技术：界面开发采用Microsoft Visual Basic6.0高效的快速界面开发工具；批量提取核心算法的采用Microsoft Visual C++6.0实现，保证了关键计算的高计算效率；大规模数据处理采用了高性能大规模数据库SQL Server2000，使得数据的处理规模达到8千万个词条条目依然稳定的长时间运行各种统计。又由于其自我调整和管理功能，在术语统计分析中稳定而安全，性能较高。另外，由于SQL Server的可伸缩性和可扩展性，可以充分利用具备多个CPU和硬盘阵列的服务器的能力，也可以利用多台计算机联合来提供超级计算海量数据服务，从而具备实现更大规模术语处理的能力。
　　特点：处理时间长，但一次可以处理大批量的语料，并获得大批量的新术语候选。
　　(2)新术语的即时发现功能实现了对于任意一篇文本中出现的术语的即时标注，既包含新术语也包含已有术语。
　　输入：在WORD下打开任意文本；
　　输出：标注出在该文本中出现的所有新术语和所有已有术语。
　　用途：方便术语标准化专家针对某一篇特定的文献研究其中出现的术语；方便普通用户对于专业文献的学习和掌握。
　　软件实现技术：采用先进的基于COM的组件技术，在微软Office平台上实现的无缝嵌入软件，软件在实现上简洁明了，但却非常的实用，标注的同时加上了对术语服务平台的超链接，充分利用网络标准平台的能力达到更好的术语服务。
　　特点：具有即时性，打开一篇文献，则立刻可以标注出其中出现的所有新术语和所有已有术语。并实现了从术语自动提取的结果到术语网络信息服务系统的超链接。
　　(3)术语提取软件性能测试
　　测试选取信息科学技术相关领域的20篇文献进行测试。
　　测试语料来源：半导体技术、电信科学、电子计算机及其外部设备、固体电子学研究与进展、计算机辅助设计与图形学学报、计算机工程、计算机学报、计算机应用、计算机电动测量与控制、金卡工程、金融电子化、控制理论与应用、软件学报、通信学报、微电子学、无线通信技术、遥感学报、系统仿真学报、移动通信、中国有线电视。
　　覆盖率：90.02%；准确率：67.86%。
测试原则：在保证术语自动提取的覆盖率足够高的前提下测试准确率。目的是尽量全面地提供给专家新术语候选，由专家进一步决定该候选是否为真正的术语。实现由机器辅助人发现并确认新术语。
　　五、术语自动提取软件系统与术语网络信息服务系统的连接
　　术语自动提取软件提取出的是新术语本身。而术语标准化专家在进行术语标准化时，不只希望看到某一条术语本身，还希望了解有关这条术语的更多的信息。为此，术语自动提取软件还实现了从术语自动提取的结果到术语网络信息服务系统的超链接。这样，在计算机自动提取出新术语后，如果希望进一步了解这些术语，则可以点击术语，这样就进入了术语网络信息服务系统。在这里，我们就可以了解有关这条术语的更多的信息。

湘里妹子 · 发表于 2004-9-1 10:42:22

来源：http://jcxgz.most.gov.cn/
发布时间： 2004-02-25
--------------------------------------------------------------------------------

　　一、开发背景与设计思路

　　开发术语信息服务网络原型系统的目的是：一是为展示本期项目中术语库建设和术语语料库建设两项子任务的工作成果，二是希望将工作成果实际运用起来，为术语标准化工作服务、为术语相关领域的专家和普通用户服务。本期原型系统的开发过程中，资源、技术、经验的积累，将为今后建设“基于互联网的术语信息服务与在线术语信息征集系统”创造良好的条件。因此，术语信息服务网络原型系统已成为项目组工作中承前启后的枢纽之一。
　　术语信息服务网络原型系统是在项目组工作网站的“在线征集”栏目基础上、根据新的需求逐步建立起来的。术语库和术语语料库两项基础资源既是本期原型系统开发的原动力，也是其投入运行的坚强后盾；此外，用户的实际需求对系统功能的设计发挥了重要的指导作用。还需指出的是，对于术语自动提取软件在文本中即时发现的新旧术语，本系统为其提供查询服务，从而给予术语自动提取软件的用户更多方便。
　　术语信息服务网络原型系统的开发，主要体现以下五方面特色。
　　(1)强大的术语基础资源支持
　　为原型系统提供资源支持的是一个含12万术语条目及其属性描述的术语库和一个含100万句真实语料的术语语料库。丰富的基础资源是本系统有别于一般搜索引擎的一个主要特色。
　　(2)成熟的自然语言处理技术支持
　　从原型系统基础资源的建设到系统本身各项功能的实现，北大计算语言学研究所多年来在自然语言处理方面的积累均提供了很好的技术支持。
　　(3)灵活、便捷、实用、有效的查询方案
　　查询功能是本期原型系统的主心骨，现有的各项查询方案既能合理利用基础资源，又充分考虑了用户的具体需要。
　　(4)结构化的查询结果
　　原型系统以结构化的模式将丰富的术语信息清晰、规整地呈现给用户，这是本系统有别于普通信息检索引擎的另一重要特色。
　　(5)极大的后续开发潜力
　　本期原型系统已实现的功能在下期还能够继续完善，尚未实现的功能可以进一步开发，对此项目组已有初步的设计思路。已建设好的基础资源尚有大量蕴藏的知识可以挖掘，而作为一个服务性质的网站，系统本身也还有广阔的发展空间。

　　二、系统功能

　　系统功能设计是从充分。展示和应用基础资源、充分考虑用户的客观需求入手的。系统功能的详细介绍如下。
　　1．按术语条目查询
　　输入：术语条目
　　输出：
　　(1)术语库查询结果
　　其中精确匹配结果包括从术语库中检索到的中文条目、英文条目、缩略语、专业类别和定义；模糊匹配结果显示术语库中凡包含该查询内容的其他条目(页面仅显示检索到的前五条，可点击查看其他模糊匹配的结果)，点击可以该条目为输入进行下一轮查询。
　　(2)相关数据库查询结果
　　包括从相关数据库中检索到的中文又称同源词。
　　(3)语料库查询结果
　　包括检索到的前三个例句。
　　(4)相关网站查询结果
　　包括google、北大天网、citeseer、whatis四个网站链接，点击图标可获取该条目在相应网站查询结果的链接。对于google和北大天网，可按输入条目的中英文两种形式查询，对于citeseer和whatis，仅按英文查询。
　　2．按拼音顺序浏览
　　术语库中所有中文条目可按首字的拼音顺序排列。点击字母A至Z，即可浏览相应的术语集合，点击其中的术语条目，即可以该条目为输入进行术语条目查询。
　　3．在线征集
　　(1)新术语需求征集
　　路径1：用户点击新术语需求征集，填写表格，提交希望查询的术语条目。
　　路径2：用户查询术语条目，在术语库中没有找到该条目时，自动链接到新术语需求征集的表格填写页面，并在术语语料库中查找例句，供用户参考。
　　(2)新术语供给征集
　　用户点击新术语供给征集，选择新术语供给征集列表中的条目，填写表格，提交其掌握的术语信息。
　　(3)在线征集管理流程
　　对于新术语需求征集，工作人员审核用户提交的内容，查询现有的术语库、术语语料库及其他资料，或咨询专家，回复用户并更新术语库。无法解决的内容，放入新术语供给征集列表中。
　　对于新术语供给征集，工作人员审核用户提交的内容。通过审核的内容用于更新术语库，并将该条目从新术语供给征集列表中删除。未通过审核的内容继续留在列表中。

　　三、下期展望

　　作为项目组工作中承前启后的枢纽之一，术语信息服务网络原型系统的各项功能将在下期得到继续的完善和开发，以便更好地展示和运用项目研究成果，更好地推动项目组研究的深入开展，更好地服务用户。项目组的最终目标是建立一个“基于互联网的术语信息服务与在线术语信息征集系统”，为术语标准化和术语学研究提供更多的支持和帮助。

Artvine · 发表于 2004-9-1 14:40:58

沒有Demo，看那麼多不知道這東西作出來有啥用；講的頭頭是道，沒用。
就程式角度而言：沒交待作業平台(Server)，作業平台端口計算、用 vb vc++
ODBC SQL DM→大陸慣用的老毛病→必慢無疑→全部資料要作欄目→無法作全文檢索→資料檔的增簡與轉檔困難→核心程式若改寫→資料庫將重作

eggsoftw · 发表于 2006-2-16 13:07:58

有点同意楼上的说法吧（但是站长不要报复我哦）

◎用VC++|VB的话效果的确让人……（尽管我曾是VB的狂热Fans）
◎没有交代数据库、系统框架等重要的问题
◎没有考虑系统的可扩展性和原子性
◎也没有切实提出可行的解决方案

这是我的一点点看法，我是高中生+新手，可能说得不大正确，也可能是上述的内容楼主不便发出来

eggsoftw · 发表于 2006-2-16 13:10:22

但是我觉得做全文检索并不是好主意（而且也不实说SQL就不能全文检索）

另外，用SQL也不一定就很慢

如果用 MS SQL 2005可以内嵌CLR单元，这样不但扩展了T-SQL的作用，也起了分布式框架的作用，同时可以通过数据分割到不同服务器和负载平衡技术、.net Remoting等技术加快速度

Artvine · 发表于 2006-3-27 14:34:58

很歡迎年輕學子來討論。可能是我本身行業造成的主觀吧？我只習慣一板一眼的可操作文件，我還是希望看到Demo，這在國外是慣常的作法。
或許是幾年來執迷於Search Engine的研究(Search Engine的反面就是資料庫的神經)，在我看來，本文所涉及的技術面可能跟Search Engine有相關性。
目前大陸除了少數商業單位(如百度)，一般官方和教育單位的Search Engine表現並不出色，很值得繼續開發。
請記住，在電腦的發展和工業的需要來說，資料庫稱王。

		自动登录	找回密码
密码			注册

术语自动提取软件系统研制报告

相关帖子

术语信息服务网络原型系统开发报告