一个面向传统语言学研究的语料库一体化系统

虎子 · 发表于 2009-5-3 09:13:25

作者：刘华来源：http://www.languagetech.cn/doc/CpsYitihua.doc

[摘要]：在语言研究中，语料的收集和检索是一个很重要的问题。本文介绍了一个集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统，并详细阐明了其原理、功能和使用方法。该系统界面友好，功能强大、简单易操作，适合语言学研究者使用。

[关键词]：语料库系统、语料下载、网页内容解析、语料库信息抽取建库、语料信息检索
[中图分类号]
[文献标识码]
[文章编号]

语言学研究在很大程度上是依赖于材料的，材料的收集和检索是一个很重要的问题。以前基于“法不十不立”思想的材料个案枚举式方法显然已经不适合网络时代的语言学研究；由于语言学研究者大多是文科出身的，对计算机处理大规模数据的方法不是很熟悉，而且，单纯依靠计算机工作者的协作，又很难满足语言学研究者的个性化要求。因此，如何让语言学研究者能简单方便地构建自己的语料库，从而快速汇集大规模真实文本进行检索研究已经成为语言学研究中一个关键性的问题。
在近两年实践经验的基础上，我们完成了一个集成以上功能的语料库软件系统，系统界面友好，简单易操作，只需用户选择或输入一些参数即可构建自己的语料库及检索系统。
本文将在如下几个方面进行介绍：语料下载、网页内容解析、语料库信息抽取建库、语料信息检索。

1．语料下载

随着英特网的发展，网络资源日益丰富，建设超大规模平衡语料库已经变得非常简单易行。但网络的膨胀也带来了语料库建设的其他问题，那就是巨量数据的自动处理。如此丰富的网络资源显然不太可能靠人工来操作，因此网页自动下载、网页内容解析、语料库信息抽取建库及语料信息检索成为了一个高度自动化的语料库软件系统必须考虑的几个问题。
语料下载模块主要利用已有的下载软件完成语料的大规模自动下载。
鉴于网上已经存在性能优异的下载软件，我们没有自主开发网页下载软件模块。现行比较好的网络资源下载软件有Spidersoft公司出品的Webzip，它能够完整下载网站的内容，也可以选择自行设置下载的层数、文件类型、网页与媒体文件的定位以及网址过滤器，以便按己所需地获取网站内容，而且下载到本地硬盘中的网站内容将保持原本的 HTML 格式，其文件名与目录结构都不会变化，Webzip并支持断点续传与使用代理服务器，其他类似软件还有Teleport Pro。
我们要做的只不过是确定和生成下载目标网站的批量网页网址，比如某网站零四年六月二日的回顾网页网址为“http://news.tim.com.cn /news1000_20040602.shtml”，那么依此类推，只要将“20040602”置换成任意年月日，就以批量生成每一年每一月每一天的网页网址（Webzip有此批量添加功能），然后设定下载的层数（如当前页面和一层）、文件类型（html）及网址过滤器（以“news.tim”起始）。让电脑下载一个晚上，第二天早上我们就可以轻而易举获得巨量网页了（十万级网页个数）。

2．网页内容解析

自动获得大量网页数据后，由于网络上采集的网页是半结构化的，往往结构复杂，含有繁复的Html标记，语料信息湮没在芜杂的网页标记之中，而且网页缺乏相应的语义标记，无法直接提取文本结构内容。因此必须对已下载的网页进行内容解析，才能得到干净有效、分门别类的语料信息，去除冗余标记，格式化语料。
通常的做法是采取“剩余法”，即简单地去除所有Html标记，余下所有非标记字符。而一个网页往往承载了很多内容，如导航条、下载提示、搜索入口、热点推荐、广告、图片文字等等，太多的冗余文字占了很大比例；而且更重要的是这些剩下的文字不分内容类别，如标题、时间、正文等，眉毛胡子一把全堆在一起，无法进行过信息的定位抽取。这样既丢失了很多有用信息，影响后续处理质量，如词频统计。因此探求一种既最大限度保留有用信息又有效去除冗余标记文字的网页清洗和内容解析方法显得非常重要。
我们根据以往经验采用抽取法，不是过滤，而是提取有效信息。
Html有一套完整的语法命名规则，理论上应该可以根据Html标记语法来确定语料信息内容起止标志，如：
标题
<title>……</title>
时间
<date>……</date>
但由于网页模板各具风格，或者追求网页效果的原因，设计者并不遵循统一的标记体系命名原则，没有统一的网页标记代码，因此无法全自动确定文本提取内容锚点。
幸运的是，一个网站往往具有一个统一的网页模板，不会轻易更换，因而我们还是可以根据网页标记来确定语料信息抽取的前后起止标记。
如某网站语料信息抽取起止标记如下：

正文始	<!---content--->	正文终	<!---content--->
标题始	<title>	标题终	</title>
栏目始	</font>首页	栏目终	正文
时间始	<!---time--->	时间终	<!---time--->
关键字始	meta name="keywords"	关键字终	">
相关文章始	<table><tr>	相关文章终	</td>
来源始	来源：	来源终	</td>
作者始	<author>	作者终	</author>

表1 语料信息抽取起止标记

由上面的起止标记我们可以抽取得到语料库建库所需的信息：网页来源、网页发表时间、作者、栏目名称、关键字、相同主题文章链接、标题、正文。
其中网页发表时间、栏目名称、关键字、相同主题文章链接等语料信息又是我们进一步处理的非常好的信息，如我们进行的基于动态流通理论（时间和空间的）的流行语发布和汉语词语动态监测就是一个很好的例子。
这种简单的匹配方法非常有效，一个网站只需要用户去确定一次起止标志就可以一劳永逸地批量处理。别担心什么是html，它有什么语法规则，这些都不重要，我们的网页自动抽取模块非常人性化，只要你选定认为是可能的起止标记，系统会自动判别是否有效，并给出前后提示信息；系统也可以在新网页中自动检测设置的起止标记，并显示检测结果，如提示：“链接始标记无效，无法唯一定位起始位置！”而且，抽取时系统会自动判断网页是否含有正文，从而有效去除空文件和目录索引文件。
信息抽取完毕，系统会给出本次运行的所有抽取到的信息结果统计数据，如：“网页数共5000个，有效网页数共4500个。已处理：正文4500，标题4500，关键词4000，链接3500，时间4500，栏目4300。”

3．语料库信息抽取建库

3.1语料信息字段定义
一个构造良好使用价值高的语料库需要具备一些条件，如一定量的规模、语料平衡等。而在建库之初需要重点考虑的是描述清晰的语料信息字段的确定。
我们系统中的信息抽取建库模块可以让用户自己确定需要的语料信息字段并命名，用户可以自由地在系统推荐的字段基础上自由地更改、删除、增加字段及名称，从而打造自己个性化的语料库。
详细的语料库信息字段应该包括两种：语料外信息字段和语料内信息字段

语料外信息指的是语料内容本身之外的一些信息，不牵涉语料本身，只是一些外部因素的描述。如描述语料载体性质（报纸、杂志、图书、电影、电视、广播）

的媒体；描述语料具体来源的媒体名称（网站名、杂志名等）；语料发布的时间；语料作者等。
语料内信息主要指的是语料内容本身的信息，包括描述语料语体（口语或书面语）性质的语体、描述语料文体性质的体裁、语料类别（主题类别）、标题、关键字、正文、字数等。
目前系统自定义了一些常用语料信息字段：

图1 常用语料信息字段

用户只需要在需要的语料库信息字段上打上勾即可，如果觉得需要定义自己的信息字段名称，如增加“体裁”，只需单击“添加新字段”按钮，输入“体裁”即可。
3.2语料库格式定义
语料库数据管理和存储格式一般有两种：基于文件的和基于数据库的。基于数据库的格式简单、可视化强，适合用户需要直接观察操作的情况。最早用的是文件管理方式，一条记录就是一个文本文件，文件以醒目规整的格式显示语料内外信息。这种语料库格式的后处理程序依赖预定义的数据格式，语料库共享性和可扩展性较差；但程序操作起来方便快捷，特别是大量的批处理如切词标注校对等工作显然必须以文本文件方式进行，因此文件格式仍然是值得推荐的，而且在实际经验中也是如此。
我们的系统模块采用可选的方式让用户选择适合自己的语料库格式。目前有四种选择方案：
（1）、关系数据库加文本文件
（2）、Access数据库
（3）、Xml格式
（4）、详细定义文件命名规则的文本文件
用于数据交换的XML由于其可扩展性、开放性、通用性和语义结构化而广受数据存储和交换界的青睐。目前系统中xml定义如下：
xml声明：<?xml version="1.0" encoding="utf-8"?>。
元素一：<Header>，文件的头文件，记载除正文外的语料信息。包括子元素<time>（网页时间）、<column>（网页栏目）、<kind>（分类后的类名）、<keywords>（关键字）、<title>（标题）、<links>（同主题文章标题）。
元素二：<Text>，正文。每一段作为一个子元素（sect），每一子元素有含有两个属性，属性一id表示段落号，属性二subtitle表示是否为子标题。
Xml文件示例如下：

图2 xml文件示例

第四种方案也值得推荐。我们将语料次要信息反映在文件名当中，文件本身只存储关键字、标题、正文信息。这就需要用户详细定义命名规则系统，系统模块中已经有定义好的命名系统。举例如下：

语体口语（01）、书面语（02）

媒体网页（01）、报纸（02）、杂志（03）……

体裁记叙（01）……
来源人民日报（01）、新浪（02）……
时间年月日（040607）
类目经济_证券_黄金市场（010205）……
……
……
各信息依次标引，如某一项空缺则记为“00”。标引示例“01010101050910010205000001”表示文件信息为“口语、网页、记叙、经济日报、05年09月10日、经济_证券_黄金市场、文件序号000001”。
这样做的好处显而易见，不仅方便简单地记录了各种语料信息，将语料正文和描述信息分离，便于后续程序对语料正文内容批量处理，更重要的是为对语料库进行子语料库抽取提供了便利，只需对文件名进行模式操作即可生成所定制的子语料库，如各分类语料库等。

4．语料信息检索

一个好的语料库系统不仅仅在于其处理语料量的多少，更重要的在于它的检索功能。强大高效的语料查询检索功能能够大大减轻语言研究者对语料处理的劳动量，快速找出语料的某种匹配模式，发现其隐含的规律。
目前有一些语料库系统提供了检索功能，但大多是基于关键字匹配的，很难发现语言研究真正需要的语言模式。我们的系统不仅具有一些常见的检索功能，如基于匹配的关键字词检索、关键字词搭配检索、关键字词前后字数限定检索等。更重要的是，系统增加了分类别检索、字词搭配模式检索、词性搭配模式检索等功能。
检索模块的功能详细描述如下：
（1）、如需限定检索语料范围，如检索语料类别为“经济”，可以通过类别选择框进行类别子语料库限定。类别选择框还包括语料库中其他字段的选择，如“时间”、“媒体”等，也支持与、或、非的类别组合选择，如可限定语料检索范围为“人民日报2003年2月至8月体育类的语料”。
（2）、如需限定返回结果数，请在“查询句数限定为”右边的文本框中输入数字，为空时表示返回所有结果数。
（3）、如果检索语料已进行切分标注，则可以随时选择检索结果显示方式。用户可根据需要，选择在检索结果中显示词性标记与否，或检索关键词、模式是否红色显示，可一键自由切换，无需多次检索。如检索结果已显示词性标记，单击“去除标记”键，则文本框中检索结果去除词性标记；再单击“显示标记”（与“去除标记”为同一按钮，按钮上的文字会根据情况变换），则检索结果又显示词性标记。
（4）、检索系统具有自动索引、字频统计、词频统计功能（还可添加自动分词功能模块）。
（5）、检索系统支持字串表达式检索，可进行字串与、或、非和前后字数限定检索。

格式符号	格式符号名称	举例	举例说明
+	与	我+你	“我”和“你”同时出现在句子中
\|	或	我\|你	“我”或“你”有一个出现在句子中
(\|)	连接或	悲伤(的\|地)	包含“悲伤的”或“悲伤地”的字串
[^(\|)]	连接非	悲伤[^(的\|地)]	包含“悲伤”但不包含“悲伤的”和“悲伤地”
{n}	限数符1	不仅{30}而且	“不仅”后30字符再出现"而且"的字串
{n,}	限数符2	不仅{30,}而且	“不仅”后等于或多于30字符后再出现"而且"
{n,m}	限数符3	不仅{3,5}而且	“不仅”后出现3到5个字符后再出现"而且"
{,m}	限数符4	不仅{,5}而且	“不仅”后等于或少于5个字符后再出现"而且"

表2 检索符号定义

（6）、检索系统支持组合检索，包括字词搭配模式检索、词性搭配模式检索。示例如下：

[^(人们\|我们)]悲伤(的\|得)	“悲伤”前不含“我们”或“人们”但“悲伤”后紧跟“的”或“得”的字串
悲伤(的\|地){10}说道	“悲伤”后紧跟"的"或"地"且相距10汉字后紧跟"说道"的字串
悲伤(的\|地){10,20}说道	“悲伤”后紧跟"的"和"地"且相距10汉字后20个汉字内包含"说道"的字串
{3,}因为{30,}所以{3}	“不仅”前至少三个字符,至少30字符后出现"而且",再后跟三个字符的字串
{3,}/v{2,}/a+/n	动词前至少三个字符，动词两个字符后，先出现形容词，后出现名词的字串
把/p{,8}/a{,6}/n{,8}/v	介词把后面8个字符内出现形容词，形容词后6字内出现名词，名词后8字内出现动词的字串

表3 检索示例

综上所述，本文介绍了一个集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统，并详细阐明了其原理、功能和使用方法。该系统界面友好，功能强大、简单易操作，适合语言学研究者使用。

参考文献：
4.黄昌宁，李涓子. 语料库语言学[M]. 北京：商务印书馆，2002
5.张普. 关于大规模真实语料库的几点理论思考[J]. 语言文字应用，1999，（1）：34 - 43
6.朱凯等. 因特网语料自动下载分析软件的设计[A]. 《第一届学生计算语言学研讨会论文集》[C].清华大学出版社，2002
7.Simon Robinson. C#高级编程[M]. 北京：清华大学出版社，2003
8.Francois Liger. C#字符串和正则表达式手册[M]. 北京：清华大学出版社，2003

A Integrative Corpus System for Traditional Linguistics Research

Liu Hua

（College of Chinese Language and Culture of Jinan University，Guangzhou，510610）

Abstract: In traditional linguistics research, there are two important problems: collecting and retrieval of corpora. This paper introduces a corpus system integrated with
downloading of corpora, parsing content of web page, information extracting of corpora, building corpus and information retrieval, and clarifies detailedly its principle、function and operation methods. This system has a friendly、simple but powerful interface, being fit for linguist.

Key words: A Corpus System
downloading of corpora
parsing content of web page information extracting of corpora
building corpus
information retrieval

刘华，男，1975年生，湖南株洲人，博士，讲师。
研究方向：计算语言学、信息检索。
通讯地址：广州市天河区广园东路暨南大学华文学院华文教育系
邮政编码：510610
电话：02035577201，13826432689
E-mail：liuhua0461@sina.com；liuhua7586@blcu.edu.cn

		自动登录	找回密码
密码			注册

一个面向传统语言学研究的语料库一体化系统

相关帖子