基于语料库的基本名词短语研究(Images)

Artvine · 发表于 2009-1-27 08:43:45

徐艳华撰(鲁东大学汉语言文学院讲师，博士)
《语言文字应用》，2008/1，120～125页

【内容提要】

      词类知识的粗糙和不完备是影响自动句法分析的一个重要因素。论文以一个完全按照语法功能标准建立起来的实词词类体系为依托，考察了基本名词短语的识别问题。研究表明，利用这个实词词类体系识别基本名词短语，正确率可以达到71.3%。

一、基本名词短语及其识别方法

      在自然语言信息处理领域中，基本名词短语(baseNP)的识别和结构分析是基础性的研究课题，它的正确识别和分析对句法分析、机器翻译、信息检索以及文本分类都具有重要作用。

（一）基本名词短语的界定

      基本名词短语(baseNP)这一概念是Church在英语中首次提出的[1]，他将英语中的baseNP定义为“简单的非嵌套的名词短语”，也就是说，一个baseNP内部不能再包含更小的名词短语。但是，这个定义并不能满足汉语语言信息处理的要求。例如：按照以上的定义，“信息检索理论”“企业承包合同”和“出口商品指数”等名词短语都不是baseNP，但是在语言信息处理领域，这些名词短语都是非常重要的语言单位，因此张瑞霞、张蕾[2]以知网中词性的划分为标准，给出汉语基本名词短语（以下简称baseNP）的形式化定义：

(1)baseNP→baseNP+baseNP

(2)baseNP→baseNP＋名词｜名动词

(3)baseNP→限定性定语＋baseNP

(4)baseNP→限定性定语＋名词｜名动词

(5)限定性定语→形容词短语｜动词｜（副词＋动词）｜名词｜（名词＋“的”）｜（数词＋量词）

(6)形容词短语→（形容词＋形容词短语）｜（形容词＋“的”＋形容词短语）｜（副词＋形容词＋形容词短语）｜（副词＋形容词＋“的”＋形容词短语）

(7)形容词短语→形容词｜（形容词＋“的”）｜（副词十形容词）｜（副词＋形容词＋“的”）

      对于这个形式化定义，我们不妨简单举几例加以说明：

baseNP
～baseNP

NBA联赛数据结构  下岗职工    一件衣服  先进的设备    对于未来的憧憬
租赁公司  信息爆炸  太空旅行    购买汽车  维修电器    出租房屋
企业发展规划  汉语信息处理
5位导师  飞速发展的经济  学习的压力

（二）基本名词短语的识别方法

      近年来，基本名词短语的识别问题倍受研究者关注，不断出现新的研究方法与研究成果。

      赵军(1998)提出了一种基于转换的汉语基本名词短语识别模型，该模型的设计思想是：通过一个基于转换规则的文本转换机制，将识别baseNP的静态知识（表示基本名词短语句法组成的基本结构模板）和动态知识（表示基本名词短语出现的上下文环境特征的转换规则）结合起来，从而充分利用baseNP的内部组成结构模板和在上文环境中的分布特征进行识别。他用1万字的语料作测试，对文本中的基本名词短语进行识别，其正确率为89.3%。

      赵军、黄昌宁(1999)提出了用词语的潜在依存关系分析汉语baseNP结构的模型，即将依存语法知识融入概率模型中，使得baseNP结构分析在依存语法知识的指导下进行。他们考察的主要对象是n+n+n，考察的重点就是确定这个baseNP的定界问题，即中间的n是跟前面的n捆绑（左捆绑）还是跟后面的n捆绑（右捆绑），根据考察的500个baseNP的结果看，该模型可达到88.7%的正确率。

      孙宏林(1997)根据经过分词和词性标注的语料库获取的14条规则，对什么条件下v和后面的n可以捆绑在一起进行了研究。其研究侧重于确定任意上下文中的一个特定v+n序列是否为合法的语法形式。

      詹卫东(2000)利用短语结构规则的方法对名词短语结构进行研究，重点探讨了如何利用规则对名词短语进行定界的问题。

      孟迎等(2004)提出了一种基于决策树的方法识别汉语基本名词短语。其核心思想为：从语料库中自动抽取基本名词短语的词性模板及其相应的上下文信息，采用算法形成相应的决策树。该方法开放测试的正确率为86.26%。

      上述研究的共同点是：都着眼于如何识别自然语言文本中的基本名词短语，确切地说主要是研究基本名词短语的定界问题，而且研究的对象基本上是不包含动词的短语。对于识别出的基本名词短语的内部句法关系如何，没有作深入的探讨。

      张瑞霞等(2004)提出了一种基于知识图的汉语基本名词短语分析模型。即以知识图为知识表示方法，利用知网为语义知识资源，采用以语义为主、语法为辅的策略，先为短语中的每一个实词构造“词图”，然后合并“词图”而组成“短语图”，最后得到一个关于汉语基本名词短语的结构信息和语义信息的知识图。这种方法不仅分析了汉语基本名词短语的内部句法关系，而且分析了汉语基本名词短语成分间的语义关系。这是目前所能见到的唯一一种不只识别而且还分析短语内部结构关系的模型，作者分别用不含动词的500个汉语基本名词短语和含有动词的300个基本名词短语进行测试，前者的正确率为83.6%，后者的正确率为76.1%。由此可见，包含动词的基本名词短语的识别要比不含动词的困难一些，主要原因在于，v+n序列内部的结构关系相对于n+n序列来说要复杂得多。

      综上所述，我们不难发现，目前对于包含动词的基本名词短语的研究还比较薄弱。对于文本中任意的v+n序列，哪些类动词与哪些类名词组合在一起一定是基本名词短语，哪些类动词跟哪些类名词组合一定不是基本名词短语，目前还没有相关的研究成果，主要原因在于，v+n序列内部结构关系比较复杂，既可以是动宾关系（充满希望），也可以是定中关系（表达方式），还可以是述补关系（到单位），因此，要弄清这个问题，必须有比较详细的词类体系为指导。本文以“动词＋名词”序列为考察对象，详细考察两类词的组合情况，目的是为计算机自动识别基本名词短语提供详细可靠的结构模板。我们考察的对象是从清华大学开发的标有完整的句法结构树的汉语句法树库语料中提取的。在这个100万字的语料库中，v+n序列共有30224例，其动词和名词都在我们句法功能信息库中的共有10081个。

二、词类体系在基本名词短语识别中的应用

      我们对3514个常用的高频实词进行了语法功能考察，根据“语法功能完全相同即为一类”的原则，最终分为676类，并在此基础上建立了汉语词类体系。基本名词短语的识别就是以这个实词词类体系为依据的，首先将具体实例中的词语序列转换成相应的类标记序列，然后根据标记所对应的功能进行匹配，根据匹配结果，对照句法规则库来确定序列内部的句法关系。通过对10081个具体实例的考察，我们共总结出2066条句法规则，具体情况如下：

（一）非语法形式的组合模式

非语法形式的组合模式共有335种（占所有组合模式的16.2%），是根据1030个实例（占实例总数的10.2%）总结出的。限于篇幅，不一一列举，只举几例加以说明：

从考察的结果来看，有一类模式最容易确定其为不合法的语法形式，如例1和例10中的v为类19，即只能跟在动词后面作补语的一类词，补语作为句法结构中的直接成分2，它只能跟它前面的那个词中的直接成分1进行匹配才可能组成合法短语，而不能跟后面的词进行匹配。另外，有一些v+n通过匹配可以断定其为非语法形式，实际上也就间接地确定了n只能与后面的词捆绑在一起，上文所举的10个例子也能说明这一点。所以看似只考察了v+n，而事实上对于识别v+n+n也起到了一定的作用，至少在定界问题上具有一定的参考价值。

（二）一种句法关系的组合模式

(1)述宾关系的组合模式，例如：

我们曾做过统计，动词中能作述语[,1]，的占77.6%，这说明大部分动词后面都能直接接宾语[,1]，因此，在述宾关系的组合模式中，v的类别是比较分散的，基本上都要经过两类词的功能匹配后才能最终确定其句法关系。但有一类v不必将其功能与n的功能一一进行匹配，即类3，它只能作述语[,1]，所以如果碰到序列中的v为类9里的某个词，我们只需让计算机到n的功能里查找到宾语[,1]，即可结束匹配。具有述宾关系的组合模式共有577种，是几种句法关系中最具优势的一种。该类关系的组合模式共包含4670个实例，占实例总数的46.3%。

(2)述补关系的组合模式，例如：

述补关系的组合模式共有24种，共包含61个实例，占实例总数的0.6%。从我们统计的结果看，组成这种关系的v+n序列，v和n相对来说比较集中，v基本上都是表示动作趋向的一些词，如表中的“去、到、回、进、进入”等等，而n则往往是一些表示处所的词，如表中的“市场、学校、屋、房间、医院”等等。需要说明的是，对于这些结构，清华大学的汉语句法树库标注为述宾结构，但我个人认为，后面的名词都是表示动作去向的，只能回答“哪里”而不是“什么”，所以都处理为述补结构，在统计句法功能时，就是按述补结构统计的，所以最终的匹配结果也只能是述补而不是述宾关系。

(3)定中关系的组合模式，例如：

      定中关系的组合模式共有526种，仅次于述宾关系的组合模式。具有定中关系的实例共有1428个，占实例总数的14.2%。从统计的结果来看，如果v+n序列中的n为类88，如表中的例2和例9，它与n的功能匹配肯定只有一种结果，而且其句法关系一定是定中关系，因为类88中的成员（如“方面、领域、时期、因素、程度”）只有一项句法功能即中心语1，所以只要能跟v捆绑在一起，就一定是定中关系。

      具有一种句法关系的组合模式共有1127种，占组合模式总数的54.5%；具有一种句法关系的实例共有6519个，占实例总数的61.1%。

（三）两种句法关系的组合模式

(1)述宾、述补类组合模式共有20种，包含56个实例。例如：

类203+类125
类203+类163
类205+类163
类215+类163
类234+类125
类237+类125
类237+类163
类277+类163
类284+类125
类284+类162

(2)述宾、定中类组合模式共有552种，是从2771个实例总结出的。例如：

类113+类153
类114+类112
类114+类122
类114+类153
类114+类184
类114+类96
类116+类153
类116+类96
类120+类101
类120+类129

(3)述补、定中类组合模式共有14种，包含34个实例。例如：

类144+类161
类245+类159
类245+类163
类455+类161
类469+类161
类526+类161
类529+类161
类530+类160
类542+类175
类545+类161

   具有两种句法关系的组合模式共有586个，占实例总数的28.4%；具有两种句法关系的实例共有2861个，占实例总数的28.4%。

（四）三种句法关系的组合模式

      述宾、述补、定中类组合模式共有18种，只占总数的0.9%；具有三种句法关系的实例共31个，占实例总数的0.3%。例如：

类116+类159
类301+类163
类350+类163
类351+类163
类455+类163
类468+类163
类470+类163
类471+类163
类527+类163
类542+类163

三、实验结果及分析

      从上述的统计结果看，除去有两种和三种句法关系的组合模式不能确定是不是基本名词短语外，其余根据确定的句法关系都可以判断某一“v+n”序列是不是基本名词短语，如果按照组合模式来统计，准确率可达70.7%；如果根据实例数来统计，准确率为71.3%。

      具有两种以上句法关系的组合模式，并非对基本名词短语的自动识别毫无意义。原因基于两个方面：首先，从句法关系歧义的角度讲，实词词类体系起到了减少歧义关系类型的作用，只有0.9%的组合模式还保持原来的三种句法关系，剩下99.1%的组合模式都比原来的句法关系歧义数量少；对于有两种句法关系的每一种具体的组合模式，也都确定了它存在的歧义类型，从统计的结果看，具有两种句法关系的组合模式，歧义类型主要集中在述宾关系和定中关系上，如果能把这552种组合模式的歧义有效地进行消解，那么基本名词短语识别的正确率也会有所提高，而且提高的幅度会很大，假设对这552种模式进行歧义消解的正确率只有50%，在这种情况下，对基本名词短语识别的正确率也会提高14.2%。那么，对于这两种歧义关系的消解究竟有没有可行的策略呢？这就是我们要说的原因二：我们的研究只是基于静态知识的考察，即仅仅通过类与类的功能相互匹配的结果来确定具体模式的句法关系，不管上下文语境如何，两类词有几种匹配结果我们就赋予该序列几种句法关系，这样做的弊端就是会夸大有句法关系歧义的组合模式的数量，影响整体识别的正确率，这一点也是在考察之前就已经认识到的，但由于本研究关注的重点在于通过考察来了解实词词类体系在基本名词短语的结构分析方面能起多大作用，而且主要是想为计算机识别基本名词短语提供比较详细准确的句法规则，从而使计算机更容易发现歧义。只有先发现有哪些关系歧义，才能有的放矢地进行消解。

四、结语

      从考察的结果看，完全按照语法功能标准划分出的实词词类体系，在基本名词短语的识别方面所起的作用要远远大于现有的词类体系，尽管说不能达到100%的准确率，毕竟有些具体实例并不能确定其内部究竟是哪种关系，但相对于现有的词类体系来说，其歧义的数量大大减少了。歧义问题一直是句法分析的“瓶颈”问题，单靠静态分析是远远不够的，所以，在识别基本名词短语的过程中，要把我们用静态知识总结的基本结构模板与动态知识（即基本名词短语出现的上下文环境）结合起来，才会提高分析的正确率和高效性。

附注：

①（注：Croft, William. Syntactic Categories and Grammatical Relations. The Cognitive Organization of Information. Chicago and London: The University of Chicago Press, 1991.）
②（注：张瑞霞、张蕾《基于知识图的汉语基本名词短语分析模型》，《中文信息学报》2004年第3期。）

【参考文献】

[1]孟迎，冯丽辉等.基于决策树的汉语基本名词短语识别[J].黑龙江工程学院学报（自然科学版），2004,(6).
[2]邵敬敏.双音节V+N结构的配价分析[A].现代汉语配价语法研究[C].北京：北京大学出版社，1995.
[3]石安石.汉语词类划分问题再探讨[A].语言研究论丛[C].天津：天津人民出版社，1980.
[4]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京：清华大学出版社，2000.
[5]赵军、黄昌宁.汉语基本名词短语结构分析模型[J].计算机学报，1992,(2).
[6]赵军、黄昌宁.基于转换的汉语基本名词短语识别模型[J].中文信息学报，1999,(2).
[7]赵军、黄昌宁.结合句法组成模板识别汉语基本名词短语的概率模型[J].计算机研究与发展，1999,(11).

		自动登录	找回密码
密码			注册

基于语料库的基本名词短语研究(Images)

相关帖子