湘里妹子学术网

 找回密码
 注册
查看: 3122|回复: 0

现代汉语语料库加工中的切词与词性标注处理

[复制链接]
发表于 2004-5-16 08:32:15 | 显示全部楼层 |阅读模式
作者:周 强   段慧明
来源:http://icl.pku.edu.cn/research/papers/chinese/collection-2/yyy27.htm
本文发表在《中国计算机报》 1994年 第21期 PP85~87


--------------------------------------------------------------------------------------------------------

关键词:自动切词、词性标注、汉语语料库加工

      目前,大规模真实文本处理已成为计算语言学界的一个热门话题。一个重要的原因是它给我们提供了一种新的研究思路,即从大规模的语料库中提取所需要的知识。而汉语语料库的加工和处理,又涉及到汉语语法研究的许多问题,如:词的定义,词类的划分,短语的确定等等。在这方面,我们进行了一些探索,积累了一些经验。本文只讨论切词与词性标注问题。



1. 汉语语料库的多级加工

    总结国内外语料库建设的经验,可以看到:一个计算机语料库的功能主要和下面三种因素密切相关,即库的规模、语料的分布和语料的加工深度。因为库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。

    对于汉语语料库的处理,可以设想有以下几个阶段,如图1.1所示[5]。这样,经过不同阶段的处理,语料库所携带的各类信息也不断增加,最终将成为一个名副其实的语言知识库。这样的知识库可以为汉语统计分析、汉语理解和机器翻译提供重要的资源和有力的支持。






图1.1  语料的加工顺序



2. 关于切词和标注结合处理的规范

    从92年初开始, 北大计算语言学研究所开始进行汉语语料库的多级加工处理的研究。其第一步工作是对原始语料进行切分和词性标注, 并且我们是将切词和标注结合起来进行的。通过使用一个带词类标记的切词词典, 在自动切词的同时, 给每个切分单位标上初始词性标记, 然后通过规则与统计相结合的方法排歧, 实现词类的自动标注, 再利用构词规则, 发现一些符合汉语构词规律的未定义词并确定其词类。[6]

    以上工作的基础是“信息处理用现代汉语分词规范”[1](以下简称为“分词规范”)、现代汉语词语分类体系[2]、汉语构词法理论[3]和现代汉语语法信息词典[4]。在对约40万字语料的切分与标注的实践基础上, 我们发现了一些新的处理规律, 积累了许多有益的经验。通过把这些资料加以总结和整理, 已形成了一个切分和标注结合处理的规范。从内容上看,考虑不同的处理侧重点, 此规范又分为三个部分:

    1). 切分规范

    这部分内容主要规定现代汉语的切词原则, 即什么样的汉字组合可以切分为一个分词单位。它基本上继承了“分词规范”的规定。另外, 我们也根据自己的实践, 改进、补充和调整了一些规定。

    2). 切分和标注结合处理的规范

    汉语中有一部分词, 其组合有特殊的规律, 如: 前缀+词根, 单音节名语素+单音节名语素等。对于这部分词, 即使在切词词典中没有登录, 我们也应该认为它们是一个分词单位。因此, 在这部分规范中, 我们给出了一些基于词类描述的构词规律, 规定了在什么情况下它们可以切分为一个分词单位, 并给出该新词的词性标记, 以便在切分的同时完成词性标注。

    3). 标注规范

    这部分内容规定了对分词单位的词类的选择和确定原则。由于我们的切词词典吸收了语法信息词典中准确度很高的词类信息, 因此对于那些只有一个词类标记的词, 在切分的同时就可以确定其词类标记。这样, 标注规范的描述重点也就集中到了那些多类词词性的选择和确定上了, 即在特定的上下文环境下应选择哪个正确的词性标记。



3. 切词和标注中若干问题的说明

    1). 分词单位、词典词条和语法词

    在切词处理过程中,这三个概念是密切联系的,也是比较容易混淆的。下面给出它们的详细定义:

    分词单位是“分词规范”中的一个重要概念。它定义为信息处理使用的、具有确定的语义和语法功能的基本单位。它包括了分词规范的规则限定的词和词组。为了同“分词规范”衔接,这里仍使用“分词单位”这个术语,尽管我们认为它不如“切词单位”更明确。

    词典词条主要是指切词词典中收录的那些词语项。在我们的切词词典中,它包括了18类语言学家认可的词及一些比词小的单位(如语素字、前加成分、后加成分等)和一些比词大的单位(如成语、习用语、简称略语等)。

    语法词主要指语法意义上严格定义的词,即最小的能独立运用的语言单位。

    从概念外延上来看,它们有这样的关系:分词单位 词典词条 语法词。这就决定了在切词过程中,三者形成了以下的联系:若某种汉字组合是语法词,并且收入了切词词典中,则在切分过程中一定会被作为一个分词单位切出来(不包括切分歧义现象);反之,若某种汉字组合被作为一个分词单位切分出来了,则并不能断定它一定在切词词典中出现,更不一定是一个语法词。理解了这一点 ,我们就可以较好地把握切词过程中分词单位与词典词条、分词单位与语法词的关系。

    另外,在词典和词的关系上,从原则上讲,应把所有的词都收入词典中,但由于词典容量总是有限的,新词又在不断产生,实际上词典不可能包罗万象。在这里,就要有一个收词原则考虑把什么样的词收入词典中,也应该有一个未登录词(又称未定义词)的处理策略来处理词典中未登录的词。这些都是很重要的研究课题。

    2). 切分、标注和词典的关系

    首先,词典是自动切词与标注的基础。目前的切词处理是基于字符串匹配原理进行的,它需要依靠词典中的词语信息作为匹配的基础。另一方面,为保证标注结果的准确性和一致性,也需要利用词典中的词类信息。在我们的切分和标注过程中,主要利用了一个带词类标记的切词词典同时完成两部分的工作,即利用其中的词语信息完成自动切词,利用其中的词类信息给切分结果标上初始词类标记。在这一过程中,词典的收词及容量对处理结果也会有一定的影响。例如:考虑到使用频度的高低,可能把一些常用短语也收入了词典中,象“一个”、“第一”、“开会”、“上课”等。这样在切分过程中必然把它们作为一个分词单位切出而形成一定程度的不一致性,如:“第一”、“第  三”、“一个”、“四  个” 等。这在处理过程中应加以注意。

    但在另一方面,切分和标注又不能局限于词典内容。由于词典容量的限制,在实际的处理过程中可能会碰到以下问题:

    a). 某些词在词典中没登录,但在实际切分时,又必须切分为一个分词单位。这就是未登录词问题。如:八达岭、李家庄等。

    b). 对某些词,词典中的词类标记可能不全,致使对某些特殊用法不能给出合适的标记。如:“把”,一般常见的是作为介词(把 桌子 搬来)或量词(一 把 椅子),因此词典里可能只收录了两个词性q-p。但在实际例子中,可能碰到以下用法:他 把 着 门,显然这里的“把”为动词。

    对于这些问题,就必须根据实际语料情况进行切分和标注。如:把未登录词切分为一个分词单位,补充不全的词类标记。为完成这些工作,需要有一个很详细的工作规范以明确指出在什么情况下应把未登录词切分出来,什么时候需补充新的词性。

    3). 自动处理与人工标注的关系

    在对大规模语料的切分和标注过程中,可以采取两种方法:人工标注和自动处理。自动处理的优势在于它处理速度快、效率高、可以保持较好的一致性。但由于自然语言中存在着大量的歧义现象,而计算机自动排歧的知识不完备,致使自动处理结果会有许多错误,如:将交集型和组合型字段切错,不能正确地选择合适的词类标记等,从而降低了处理的准确度。而人工标注正好相反。如果参与工作的人的语言学知识比较丰富,又有一定的知识背景,能在切分和标注过程中依据上下文信息作出准确的判断,那就很少发生歧义字段切错或词类标记标错的现象。但在对大规模语料的处理过程中,由于各人对一些概念认识水平的差异,即使是同一个人,在不同的阶段某些认识和观点也会发生变化,这样不可避免的会使切分和标注结果出现许多不一致现象。而且纯由人来标注,效率不高,其处理时间也太长。

    因此,较好的处理应考虑把两者结合起来,利用机器自动完成大部分语料的切分和标注,同时,把一些容易出错的歧义情况标出来,然后通过人工校对,选择正确的处理结果。

    在这样的处理过程中,制订一个比较详细的工作规范就显得很重要。因为我们可以依据这个规范,不断调整处理程序,补充新知识,使处理结果越来越符合规范,人工校对的工作量也会越来越小;另一方面,对于有许多人参加的人工校对工作,规范又可以作为一个统一的标准,以保证最终处理结果有较好的一致性。



4. 汉语构词法在切词和标注处理中的应用

    汉语的词是由语素构成的,语素构成词的方式主要有以下三种:重叠、附加、复合。虽说汉语的词没有丰富的形态变化,但通过对汉语构词法的深入研究,我们还是可以发现许多有用的规律。这对于我们确定合适的分词单位,特别是把一些未登录词正确地切分出来,还是很有帮助的。下面分几种情况加以讨论:

    1). 重叠情况

    汉语词语的重叠情况比较复杂, 主要有AA、AAB、ABB、AABB、A里AB、A不AB、ABAB、V一V、V了V、V了一V 等形式(其中A、B、V分别代表一个汉字)。在这些情况中,又由于组成成分的语法性质(如:A、AB、V是否为词)和重叠形式的语法功能(如:是形成了一个词,还是一个短语)的不同,需要进行不同的切分和标注处理。下面主要根据重叠形式的语法功能的不同,分类加以讨论:

      i). 重叠成词

       这一类重叠的最终形式为一个词。它主要有AA、ABB、AAB、A里AB、AABB等形式。对于这种重叠形式,需注意以下几点:     

           A). 某些重叠形式具有与基本形不同的词类标记

        如:双音节形容词AB的ABB、A里AB、AABB重叠形式为状态词(孤单单/z,马里马虎/z,高高兴兴/z),

            单音节形容词的AA重叠为副词(好好/d 干,轻轻/d 放下),

            单音节形容词的AA重叠加上后缀“的”组成状态词(扁扁的/z,甜甜的/z)。

B). 某些重叠情况几乎是封闭的,可考虑把有关的重叠词全部收入词典中,至少高频的必须收入。

        如:单音节名语素的AA重叠为名词(爸爸/n,猩猩/n),

            单音节数词的AA重叠为副词(一一/d,万万/d),

            单音节副词的AA重叠为副词(常常/d,刚刚/d),

由名语素、动语素或形语素加重叠音尾组成的ABB重叠形式(眼巴巴/z,笑嘻嘻/z,绿油油/z)。

      ii). 重叠成短语

       这一类重叠情况是指最终形式为一个准短语。这种情况重要有AA (指单音名词、单音动词、单音量词的重叠)、ABAB、V一V、V了V、V了一V等形式。

       在汉语语法研究中,一般分为语素、词、短语、句子等不同层次, 但其中的某些层次并不是截然分开的,可能还存在着一些中间的过渡层次。这里提出的准短语形式,就是介于词与短语间的一个中间层次。说它们是准短语,是因为重叠形式具有了与基本成分不同的语法功能,如:单音名词的AA重叠表示泛指(人人,家家),单音动词的AA重叠表示动作的短时性(动动,看看),单音量词的AA重叠具有指代作用(个个,队队)。

    对于这类重叠情况,在切词过程中是否把它们作为一个分词单位,若作为一个分词单位,又应该如何标注词性,都是需要慎重考虑的。在我们目前的处理中,还是按照“分词规范”,把AA重叠形作为一个分词单位,并标上其基本成分A的词性(n,v,q),只是特殊保留了动态生成的一些新的语法属性,以供后续处理使用。而把ABAB、V一V、V了V、V了一V进行切分,不作为分词单位,即处理为:AB AB、V 一 V、V 了 V、V 了 一 V

      iii). 省略重叠

       这种重叠形式主要是由于在某些重叠结构中省略某个字而形成的,如:AB不AB省略第一个AB中的B而形成 A不AB重叠形(相不相信、漂不漂亮),一Q一Q省略其中的数词“一”而形成 一QQ(ABB)重叠形(一个个、一群群)。对于这种重叠形,为处理方便,一般应把它们作为一个分词单位,并标上合适的词性,如:相不相信/v、漂不漂亮/z、一个个/m。                     

    2). 附加情况

    汉语中有一类派生词,是由词根加上附加成分(前加成分或后加成分)构成的。这样的构词方式称为附加。目前,比较常见的前加成分有:“老”、“阿”、“反”、“非”“泛”、“超”、“无”、“过”等,后加成分有:“儿”、“子”、“头”、“性”、“者”、“员”、“家”、“机”、“生”、“化”等。以此为根据,我们就可以很容易地发现以下的一些派生词结构:前加成分+词根,词根+后加成分,前加成分+词根+后加成分,从而把它们作为一个分词单位切分出来。

    对于由词根加附加成分构成合成词情况,需注意以下几个问题:

      i). 现代汉语的附加成分大都是由过去独立的词或词根变化而成的,是具有实在意义的词或词根虚化的结果。它与原来具有实在意义的词或词根有密切的联系,但同时也有根本的区别。一个比较明显的例子是“头”和“子”,它们在作后加成分时一般读为轻声,这和其他具有实在意义的“头”和“子”是有区别的。试比较以下例子:

        对头(dui4·tou)/n  (后加成分)    对头(dui4tou2)/a

        砖头(zhuan·tou)/n  (后加成分)   子弹/n  头(tou2)/n (名词)

        桌子(zhuo1·zi)/n  (后加成分)    棋子(zi3)/n (名语素)

对此,在切分和标注处理时应特别加以注意。

      ii). 由于附加成分所表示的意义经常是比较抽象、概括的词汇意义,或只表示语法意义,因此它们在构词中经常具有类化作用。如:凡是带有后加成分“头”、“子”、“机”的词,一般都为名词;凡是带有后加成分“家”、“员”、“者”、“生”的词,一般都为指人的个体名词;凡是带有后加成分“性”的词,一般都为抽象名词;凡是带有后加成分“化”的词,一般都为动词。这对于我们推断并确定此类分词单位的词性标记是很有帮助的。

    3). 复合情况

    复合是指不同的词根相互融合形成合成词的构词方式。这是现代汉语中最主要、最能产的构词形式。汉语中的绝大部分合成词是由这一形式构成的。按照这类合成词中词根结合方式的不同,又可以把它分为联合式、偏正式、述补式、述宾式、主谓式等类型。

    而在切分和标注过程中,我们更关心的是什么样的汉字能组合成新词。在汉语中,名词、动词、形容词一般认为是开放类,真实语料文本处理中出现的许多新词大多属于这些类。由于词典容量有限,不可能把所有新词都收入,因此在切分和标注处理过程中不可避免会出现未登录词。如果我们能从其中词根的复合情况中发现一些规律,找到一些常见的构词格,就可以把其中的一些词语正确地切分出来。

    [3]中总结了一些汉语词的常见构词格,如:名词的常见偏正式构词格有:

     A. 二字名词

       a. 名(单音)+名(单音)结构,如:牛肉/n、锅盖/n、敌营/n

       b. 动(单音)+名(单音)结构,如: 炒菜/n、烤肉/n

      注意:此结构是有歧义的,应根据实际语料中此结构是述宾的还是偏正的来确定是否

            应加以切分。

      如:我/r  吃/v  烤肉/n

          我/r  烤/v  肉/n  吃/v

     B. 三字名词

       a. 名(单音)+名(双音)结构,如:手指甲/n、马尾巴/n

       b. 名(双音)+名(单音)结构,如: 电流表/n、热带鱼/n、中国人/n

       c. 动(双音)+名(单音)结构,如: 证明信/n、救济粮/n

     (注:上面使用的'名'指名词性词根, 它可以是可标为n的名词或可标为Ng的名词性语素。'动'的意义类似。)

    从中我们可以总结出许多有用的构词规则,把它们应用于切词处理,可以达到以较小的切词词典取得较好的切分效果的目的。因为词典过于庞大,也会产生歧义过多的负面效果,这一点也已为许多研究者所认识,因此将词典应控制在一个适当的规模上。



5. 汉语词的语法功能与词性标注

    当前计算机处理的是书面文本, 不考虑词的读音, 因而同形多类的情况(特别是单音节词)比较复杂,计算机自动处理起来也相当困难。我们正是在这一点上下了功夫,有了成效。这也是一个带标记的语料库的价值标准之一。例如,‘怪’就可能有三个词类标记:动词(v),形容词(a),副词(d),在某个特定句子中要确定它到底应归于哪类,很大程度上应考虑在句子中词的语法功能。考察下面三个例子:

    1).他很 怪

    2).我今天 怪 难受的

    3).怪 他迟到了

1) 中‘怪’受‘很’修饰且不带宾语,是形容词。

2) 中‘怪’修饰后面的形容词作状语,是副词。

3) 中‘怪’后面带了宾语,是动词。

    一个更复杂的例子是“给/v-p”。它的用法有以下几种:

      i). “给”作动词, 表示“使对方得到某种东西或某种遭遇”

          如:老师/n 给/v 我/r 一个/m 任务/n

              给/v 过/u 我/r 不少/a 启发/v

      ii).“给”作介词, 有多种用法:

        a. 介绍出服务对象, 相当于“为”或“替”

          如:他/r 给/p 我们/r 当/v 翻译/n

        b. 介绍出动作或行为的承受者, 大致相当于“向”或“对”。

          如:学生/n 给/p 老师/n 行礼/v

        c. 介绍出动作的主动者(施事), 相当于“被”。

          如:杯子/n 给/p 弟弟/n 打破/v 了/y

对“给”的一些常见句型进行分析,可以得到,“给”作动词使用的常见句型有[7],

        a. NP+V+“给”+NP1+NP2

          如:我/r 送/v 给/v 你/r 一/m 本/q 书/n

        b. NP+V+NP1+“给”+NP2

          如:我/r 送/r 一/m 本/q 书/n 给/v 他/r

        c. NP+“给”+NP1+V+NP2

          如:我/r 给/v 他/r 写/v 一/m 封/q 信/n

其中,句型(c)中的“给”是有歧义的,有关它的词类辨析可以从以下两点考虑:

    A). 从意义上看, 由动词“给/v”组成的句子表示给予, 由介词“给/p”组成的句子表示服务。比较下列句子对:

                A — “给/p”          B — “给/v”

             大夫给病人打针         我给妹妹买了一辆车

             你给孩子们讲个故事     你给客人沏杯茶

             我给你剪头发           我给你打件毛衣

    B). 从变换关系看, 由“给/v”组成的句式可以变换为: NP+V+NP1+“给”+NP2,而由“给/p”组成的句式则不能变换。

          如:我给妹妹买一辆车 ==> 我买一辆车给妹妹

              你给他们讲故事 ==> *你讲故事给他们

    总之,总结汉语中不同类词的语法功能,并加以形式化,我们就可以得到大量有效的排歧规则,这在我们的规范中已作了详细的描述,这里就不再详述了。



6. 结语

    本文讨论了汉语切词和标注结合处理中碰到的一些问题,涉及到汉语构词法、汉语词语分类体系、词典组织和选词、未登录词的处理、汉语的多词类现象等各个方面。从大量的具体实践工作中,我们体会到,中文信息处理与汉语语法研究是有密切联系的。一个好的中文信息处理系统应能尽快吸收汉语语法研究的最新研究成果。要真正达到能使机器理解汉语的程度,还有很长的路要走。





参考文献

[1]
“信息处理用现代汉语分词规范”,1990.9,第七稿

[2]
俞士汶,“信息处理用现代汉语词语分类体系”,内部资料

[3]
陆志韦等,《汉语的构词法》,科学出版社,1964年

[4]
俞士汶、朱学锋、郭锐,“现代汉语语法信息词典的概要与设计”,ICCIP 92,P186~191

[5]
黄昌宁,“语料库语言学”,《中国计算机用户》,1990.11,P43~45

[6]
周强、俞士汶,“一种切词和词性标注相融合的汉语语料库多级加工方法”,《计算语言学研究和应用》,1993,P126~132

[7]
朱德熙,“与动词'给'相关的句法问题”,《现代汉语语法研究》,商务印书馆,1985
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-6 06:53 , Processed in 0.079284 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表