湘里妹子学术网

 找回密码
 注册
查看: 3286|回复: 0

关于现代汉语词语的语法功能分类

[复制链接]
发表于 2005-5-27 10:35:03 | 显示全部楼层 |阅读模式
作者:俞士汶
来源:http://ling.ccnu.edu.cn/MESSAGE/YYXLWX/collection-2/yyy26.htm


《现代汉语语法信息词典》技术报告之一

关键词:语言信息处理、现代汉语、词类、语法功能

一.  信息处理用现代汉语词语分类体系

在朱德熙先生的语法理论的指导下, 北大计算语言学研究所与中文系合作, 经过几年的研究, 提出了一个服务于语言信息处理的现代汉语词语分类体系, 并将五万多条的词语实际进行了归类, 与此同时还按类详细描述了每个词语的多种语法属性, 初步建成了“现代汉语语法信息词典”, 另外对数十万字的语料进行了切分和词性标注。这就又进一步检验了词类划分的科学性与可操作性。达到如此规模和如此深度的汉语语言工程实践可能是罕见的。

本文介绍现代汉语词语分类体系、分类的理论基础, 并以若干词类为例详细介绍具体的划类准则。

     现代汉语的词分为以下18个基本词类, 括号中的拉丁字母是各类词的代码。

    名词(n), 时间词(t), 处所词(s), 方位词(f),  数词(m), 量词(q), 区别词(b), 代词(r), 动词(v), 形容词(a), 状态词(z), 副词(d), 介词(p), 连词(c), 助词(u), 语气词(y), 拟声词(o), 叹词(e)。

    这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统称为体词, 动词、形容词、状态词统称为谓词。有一部分代词属于体词, 另一部分代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称为虚词。实词与虚词是汉语的两大词类。此外还有拟声词与叹词, 它们游离于这两大词类之外。

自然语言处理的常规技术要求在自然语言处理系统中配备一部电子词典。对于计算机系统来说, 可以认为作为电子词典的登录项的语言单位是“词”。其中大部分肯定是语言学家认同的词, 这也就是暗示了其中还有一部分不能看作“词”。从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,词典中另外包含了以下7类语言成分:

前接成分(h): 阿, 老, 非, 超, 单

后接成分(k): 儿, 子, 性, 员, 器

语素字  (g): 民, 衣, 失, 遥, 郝

非语素字(x): 鸳, 枇, 蚣

成语    ( i): 按部就班, 八拜之交

习用语  ( l): 总而言之, 由此可见

简称略语( j): 三好, 全总

    前4类是比“词”更小的单位,不成词。这些成分的数量是有限的,只要电子词典的规模允许,应当尽可能地将这些成分全部收入。后3类是比“词”更大的单位, 词典中只能收一部分使用频率高的。本文将电子词典中登录的各种语言成分笼统地叫做“词语”。

    以下行文中的“词类”是就前面的18个基本词类而言的, 有时也讨论上述后7类语言成分。

二.  词语分类的理论基础

2.1 分类的目的与依据

    为了进行语法研究与信息处理, 需要把语法功能相同的或者相近的词归成一类。这里包含两项工作。一项是要针对汉语词语的全集, 按照某种标准, 建立一个分类体系。第一章所介绍的就是面向信息处理的一种汉语词语分类体系。另一项工作是决定该全集中的每一个词语究竟属于哪一个词类, 这项工作可以叫“归类”, 不过人们习惯上也在“归类”的意义上使用“分类”这个术语。

    如果面向人的语言研究,词语分类尚不十分迫切的话,那么面向计算机的语言研究, 词语的语法分类及其代码化几乎是不可缺少的。词语分类实际上是将最重要的语法知识与语法规则条理化, 从而为自然语言的分析与生成提供最重要的线索。

    划分词类的本质根据只能是词的语法功能。所谓词的语法功能主要是指: (1)和某个或某类词语组合的能力; (2)在句法结构中充当句法成分的能力。例如, 考察具有如下语法功能的词。

a. 可以用作主谓结构中的谓语,但不能带真宾语。如“个子高,教室安静”中的“高, 安静”是谓语。象“高三公分, 安静了两天” 中的数量短语 “三公分,两天”是准宾语,而不是真宾语。

b. 可以受“很”一类程度副词修饰,如“很高,挺安静,特别雄伟”。

c. 可以作述补结构中的补语,如“洗干净,捆得结实”中的“干净、结实”是补语。

d. 直接或加“地”后作状中结构中的状语, 如“迅速提高, 安全地转移”中的“迅速、安全”是状语。

e. 直接或加“的”后作定中结构中的定语, 如“漂亮小姐, 挺拔的山峰”中的“漂亮、挺拔”是定语。

f. 可以用 a +“不”+ a 的形式提问,如“硬不硬,痛苦不痛苦”。

g. 后可接语气词“着呢”,如“美着呢,痛快着呢”。

       :

       :

    可将这样的词归成一类, 起个名字叫“形容词”, 并用一个代码“a”表示。这样, 如果判明了一个词具有上述功能, 则可以将它归入形容词; 反之, 如果能从汉语语法信息词典查得某个词的词类代码是“a”, 则知它很可能具有上述语法功能, 除非汉语语法信息词典对其中某些词的某些语法功能另有更准确的描述。

    参照上述语法功能, 可以将形容词同其它词类区分开。如名词不具备上述功能中的b,c, d, f, g, 一般地说,也不具备功能a。同时名词的语法功能中也有一些是形容词所不具备的。划分汉语词类的本质依据就是这些语法功能的异同。

    划分词类的本质依据只能是词的语法功能, 词的意义不能作为划分词类的依据, 这与划分词类的目的是紧密相关的, 因为表示同类概念的词的语法功能并不一定相同。例如,“战争”与“打仗”指的是同一个概念, 可是“战争”是名词, “打仗”是动词。汉语不象印欧语那样有丰富的形态, 也不能根据形态给汉语的词语分类。在第1章描述的分类体系中,有一些词类(如代词、数词、拟声词和叹词), 不是严格根据它们的语法功能分布划分出来的。这种情况不会给词类划分理论造成困难。以代词为例, 它是根据一个词是否具有指代功能划分出来的, 这实际上是语义范畴的功能。如果严格按功能划分, 不妨细分为体词性代词(过去叫代名词)和谓词性代词。现在仍将它们归入一类, 是为了同传统的说法衔接,同时也适合信息处理的需要。


2.2 关于分类问题的若干说明

2.2.1 词的同一性问题

    虽然说划分词类不是依据意义, 但是需要认识到, 划分词类只能在确定了词的同一性的基础上进行。所谓同一性指的是在不同的语言环境中出现的词形相同的若干个词应该算同一个词还是应该算不同的词。书面汉语的同形词限定为汉字相同的词, 也可以直接叫做同字词。同字词又可分为同字异音词与同字同音词。如“好人好事”中的“好”与“好管闲事”的“好”是同字异音词, 而“很好”与“好狠”中的“好”却是同字同音词。同字异音词当然是不同的词。因此, 同一性问题的研究对象是同字同音词。

    例1  门上挂着一把锁。

    例2  请把门锁好。

例1与例2中的两个“锁”的意义区别很明显, 并且语法功能也有明显的不同, 因而有理由说它们是不同的两个词, 一个属名词, 另一个属动词。

    例3  村里死了一口猪。

    例4  这个办法很死。

例3中的“死”是失去生命的意思,可以带体词性宾语, 例4中的“死”是呆板、不灵活的意思, 可以受“很”一类程度副词修饰。如果认为“失去生命”与“不灵活”就是不同的意思, 那就可以认为例3与例4中的两个“死”是不同的词,一个是动词,一个是形容词。如果认为“不灵活”的意思是由“失去生命”的意思引申出来的,把例3与例4的两个“死”看成同一个词,这时就需要把有关“死”的种种语法功能合在一起, 由此来确定“死”的词类, 采取这种观点, “死”兼属动词和形容词这两类词。不过, 对于计算机来说, 在句法分析的范围内, 只要能在电子词典中查到“锁”既是名词又是动词, “死”既是动词又是形容词就达到要求了。至于分属名词与动词的“锁”, 分属动词与形容词的“死”是两个不同的词还是同一词兼属不同词类的区别就不那么重要了。

2.2.2 各类词的划类准则

    既然划分词类的本质依据只能是词的语法功能, 那么在确定各类词的分类标准时, 是否都要列举各类词的全部语法功能呢? 这是不必要的, 也是不可能的。因为全部语法功能中当然也包括了这一类词与其它类词的某些相同的语法功能, 而这些相同的语法功能对划分词类是没有作用的。划分词类时必须注意不同词类之间那些互相有区别的特征, 即各个词类的语法特点。在进行将具体的一个词划归某个词类的实际操作时, 检验该词是否具备该类词的全部语法特点往往也是不容易的, 通常只要抓住最重要的语法特点即可。

    例如,2.1节列举了形容词的各种语法功能(当然还不是全部), 其中象“做定语”这样的功能就算不上是形容词的语法特点, 因为名词、动词同样可以做定语。形容词的划类准则可以选这样两条: 1.可以作谓语但不带真宾语;2.可以被“很”修饰。

    选择分类标准的原则应当是由此建立起来的词类, 其所属的词语在语法功能上要有足够多的共同点, 同时跟别的词类又要有足够多的不同点。

    划类标准也不是绝对的, 不是一成不变的。若选择的划类标准不同, 建立的词语分类体系也会有所不同。不同类的词之间必须要有相互区别的语法特点, 但不是说不同类的词之间毫无共同之处。动词与形容词都可以做谓语, 后面都可以接“了”及趋向动词“起来”, 就是它们共同的语法功能。如果以这些共同的语法功能作为划类标准, 则可以将动词与形容词(还包括状态词)合并为一个更大的类, 即谓词。

2.2.3 典型性问题

    在一个确定的分类体系中, 同类的词有共同的语法功能,但不等于说,同类的词的语法功能完全相同。对于任何一种自然语言, 实际可行的、有价值的分类只能做到把语法功能相同或相近的词归在一起。这样一来,同类的词,有些是典型的, 符合分类的全部标准或最重要的标准,有些是不典型的,只符合其中一部分标准。例如, “苹果、水泥、勇气、心胸”都是名词, 它们的共同特征是能做句子的主语与宾语,不受副词修饰。一般地说,名词可以受数量词修饰, 不过量词的类型又有差别。如修饰“苹果”的数量结构中的量词可以是个体量词、度量词、容器量词与种类量词等, 与“水泥”搭配的就没有个体量词, 与“勇气”搭配的只有种类量词和不定量词, 而“心胸”却不能受任何数量结构或数词修饰。

    在列举各个词类的划类准则时,应尽可能地把那些重要的列在前面。当判断一个具体的词是否属于某个词类时, 就可以看它是否符合这些判断标准。越符合多项标准或者前面的标准, 越是该类典型的词。反之, 虽将一个词划入了该类, 但它只符合少数几项标准或者只符合较后面的标准, 那么这个词在该类中就不是典型的。这也是语言现象的模糊性的一种表现。

2.3 词语的兼类

    在“2.2.1词的同一性问题”中已经涉及了词的兼类, 这里更集中地讨论一下这个问题。词的兼类指的是如果同字同音同义的同一个词具有不同词类的语法功能,则认为这个词兼属不同的词类,简称兼类。


   兼类问题可用表征形容词与动词关系的图1来说明。


图1. 形容词与动词的兼类



    在图1中,左边的圆代表形容词的集合,右边的圆代表动词的集合。这两个圆不相重合部分分别用a,v表示,相重合的阴影部分用$表示。形容词与动词虽然都是谓词,但它们有相互区别的语法特点,如形容词可以受“很”修饰且不能带真宾语,而动词或者不能受“很”修饰或者能带真宾语。根据这些语法特点,可以把绝大部分形容词与动词区分开来。但是,汉语中确实有一些词处于两个圆重合的阴影部分, 如“端正,巩固,方便,壮大,繁荣,丰富”等,这些词既具有形容词的语法功能,又具有动词的语法功能,并且看不出它们作为形容词或者作为动词,在意义上有什么区别。因此,本研究报告认为这些词兼属形容词与动词。

    前面已经提到,划类标准有一定的相对性。仍以图1为例,关于a,v,$可以有以下4种处理意见。

    (一) 将a,v,$各自处理成独立的类,这就需要为$起个合适的名字。本研究报告维持已经划定了的18个基本词类的稳定性,不主张这样做。

    (二) 将阴影部分$与a合并,形容词的集合就是左边的完整的圆。动词的集合只剩下v, 动词集合内的各个元素间语法功能的一致性就加大了。

    (三) 与(二)反过来,将$与v合并。动词的集合就是右边的完整的圆。形容词的集合只剩下了a。

    (四) a为形容词, v为动词, $为兼类,既是形容词的子集,又是动词的子集。反映在汉语语法信息词典中就是将同一个词如“端正,巩固,方便……”区分成两个登录项(即词语), 分别归入形容词与动词。

    如果将a,v,$抽象为任意两个不同的词类及它们的交集,那么在以上4种处理意见中,究竟哪一种更妥当一些呢? 这不能一概而论。对形容词与动词的交集中的 “端正, 巩固, 方便……”这些词,本研究报告采用了第4种处理意见,但不等于说,对其它词类也一律这么办。

    在划分词类中, 应当确立这样一条原则, 即在整个词类系统中,只有少数词是兼类的。这条原则同样适合电子词典的开发, 因为坚持这个原则可以保证词典的冗余度小。与“端正,巩固,方便……”这些词相似,象“研究,教育,批评,建设,团结”这一类兼有动词与名词的功能,但这类词在动词中的比重较大,本技术报告不将它们看作兼类,只将它们划归动词,是动词的一个特殊的子类,叫“名动词”,在电子词典中有关这些动词的名词特性另列专门的语法属性字段加以描述。

    关于种种兼类现象,本技术报告在第3章“各类词的划分方法及有关说明”中将具体介绍。

前面已经指出“一把锁”中的指物的“锁”与“锁门”中的指行为动作的“锁”是两个不同的词,在汉语语法信息词典中,在名词“锁”的记录中需指明还有一个同字同音的动词“锁”, 同样在动词“锁”记录中也需要指明另有一个同字同音的名词的“锁”。

三.  划类准则例解

    应该首先区分汉语中的实词与虚词,继之区分实词中的体词与谓词, 然后再逐一说明各个基本词语类别的划分准则。限于篇幅, 这里只能选择若干词类作为例子加以介绍。

    名词是最重要的一类体词。大多数语法论著认为时间词、处所词、方位词是名词的子类。本文介绍的分类体系将它们处理成与名词平行的类,下面只以时间词与方位词为例。在谓词中, 本文只介绍从形容词中分化出来的状态词。本文还介绍了实词中的区别词。对于虚词, 本文只选了介词。另外,对前接成分、后接成分、语素字、非语素字也作了说明。



3.1 时间词

    (1) 时间词是从名词中分化出来的一类体词,如“昨天,现在,今后, 宋朝”等。

    (2) 时间词能做“在”、“到”和“等到”的宾语。

    (3) 时间词可用“什么时候”、“这(个)时候”或“那(个)时候”提问或指代。

    (4) 普通时间词可以作状语,且作状语时无需加“地”,也不能加“地”。如“我昨天看了电影”。专有时间词,象“宋朝”,不能单独作状语。

    (5) 时间词都表示时间。但语义与时间有关的词不一定是时间词。如“时间、时候、功夫” 是名词(虽然可以说:“时间到了”但不能说“在时间”或“等到时间”), “已经,刚,忽然”是副词,“半天,三年”是数量词(组)。

    (6) 时间词通常表示“时点”, 即时间的位置或早晚,当然,这里说的“时点”并不是数学中时间轴上的一个点。而表示“时量”(即时间的长短)的,都可以划为数量词或数量短语(一会儿,三年,两个钟头)。


3.2 方位词

    (1) 方位词的数量有限。单纯方位词包括“上,下,前,后,里,外,内,中,左,右,东,西,南,北”等, 象“本世纪初,五月底,近年来,十年间”中的“初,底,来,间”也可划归方位词。合成方位词是由单纯方位词前接或后接其它成分构成的, 如“上边,下面,前头,东边,之下,之间,以前,以后,以来”等。

    (2) 一部分合成方位词可以单独充任主语或宾语。单纯方位词与另一部分合成方位词通常只能附着于名词、时间词、处所词、数量词等体词性成分之后构成方位短语,如“桌子上,今年之内,长江以北,三年以来”, 才能充任句子成分。但在对举的条件下, 单纯方位词也可单独充当句法成分,如“上有天堂,下有苏杭”,“前怕狼,后怕虎”。

    (3) 方位短语通常表示空间、时间的相对方位。方位短语中前面的体词性成分就是相对方位的参照点。方位词即使单独使用,也是要有参照点的,只不过参照点没有明显出现罢了, 这时从上下文一定可以判定参照点,在对话的环境中,通常以说话人的时空位置为参照点。

    (4) 使用频率很高的“上,下,中”有时不表示实在的方位,有引申的意义。如“理论上”、“思想上”表示方面,“在老师指导下”、“在同学们帮助下”表示条件,“在知识分子中”、“在农村人口中”表示范围。

    (5) 多数方位词附着在体词性成分之后, 有些方位词也可附着于谓词性成分之后, 如“在老师指导下”、“发展中”、“睡觉之前”。

    (6) 表示处所的合成方位词可以受副词“最”修饰, 如“最上头,最东面,最后边”。

    (7) 表示时间或处所的一部分合成方位词可以直接作状语, 如“以后去拜望您”,“咱们里面谈”。


3.3 区别词

    (1) 区别词是只能在名词或助词“的”前边出现的粘着词, 主要用作定语。

    (2) 有一部分区别词过去可能认为是名词,如“金,银,雌,雄,男,女,慢性,微型”等。但这些词都不能独立作主语、宾语。

    应该注意,“慢性”是区别词,“酸性,弹性”是名词, 因为可以说“带酸性, 弹性很大”。

    (3) 有一部分区别词过去可能认为是形容词, 如“初级,高等,大型,公共”等,但这些词不能作谓语,也不能受“很”、“不”修饰。

    应该注意,“初级,高等”是区别词, “低级,高级”是形容词。

    (4) 在一定条件下,如在包含对举格式的句子里,区别词也可以做主语和宾语,如“不分男女”,“急性、慢性都不好治”,“彩色比黑白贵”。某些区别词能够代替名词,如“无轨”可替代“无轨电车”。区别词后接“的”构成的结构是体词性的,可以作主语与宾语。

    (5) 一部分区别词,如“共同,局部,自动”兼副词。

    (6) 从意义上看,区别词表示的是一种分类标准,因此区别词往往是成对或成组的, 例如: 男-女, 金-银, 国营-私营, 大型-中型-小型-微型。

    但是意义上成对或成组的词并不一定都属于一类, 例如“相对-绝对”是成对的,“相对”是区别词, 而“绝对”却是形容词。“初级-中级-高级”是成组的, 但其中“初级”和“中级”是区别词,“高级”是形容词。

    按照现在的划分方法,区别词与名词之间、区别词与形容词之间是不会有兼类现象的。


3.4 状态词

    (1) 状态词可以看作是从形容词中分化出来的一类谓词。

    (2) 状态词没有单字词,通常是二字词,三字词或四字词。

    (3) 状态词是不能受“很”修饰的,如“雪白,泪汪汪,满满当当”这些词不能受“很”修饰。

    (4) 绝大多数状态词是不能受“不”修饰的, 如“笔直,白茫茫,灰不溜秋”。

    (5) 状态词能作谓语, 但不能带宾语及补语。状态词的重要功能之一是作述补结构中的补语。

    (6) 一些双音节形容词有几种变化形态,是作为状态词使用的,在实际的语料中也可以直接标注为状态词。如“孤单单,亮堂堂,平平常常,慌里慌张”分别是由 “孤单,亮堂,平常,慌张”变化来的,它们不能都收入汉语语法信息词典,但词典中也收了少量这样的词作为样例。

    至于单音节形容词,有的可以重叠。但重叠后的形容词,有的是副词,如:“紧紧”,有的必须加“的”才能成为状态词,如“甜甜的,扁扁的”。汉语语法信息词典只在形容词库中注明这种变化的形式。

    (7) 二个字的状态词只能有ABAB的重叠形式, 重叠后仍是状态词。状态词没有AABB的重叠形式。

    (8) 状态词不会同其它基本词类发生兼类问题。


3.5 介词

    (1) 介词是虚词, 介词一定要和后面的宾语(可以是体词性的, 也可以是谓词性的)构成介词结构才可以在句法结构作状语或补语。“被,从,对于,关于”等是典型的介词。

    (2) 由于现代汉语的介词大多数是动词演变来的, 大部分介词还保留了动词的用法。以下列举的“在,到,给,跟,比”五个词在下面左边各句中是动词,在右边各词中是介词:

    这本书在桌子上    在桌子上写字

    列车到北京了      到北京聚会

    他给过一支笔      给我了解一下

    别老跟着我        你跟他说过了吗

    咱们不妨比一比    他比我高

    作为动词可以单说, 可以单独作谓语(“在,到”), 可以带“着,了,过”(“给,跟”), 可以有形态变化(“比”)。作为介词不能单说, 不能单独作谓语,不能后接“着,了,过”,不能有形态变化。即使组成介词结构后,一般也不能单说,不能单独作谓语,只能作状语或补语,即自由的短语结构中除介词结构外一定要有另外的谓语。

    (3) “跟,和,同”是介词,又是连词。在下边左边各句中它们是连词,在右边各句中是介词。

    水仙跟腊梅都开了         我(常)跟他借钱

    小李和小王都是大学生     小李(不)和小王讨论问题

    老师同学生一块儿去了     他的脸色(简直)同纸一样白

    “跟,和,同”这3个词是介词还是连词的判别条件可归纳为:如果这些词的前后成分不能互换位置或者在这些词的前面可以有修饰成分, 则这些词是介词。如果这些词的前后成分可以互换位置即互换位置后句子的意思不变并且在这些词的前面不能有修饰成分, 则这些词是连词。另外, 还有一个形式特征可用于区分文本中的介词与连词, 作为介词的“跟,和,同”总是前置的, 因此可以在句首出现,而作为连词它们总是中置的,是不会在句首出现的。

    (4) “在,到,给”兼属动词与介词,在以下结构中,

    他住在北京

    已经送到家里

    送给他一本书

    本项研究认为这里的“在”是介词, 介词结构“在北京”是“住”的补语。“他住在北京”可以变换为“他在北京住”,意思不变。“到”是趋向动词, 是动词“送”的补语,在“送”与“到”之间可以加“得/不”,“送到”之后可以加“了”。“给”也是动词,“送给”也是述补结构,“送给”之后可以加“了”。

    (5) 以下结构:

    走向胜利

    来自全国各地

    发源于青海

    乘以一百

    都可以看作是动词“走, 来, 发源, 乘”后面接一个作补语的介词短语。但这些结构都受到文言残留的影响。其中“走向,来自,乘以”在现代汉语中, 特别是在信息处理系统中把它们看作是一个动词是最方便的了。


3.6 前接成分

    (1) 接在语素或词的前面构成合成词的一种构词成分, 这样构成的合成词, 有的已作为一个词收入汉语语法信息词典, 但多数未被收入电子词典。

    (2) 典型的前接成分有 “阿,老,第,初”。“第”与“初”已作为前助数词归入了数词。因此,只剩下了“阿”和“老”。若“阿爸,阿妈,老鼠”已作为词收入了词典,构词法认为它们是由前缀“阿”和“老”与一个实语素结合而成的合成词。不过从句法分析的角度, 可把它们看作一个整体,不再细分。若“阿叔,阿婶,老张,老九”这些词未被收入词典, 则可看成是由前接成分“阿”和“老”与一个语素组合而成的。

    (3) 新兴的前接成分很多, 它们可能与动词、形容词、副词等类中的词同形, 如“反,超,过,无”兼动词, “小”兼形容词, “不”兼副词。

    (4) 前接成分与区别词不应有相交部分。


3.7 后接成分

    (1) 接在语素或词的后面构成合成词的一种构词成分, 这样构成的合成词, 有的已作为一个词收入汉语语法信息词典,但多数未被收入电子词典。

    (2) 典型的后接成分有“子,头,们,儿”等。若“儿子,木头,人们,花儿”已作为一个词收入汉语语法信息词典, 构词法认为其中的“子,头,们,儿”是后缀,不过从句法分析的角度,则可把他们看成一个整体, 不再细分。象“帽子,画儿,狗腿子,石头,砖头,朋友们,蝈蝈儿”这些词,若词典未收,则可以把他们看作是由一个语素加上一个后接成分组成的。作为后接成分的“子,们,头,儿”读轻声, “儿”不单成音节。象“电子,中子,弹子,鸡子”中的“子”读第3声,不读轻声, 不算后接成分。“头”作为后接成分, 读轻声, 如“馒头”。“子弹头”中的“头”读第2声, 就不算后接成分。

(3) 新兴的后接成分很多,如“性,论,观,率,界,炎,学,家,员,化”等。其中多数兼属名词,如“性,家”等,也有兼属动词的如“论,化”等。

    (4) “的,地,得,着,了,过”已划归助词。 语言学深入研究了词缀“的”与助词“的”的区分, 从信息处理角度只把“的”处理成助词较为简单。

    助词与后接成分不应有重叠部分。

    (5) “省,市,县,村,镇,部,司,局,处,军,团,排,班,系,所”等词划归名词, 可兼用作后接成分,但不再划入后接成分。


3.8 语素字与非语素字

    (1) 除已作为单字词收入汉语语法信息词典的以外, 所有汉字(GB2312—80的6763个汉字范围以内的)均收入汉语语法信息词典。其中一类是语素, 另一类不是语素。

    (2) “柿,遥,抒”是语素字的例子。“柿”是名词词根, “遥”是形容词词根, “抒”是动词词根。“箱,带”等是名词词根, 不过“箱”也是量词, “带”又是动词。

    (3) “琵,琶,匍,匐”是非语素字的例子。“琵琶,匍匐”才是语素。

    (4) 凡不能单独成词而又可作为中国人姓氏的字皆划归“语素字”, 如“俞, 郝”。

    (5) 区别语素字与非语素字同古汉语知识关系甚大。本研究报告只根据《现代汉语词典》认为“翡翠、鸳鸯、鹌鹑”各是一个语素,而“翡,翠,鸳,鸯,鹌,鹑”都是非语素字。

    (6) 标点符号另作一类研究。

    (7) 现代汉语文章中还夹杂了不少外文字, 阿拉伯数字等字符。这些单个的字符都可以看作非语素字。不过,它们的数量有限, 机器内部的代码与汉字又能区分得开,可以不收入汉语语法信息词典。


四.  结束语

    本文是依据笔者的一份研究报告《信息处理用现代汉语词语分类体系》改写的, 相对于原报告, 篇幅大大压缩了。本文大体上保留了原报告的体系、理论基础部分的原貌, 只是第3部分只能选择若干类其它语法论著较少论及的类别加以阐述该研究报告所遵循的划类准则。这样难免有不平衡的感觉。

    在研究报告中, 笔者已对有关的指导者、支持者致以谢意,也列出了参考文献,这里不再赘述。

本文刊登于《中国计算机报》 1994年第21期第73~75版
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 21:34 , Processed in 0.088657 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表