湘里妹子学术网

 找回密码
 注册
查看: 3072|回复: 1

淺談漢語分詞的標準

[复制链接]
发表于 2004-2-23 14:42:18 | 显示全部楼层 |阅读模式
发表于 2004-2-23 15:32:41 | 显示全部楼层

浅谈汉语分词的标准

文章主题: 浅谈汉语分词的标准
发表时间: 2004年02月23日 13时31分  
发表作者: 语言文字应用  
发表内容:
浅谈汉语分词的标准*
孙宏林 撰(北京语言文化大学语言信息处理研究所)
《语言文字应用》,1997/04,106~109页

-------------------------------------------------------------------------------------------

  分词是汉语信息处理中的一项基础工程。解决汉语分词
问题,意义重大,但困难重重,所以“分词问题巳成为当前
中文信息处理的瓶颈”。[1]在分词的诸多问题中,最重要的
问题是:分词的标准是什么?要让计算机做自动分词,首先
必须要有一个分词词表,而制定这样一个词表又需要有一个
分词规范。要制定分词规范,就需要有判断词与非词的标准
。同时,对计算机分词结果的评价,也需要有一个判断是非
的标准。所以黄昌宁先生正确地指出,在汉语分词问题中,
“首先必须就汉语的分词标准取得共识”。[1]

  影响分词的因素很多,而这些因素都可以成为分词的依
据或标准。吕叔湘先生说,判定一个语素组合体是词还是短
语,主要涉及五个因素:“第一,这个组合能不能单用,这
个组合的成分能不能单用;第二,这个组合能不能拆开,也
就是这个组合的成分能不能变换位置或让别的语素隔开;第
三,这个组合的成分能不能扩展;第四,这个组合的意义是
不是等于它的成分的意义的总和;第五,这个组合包含多少
个语素,也就是它有多长。”[4]其中,前三个因素可以归入
结构标准,第四和第五个因素可以分别归入语义标准和音节
标准。除了这三个标准之外,使用频度也是影响人们“词感
”的一个重要因素。下面根据我们在语料库分词中遇到的实
际问题,就这几个标准谈一些粗浅的认识。

1结构标准

  结构标准是最重要的标准。从结构上看,词和语素划界
主要依据单用的标准,词和短语划界目前主要用扩展法。

(1)单用的定义及受限单用

  一个语素要成为词它必须能够单用,这是一个非常朴素
的道理。一个结构体AB,只要A或B是不单用的,那么AB就
是一个词。这是一个充分条件,它对分词的作用是很大的。
我们从20万字语料中找出所有可能的双音节组合,得到
10056个条目(type),其中6267条是其中至少有一个部分是
非单用的,据此我们就可以判断这些组合都是词。可见单用
的标准可以解决双音节组合中近三分之二的问题。但是,许
多语法著作中对单用的定义仍存在模糊不清、不易操作的问
题。我们把单用的情况分为自由单用和受限单用两种:所谓
自由单用是说一个语素具有某一类词的典型的句法特征;[6]
所谓受限单用是指一个语素虽不具有某一类词的典型句法特
征,但在特定的条件下也应该算是单用的。受限单用根据受
限的条件又可以分为结构受限和语体受限两种。

1)
结构受限。
结构受限是指一些语素不具有某一类词的典型句法特征,但
是在特定的句法结构中能产性很强,而且整个结构又可以用
简单的句法─语义规则加以描述的现象。〔1〕例如,一些
名词性语素在单说的时候必须儿化或加上后缀,但在“名+
名”式偏正结构中却可以比较自由地充当定语或修饰语。例
如,“桌”单说的时候必须是“桌子”,“桌”不具有名词
的典型句法特征,它不能受数量词的修饰,不能做主语或宾
语,只有加上一个后缀“子”变成“桌子”之后它才具有名
词的典型句法特征。同样的例子有“瓶、袋、盒、椅、窗、
叶、绳、牌、声”等。这些语素变成自由单用的方式有两种
:儿化或在后面加上后缀“子”。有的是只有一种方式,有
的是两种方式都能用,如:

  儿化:瓶儿、袋儿、盒儿、叶儿、绳儿、牌儿、桌儿、
声儿

  加“子”:瓶子、袋子、盒子、叶子、绳子、牌子、桌
子、椅子、窗子

  但是,这些语素在“名+名”式偏正结构中能产性很强
,而且在结构中并不需要儿化或带上后缀,例如:

  奶瓶、花瓶、醋瓶、酒瓶、啤酒瓶、酱油瓶、可乐瓶、
氧气瓶、液化气瓶、玻璃瓶、塑料瓶

  纸盒、铁盒、木盒、火柴盒、骨灰盒、包装盒、铅笔盒
、香烟盒、糖果盒、化妆盒、礼品盒

  笑声、掌声、哭声、喊声、鞭炮声、锣鼓声、唢呐声、
国歌声、欢呼声、赞扬声、喧嚣声

  丁香叶、榆钱叶、梧桐叶、广告牌、卫生值日牌、草绳
、麻绳、咸草绳、钢丝绳、靠背椅

  以上是作中心语的例子,它们还可以作修饰语,如:瓶
盖、瓶口、瓶底、瓶签、桌腿、桌上、桌面、窗前、窗外、
椅背、椅垫子可以看出,这类结构可以用简单的句法语义规
则加以描述,它们和两个自由单用的名词构成的偏正结构没
有什么两样,这充分反映了汉语的简约性。我们没有必要在
词汇表中收入这些组合,只要把这些语素作为词收进去就可
以了。其实,在我们的头脑中也是这么处理的,比如在我们
的头脑中储存了“棕榈”和“叶”,我们就可以调用句法语
义规则,推出“棕桐叶”的意义。用结构受限的思想就很容
易解决汉语分词中的经典问题:“鸡蛋”和“鸭蛋”的问题
。按照自由单用的观点,就造成了“鸡蛋”是短语、“鸭蛋
”是词的结果,因为“鸭”不能自由单用,我们不能说“一
群鸭”,而必须说“一群鸭子”。但我们可以说,“鸭”是
受限单用的,因为虽然它不能直接受数量词的修饰,不能直
接做主宾语,不能独立成句,但能够自由地在“名+名”式
偏正结构中做修饰语或中心语,如“北京鸭、鸭毛、鸭头、
鸭翅膀”等。

  另一个结构受限的例子是,一些语素不具有动词或形容
词的典型句法特征,不能作谓语,只能出现在补语位置上,
而且在这个位置上能产性很强。例如:

  查清 分不清 问明 探明 走遍 找遍 查遍 留住 
栓住 找著 猜不著
  买得起 请不动 关不死 供得起 负担得起 戒不了 
承受不了 吃不来

  应该承认,这些语素也具有作为词的资格,可以称为“
唯补词”,正像区别词只能作定语、副词只能作状语一样,
这些词只能作补语。[5]

2)
语体受限。
我们现在处理的基本上都是书面语,现代汉语书面语中的成
分相当驳杂,里面有现代口语的成分,也有大量的文言遗留
成分。从“五四”时代的“白话文运动”以来,现代汉语书
面语逐步趋于和口语一致。但由于文言文传统的影响,在许
多知识分子的作品中仍或多或少地存在著一些文言遗留成分
,如:

  西安之行 工作之余 东海之滨 有“黑珍珠”之誉 
有“液体面包”之称

  春夏之交 爱国之举 泰山之巅 地处湘粤之交 大有
断炊之势 工程竣工之时

  可乘之机 居全国之冠 高低贵贱之别 有班门弄斧之
嫌 值此新春佳节之际

  多举一些例子是想说明这种现象在书面语中是十分普遍
而不是个别的。这些例子中,“之”是一个文言助词,“之
”后面的词也都是文言用法,在现代汉语中它们一般是不能
自由单用的,一个明显的证据是,如果把这些例子中的“之
”换成白话助词“的”,后面的词就都站不住了,都得换。
但是我们还得承认这些语素是单用的,不过它是文言用法在
现代汉语中的遗留。认识到现代汉语的书面语中也有文言现
象这一点是非常重要的,因为我们制定的分词原则和方法,
比如单用、扩展等,对于这些现象全都没用。只有首先把这
些现象排除出去,才能讨论汉语分词的方法。

(2)扩展法的作用

  对扩展法目前还没有一个权威的定义,在具体操作的认
识上也不尽一致,但其基本精神是一致的:就是看一个结构
能不能被别的语言成分分开。扩展法的优点是可操作性强,
对两部分都单用的组合,宜首先采用扩展的标准。但是扩展
法也有一定的局限性:一方面,一些一般认为是短语的例子
不能扩展,例加,在双音节名词性组合中至少有以下一些一
般认为是短语的结构不能扩展:

  (1)方位结构。 如:坝上 班上 背上 厂里村外 
灯旁 饭前 肝内 梦中 碗里

  (2)“双”+名词。 如:双脚 双手 双腿 双拳 
双眼 双列

  (3)“本/此”+名词。 如:本厂 本报 本市本月
此事 此桥 此数

  (4)“满”+名词。 如:满地 满街 满胜 满头 
满手 满身 满屋

  再如,由动词加上“有”构成的动补结构,如:“安有
、配有、写有、标有、刻有、设有、建有、部署有、安装有
、配备有、包括有”等,所有这些结构都不能扩展,但这类
结构的能产性很强,能进入这种“V+有”结构中的动词甚
多,而且整个结构又可以用简单的句法语法语义规则来描述
,所以不宜把这些“V+有”结构都收入词表中。[7]另一方
面,一些应该是词的例子但能够扩展。如我们熟悉的所谓动
宾式“离合词”就属于这一类,如“洗澡、游泳、理发、毕
业”等。这样看来,似乎能否扩展对于区别复合词和短语既
不是充分条件,也不是必要条件。但是,具体到一种特定的
类型,扩展法就有可能成为充分条件。例如,对于定中结构
,能扩展的一定是短语:对于动宾结构,不能扩展的一定是
词。这说明扩展法虽有局限性,但在某些场合,仍不失为区
别复合词和短语的首要标准。

2语义标准

  按照一般的说法,所谓语义标准就是看一个结构体的整
体意义是否等于部分意义之和。语义的加法显然不像数学的
加法那么简单,如何具体化呢?我们认为,整体的意义应该
包括两部分:部分义和部分之间的语义关系。所以要判断整
体义是否等于部分义之和,可以从两个方面来把握:一、看
部分义是否包括在整体义之中;二、看部分之间的语义关系
是否是可以类推的。比如,“女孩子”包含两个部分:“女
”和“孩子”,“女”的意义是“女性”,“孩子”的意义
是“儿童”,二者之间的语义关系是属性─对象关系,据此
推出“女孩子”的意义是“女性儿童”,但这只是“女孩子
”的一个意义,它的另一个意义是指“年轻姑娘”,那么在
这一意义上“女孩子”是不能推出来的。像“女孩子”由“
女性儿童”到“年轻姑娘”这样的语义转变现像是比较容易
判断出来的,因为部分义“儿童”在整体义中没有了。我们
把部分义是否包括在整体义中作为一条语义原则,姑且称为
转义原则。转义原则应该是分词中的一条普遍原则,即:如
果部分义不包括在整体义中,那么整体就不应该切分。

  转义原则是根据部分义是否包含在整体中来判断的,因
此比较容易操作。困难的是对关系义的判断上,即如何确定
部分之间的语义关系并进而判断哪些语义关系是可以类推的
,哪些语义关系是不能类推的。拿“名+名”式偏正结构为
例,两个名词之间的关系多种多样,如:

  (1)材料+制成品:草鞋 皮带 肉丸子 植物油 死
面馍 青砖墻

  (2)整体+部分:鱼头 蛇皮 手指头 板凳腿 窗户
框 柳树枝

  (3)被容纳物+容器:饭盒 花盆 烟灰缸炭火盆 煤
油桶 死囚车

  (4)具体物+形状:布条 姜末 土豆丁 萝卜丝 黄
豆粒 煤块儿

  (5)产地+物:海鱼 河虾 热带鱼 韩国菜上海糖 
北京小吃

  (6)用途+物品:燃料煤 原料煤 溶剂油动力电 燃
料油

  以上这些语义关系是比较清楚的,而且各类组合的数量
较多,因而可以看成是可类推的,但有时两个名词之间的关
系还不能简单地说清楚,如“中国餐馆、美国地图、历史教
训、感情债、交情账”等,这时就不好判断哪些是可以类推
的哪些是不能类推的了。

  由于语义标准难以操作,所以它只能作为结构标准的补
充。比如,对“名+名”式偏正结构,我们首先可以用扩展
的标准,能扩展的是短语。对不能扩展的可以按照语义标准
,用排除法,规定对能产性强的语义关系类型的结构进行切
分,其他的不切分。如果词典的规模可以大一些,也不妨把
不能扩展的“名+名”组合都收入词典。

3音节标准

  音节的数量(或者字数)是否可以作为分词的标准?吕
叔湘先生说:“我们常有这样的经验:两个语言片段,语法
结构相同,能否单说、能否扩展的条件相同,只是音节多寡
不同,比如说,一个是双音节,一个是四音节,我们觉得前
者更像一个词,后者更像一个词组。”[3]但这只是一种语感
,从理论上还找不到可靠的依据。比如,你说“烤鸭、烧鸡
”是词,那你有什么理由说“烤白薯、烧豆腐”就不是词呢
?由于词的相对性,同样一类现象,我们可以根据需要规定
切分或者不切分。为了实用的目的,音节标准可以作为结构
标准、语义标准的辅助标准。比如“烤鸭”之类结构按照音
节可以分为两组:

  第一组:烤鸭 烧鸡 炒菜 炖肉 烩饼 酱菜 蒸馍

  第二组:烤白薯 烧茄于 炒韭菜 炸豆腐 熬白菜 
酱肘子 拌黄瓜 红烧鱼 水煮肉 清蒸鲤鱼 糖醋 排骨 
拔丝山药 凉拌西红柿

  第一组和第二组的语法条件相同(两部分都能单用,都
是“动+名”式偏正结构)、语义条件相同(两部分的语义
关系类型相同,都是“烹饪方法+原料”〔2〕,对于这两
组对象,从理论上说处理成词和短语都可以,但如果考虑到
词汇双音化的倾向,则可以规定对第一组不切分、对第二组
切分。音节标准只能在语法标准和语义标准相同的条件下才
能起作用,否则会造成混乱。

4频度标准

  使用频度是影响人们对词的认识的一个重要因素,比如
,我们一般觉得“鸡蛋”像一个词,但是“鹅蛋、蛇蛋、乌
龟蛋。鹌鹑蛋”就不像词,觉得“猪肉、牛肉”是词,“驴
肉、蛇肉、马肉、骆驼肉”不是词,这显然受到频度的影响
。《现代汉语词典》(修订本)的收词也能说明这一问题;
例如,它收了“海鱼、河鱼”,但没有收“海虾、河虾、海
蟹、河蟹”;它收了“做法”,但没有收“唱法、教法、叫
法、提法、挖法、写法、译法、走法”等;它收了“博物馆
、图书馆、体育馆、殡仪馆、文化馆”,但没有收“陈列馆
、大使馆、档案馆、美术馆、展览馆、资料馆、武术馆、理
发馆、咖啡馆、纪念馆、游泳馆、水族馆、训练馆”等。

  使用频度到底在分词中应该起什么作用呢?我们认为,
使用频度不应该是确定词与非词的一个标准。比如,如果你
说“图书馆”是词,只要所有和“图书馆”在语法语义上构
造相同的语言片段就应该是词。不能因为“图书馆”的频率
比“档案馆”高,就说图书馆是词,“档案馆”是短语。但
是,由于复合词和短语之间的界限客观上有一定的相对性,
随著计算机存储容量的激增,物理上对词典规模的限制越来
越小,为了处理的方便,在一些应用系统中适当收入一部分
短语在工程上是可行的,如著名的SYS─TRAN公司的汉英机
器翻译系统的词典规模就达到60万条,其中就收入了相当一
部分短语。[8]这时,可以把使用频度作为一个实用标准,据
此把一部分使用频度高、搭配强度高的短语收入词典。应该
强调的是,使用频度标准不能是区别词和短语的标准,因为
一些词尽管使用频度很低,但仍不能排除在词典之外,如“
鼯鼠、俳优”等,同时,一些短语尽管使用频度很高,从句
法一语义的系统性考虑仍不能收入词典,如数量短语“一
个”。

  综上所述,从区分词和短语的角度看,主要只能依据句
法标准和语义标准,二者之中又应当以句法标准为主。句法
标准中单用标准优先于扩展标准。音节标准可以作为句法标
准和语义标准之外的一个补充标准。使用频度不能作为区分
词和短语的标准,但可以作为电子词典收录短语的实用标准
。因此可以给出以下的优先顺序:

  单用标准>扩展标准>语义标准>音节标准>频度标准
分词标准只是分词的基本原则。在明确了这些原则和方法之
后,更重要的工作是利用这些方法制定出一套可操作性强的
分词规范作为制定词表和具体分词工作的依据。现有的分词
规范离这个目标相差甚远。要制定出一部理想的面向真实文
本的分词规范,必须要调查大量的语言事实。应该从分析语
言事实的过程中归纳出分词规范,而不能靠演绎的办法。陆
志韦先生等的工作是值得学习的,但其缺陷是分析的对象主
要是现成的词表而不是活的语料。[2]今天,我们有大规模的
语料库,有计算机作为辅助手段,我们应该也有可能做出比
前人更进一步的工作。

  *本项研究得到国家自然科学基金资助。黄昌宁教授对本
文初稿提出许多修改意见,谨此致谢。
---------------------

注释

〔1〕
关于结构受限的认识是在和孙德金、黄建平等同志的多次讨
论中逐渐形成的。
〔2〕
“动+名”式偏正结构的类型不限于“烹饪方法+原料”这
一种类型,如“来信、赏钱、死人、剩菜、积雪、润滑油、
祝酒词、读书人”等。

【参考文献】

[1]
黄昌宁《中文信息处理中的分词问题》,《语言文字应用》1997年第1期。
[2]
陆志韦《汉语的构词法》,科学出版社,1957。
[3]
吕叔湘《现代汉语单双音节问题初探》,《中国语文》1963
年第1期。
[4]
吕叔湘《汉语语法分析问题》,商务印书馆,1979。
[5]
刘丹青《“唯补词”初探》,《汉语学习》1994年第3期。
[6]
孙宏林《现代汉语语料库分词中的若干问题》,《计算语言
学进展与应用》,清华大学出版社,1997。
[7]
孙宏林《由“V+有”构成的存在句》,(世界汉语教学》
1996年第2期。
[8]
Jin Yang,Laurie Gerber,SYSTRAN Chinese─English Machine
TranslationSystem, Proceedings of Intematiornal Conference on
Chinese Computing’96, June, 1996, Singapore.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-5-4 00:58 , Processed in 0.062410 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表