湘里妹子学术网

 找回密码
 注册
查看: 2064|回复: 0

基于语料库的汉语字词相关性研究

[复制链接]
发表于 2009-9-26 19:39:16 | 显示全部楼层 |阅读模式
作者:盛玉麒 来源:http://www.yyxx.sdu.edu.cn/content/xueshuyanjiu/xueshu2-syq2.htm

  一、概 说

  文字是记录语言的书面符号系统。"字母文字系统"通过记录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了"音"的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由"口-耳"交际的符号系统转换成为"眼-口-耳"信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。

  由于汉字记录汉语时不实行"分词连写",所以,在书面上,汉语的"字"、"语素"与"词"特别是"单音节词"以及词与词组之间存在界限不清的复杂关系。"汉字本位"的中国传统语言学与"词语本位"的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的"词儿"几乎无法深入讨论"词法"、"句法"等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位"词儿"出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的"切分"、"定类"等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是"沙上建塔"。

  如果抛开汉字,单纯从"词"的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是"文字系统",仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了"汉字式"认知模式,甚至在口语中也时常少不了像"字眼儿"、"咬字吐词"、"字正腔圆"等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。

  本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。

  从书面上看,汉语的"词儿"就是由一个或几个单字所组成的。汉语语法无非是"组字成词"和"谴词造句"的方法。语言本身是一个"习惯的系统"。其中许多"规律"包括词语的创造原则与构成方式等都是"约定俗成"的。这个"约定俗成"既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的"例外",如一些强制性的"积非成是"的习惯或语言事实。以动词"吃"为例,既可以接所有能够用嘴吃的东西、也可以接属于"吞咽到胃里"东西、甚至可以接根本与"嘴"咀嚼无关的东西或事情:像"吃饭"、"吃烟"、"吃醋"、"吃闷棍"、"吃官司"、"吃回扣"、"吃这一?quot;,甚至"吃床腿"等等。显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。

  如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言事实中,不管是"规律"还是"例外",都符合一种"统计学的规律":例如一个"双音词",表现在书面上就是两个词,而且,这两个字必然经常连在一起出现;反之,如果两个字之间不构成一个词,那么,它们一般就不会经常在一起出现。我们可以根据这个特点,找出字与字、词与词、字与词之间是否经常在一起出现的规律,也就是"字词相关性",将其推而广之,就可以发现书面汉语中的"词法"、"句法"甚至"章法"的组织与结构规律了。

  汉语的"分词"是中文信息处理各个应用系统中经常遇到的一个难题。如果不分词,关于汉语的词类划分、语法关系与规则的描写等,就没有了着落,语言的理解也就无从下手。可是,在现实生活中,使用汉语的人一般好象不大注意"词儿","词"和"非词"的界限是比较模糊的;另一方面,也不大计较在一个句子中使用的是什么"词类"、是名词还是动词、是及物动词还是不及物动词。即使在纠正病句时,通常也不说"你这里应当用动词、不应当用形容词";或者"这里应当用及物动词、不应当用不及物动词",等等。人们注意的只是一个现成的语流中现实的字符串的合理性,或者叫"可理解性"。这个合理性或"可理解性"可以从字词相关性中找出来。

  另外,由于是使用汉字记录汉语,所以,说话时的同音词表现在汉字中一定用不同的同音字代替,例如:不能把"安徽"写成"安灰",也不能把"高兴"写成"高性"或"高姓"。这说明汉字已经成为"专字专用"的一种书写符号系统。一切关于现代汉语的研究都无法离开书面汉语,一切关于书面汉语的研究都不能离开汉字。所以,从这个意义上说,关于现代汉语字词相关性的研究,是揭示现代汉语内在规律的重要途径。

  字与字的相关性、字与词的相关性以及词与词的相关性可以归结为汉语的"马尔科夫"特征。这是所有离散集合的一个普遍规律性特征。运用这个特征,可以发现和解决"字本位"的传统语言学无法发现的问题,也可以发现和解决"词本位"的现代语言学对于书面汉语无法解决的问题。

  笔者从1987年开始研究这个问题,通过研制《信息处理用现代汉语三万词语集》、《当代汉语流通频度词典》、《信息处理用现代汉语港台词语集》以及对《邓小平文选》、《十三经》、《红楼梦》、《金瓶梅》、《醒世姻缘传》等语料的抽样统计分析,探讨汉语字词相关性研究的科学性和可操作性,尝试解决自然语言理解和智能化中文信息处理中的语言规律问题。本文汇报第一部分,向专家学者请教。

  二、字字相关性

  汉语自然语言和话语是一些连续的"语音流"。汉字通过记录汉语一个一个的音节,形成书面汉语的"汉字流"或"字符流"。所有的汉字所组成的集合是一个离散元素的集合。汉字字符之间联系的疏密程度各不相同。每一个汉字与其它汉字字符之间的关系实际上是由语言的规律或规则决定的。这些规律或规则就是汉语语法,包括词法和句法。

  语言本身是一种约定俗成的符号系统,或者说是一种"习惯"的系统。在这个系统中,约定的规则或规律从某种意义上说,完全是一种统计特征。语言的规则或规律是一种"少数服从多数"的原则。这种"多数原则"就是"统计学"的原则。

统计字与字的相关性,具体操作起来可以有多种方法,但是都不外乎是从定量的语料或文本中进行抽样统计。把汉字放在实际语用环境中,找出该字与前后字符之间的相关性程度。我们可以统计得到:

  (1)单字的使用频度

  (2)两个汉字"同现"(连用)的频度

  根据这两个指标,可以分析出连用的两个汉字具有什么程度的相关性。可想而知,组成一个"双字词"的两个字一定经常在一起出现,它们之间的"同现概率"高,相关性就高;反过来说,同现频度高的两个字很有可能就是一个两字词。比较极端的例子是一些连绵词,例如"蜿蜒"、"徘徊"、"崎岖"、"蜻蜓"之类,它们总是连在一起使用的,从来没有单个使用的情况。因此,它们的单字出现的绝对频率也等于两个字同现的绝对频率。但是,在汉语中,像连绵词这样的例子毕竟是少数,主要的都是既能单用的、又能搭配使用的,而且一个汉字往往与多个汉字搭配使用。这样,这个汉字的单字频率,就分布在它所有相关同现的组合中了。根据这些相关组合的出现频率,可以推知哪些相关性强、哪些相关性弱。另一方面,在进行判断的时侯,还应当参考与之相关组合其它单字的使用频率,看该组合的频率占该字使用频率的比例。

  三、意义分析

  如果我们把相关词表按降频排列,就可以发现,任何一个"字"的"相关字"都不同。即使都与某些字相关,其相关系数也不相同。因此,降频表就表现出"同码优选"的一种原则顺序和科学依据。

  在中文信息处理各个应用领域中有许多问题,例如键盘输入中的"重码选择"、语音识别与语音合成中的"同模判断"、机器翻译与自然语言理解中的"歧义处理"等等,几乎都可以归结为"同码选择"问题,都可以通过建立相关词表来实现优选优化。

  例1:从《邓小平文选》相关性统计表中选择的例子:

  (说明:字后的数字表示该组合出现的次数,下同)

  "我"字系列相关表举例1(仅举二级相关)

  我们 85 我军 12 我想 9 我对 3 我讲 3 我就 3 我在 3 我国 2
  们的 19 军队 101 想。 12 对派 6 讲的 12 就是 51 在军12 国家 9
  们军 13 军的 16 想, 6 对这 6 讲了 10 就不 12 在有10 国民 6
  们要 9 军要 8 想的 6 对宗 6 讲清 6 就要 8 在这10 国防 5
  们这 8 军内 7 想不 2 对他 5 讲, 5 就有 8 在一 8 国际 5
  们党 6 军里 5 想懒 2 对于 5 讲话 4 就会 5 在不 6 国人 3
  们有 6 军干 4 想是 2 对闹 3 讲到 3 就没 5 在战 4 国都 2
  们一 4 想体 2 对的 2 讲错 2 就好 4 在职 4 国工 2
  想问 2 对干 2 讲过 2 就更 3 在是 4 国国 2
  二级相关可以发现三字词语的使用情况,如"我们的"、"我们要"、"我对这"等等。
  例2:从320万字符的现代汉语文学作品相关性统计表中选择的例子:

  "我"字系列相关表举例2

  我们 4451
  └们的 1263┌ 的, 6847
      ├ 的。 4356
        └ 的人 2801┌人家 2101 ┌ 家里 1564┌ 里, 2689
              ├人的 1543 ├ 家的 800├ 里的 1472
              ├人。 1027 └ 家, 738├ 里去 1082
              └人们 415 └ 里面 724
    的一 2623 ┌ 一个 8569 个人2399 ┌人家 2101
         ├ 一点 2495 ├人的 1543
         ├ 一定 1398 ├人。 1027
         ├ 一声 1296 └人们 415
         ├ 一下 1225
         └ 一种 1195
    ┌ 们这 450 ┌ 这样 3752
    ├ 们不 373 ├ 这一 2528
    ├ 们一 357 ├ 这里 1998
    ├ 们都 338 ├ 这个 1962
    ├ 们也 309 ├ 这是 1511
    └ 们是 304 └ 这些 1244

  从多级高相关性关系中,可以发现常用的"多字串",例如"我们的人家里"、"我们的一个人家"、"我们这样"等等。

  四、讨 论

  汉字的数量是有定的。在国家标准《信息处理用汉字编码字符集·基本集》中,共收入了6724个汉字和39个非汉字符号(主要是笔画、和非字部首)。从理论上说,2字组的"相关串"应当有6724×6724=45212176个。但是,实际上,远没有那么多。

  这里的约束机制在于汉语"组字成词"、"遣词造句"等语言学规则。正因为这样,字词相关性的研究才可以帮助我们找到隐藏在其中的规律性。

  在我们的研究中,还发现汉字在句子中的分布特征。例如,有些字只出现在句子首位,有些字则只出现在句子结尾,更多的字则是呈不同比例的分布特征。这一特点可以用于自动分词、自动识别等技术。

  此外,除了象"连绵词"这类"绝对正相关"之外,还有一类从来不在一起出现的、我们称之为"绝对负相关"的现象。这一特征在模式识别的粗分类中具有一定的实用价值。

  汉语字词相关性研究是一个新的研究课题,具有重要的理论意义和应用价值。限于篇幅,本文只是简单地介绍了字字相关性的研究概况(其他部分另文专述),希望引起学界的关心和注意。虽然我们经过多年努力,进行了大量基础理论与应用的探索研究,但是还有许多课题有待进一步的开发。

  本研究曾经得到导师殷焕先教授以及钱文浩、许钦文、葛本仪等许多先生的指导,写作过程中参考了国内外有关专家的论著,恕不一一列出,在此一并致谢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-3-28 18:57 , Processed in 0.060861 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表