湘里妹子学术网

 找回密码
 注册
查看: 4792|回复: 0

汉语信息处理中单字的构词方式与合成词的识别和理解

[复制链接]
发表于 2006-5-30 16:08:10 | 显示全部楼层 |阅读模式
作者:傅爱平  
来源:人大复印
【原文出处】:语言文字应用  【原刊地名】:京  
【原刊期号】:200304  【原刊页号】:25~33  
【复印期号】:2   【分类号】:H1  
【内容提要】:本文提出了汉语信息处理中关于单字构词方式的基本问题,考察了目前对于这个问题的  
【文摘】:应用语言学  
【英文文摘】:The paper discusses the essential problems in the study of word formation in  


  一 汉语信息处理中单字构词的基本问题
    在汉语文本自动分析和理解系统中,“词处理”是一个基础环节。所谓“词处理”,
是指在连续的汉字字符串中识别词语,并获取这些词语的语言学信息和统计学信息,譬如
:语法属性、语义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础
。我们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识
别和理解语句中的词语。典型的“词处理”任务通常由自动分词系统承担。在分词底表的
支持下,可以根据确定的算法对没有切分歧义的词语进行识别和理解,系统实现起来也并
不困难。所以自动分词研究的难点是如何处理切分歧义和未登录词语。未登录词语包括专
有名词和普通词语,本文讨论的是后者。处理未登录词的主要目标有两个,一是判断某个
字串是不是底表之外的新词,二是如果是新词,推测它的词义和词性。
    语言的词汇系统在不断地变化和发展,汉语中未登录词的数目是无限的。但汉语中作
为构词基本部件的单字(注:严格说应该是“单音节语素”。考虑到汉语信息系统的处理
对象,本文用“单字”。),在数量上却是有限的,在表义功能上是相对稳定的。使用汉
语的人用组字成词的方式创造新词。根据这样的认知途径,汉语信息处理系统把单字作为
基本资源,寻找它们组合成词的规律,用来识别和理解未登录词。由于识别和理解的依据
是单字的属性,所以单字的构词规律就成为汉语信息处理中引人关注的问题。
    为了方便后面的讨论,我们在正文里把组成合成词的单字叫做词素,并且把讨论限制
在双字组合的范围内(注:双字组合在现代汉语词汇中占绝对多数。据周荐(1999)统计,
在《现代汉语词典》所收条目中,双字组合占收条总数的67.625%。据我们对《信息处理
用现代汉语分词词表》扩充表的统计,双字组合占60%)。和任何一种语言结构单位一样
,由词素组合而成的词,其结构方式可以从两个方面考察:一是结构成分,二是结构关系
。前者指词素的语法性类或语义类别、语义特征等属性,后者指词素组合成词时这些属性
之间的关系。在汉语信息处理中,从识别和理解合成词的需要来看,关于合成词的结构方
式,我们关心的是以下几个基本问题:
      1)用哪些语法性类、语义类别或特征能够概括词素在组合成词时的各种情况?
      2)词素之间能否搭配组合成词的选择条件是什么?
      3)组合成词的词素之间,顺序关系是什么?
      4)词素组合成词时的结构方式是什么(是意义结构关系还是句法结构关系)?
      5)合成词的词义与词素意义的关系是什么?
       6)合成词的词性与词素的性类有没有关系?
    其中问题1关系到词素有哪些属性在组合成词时起作用,在汉语信息处理系统中,这
些属性应该得到充分的描述,并作为识别和理解合成词的初始信息。问题2关心的是在众
多词素当中,哪两个词素能够组合成符合汉语习惯和语感的词,或者哪两个词素不能组合
成这样的词。问题3是说如果两个词素可以组合成词,那么谁该在前谁该在后?显然与问
题2和3有关的各种因素也应该纳入问题1的范围。如果说前三个基本问题主要与合成词的
识别有关,那么问题5和6就关系到合成词的理解。即,可否根据词素的意义和性类得到合
成词的词义和词性?这是处理未登录词的主要目标之一。问题4概括了其他几个问题,我
们把它看作研究构词规律的基本观点。
    了解了这六个基本问题,计算机才有能力根据有限的词素去识别和理解任意的词语,
或者更进一步,按预定的意义生成恰当的词语。这是在汉语信息处理领域里研究单字构词
、或者叫语素构词问题的直接动因。
      二 汉语信息处理中的构词研究及其应用
    目前汉语信息处理领域里与词素构词研究有关的工作主要集中在三个方面。一是语言
资 源的建设;二是构词规律的统计和研究;三是在识别和理解未登录词语的工程实践中
的应用。
      (一)语言资源的建设
     在这方面有代表性的是汉语语素数据库(苑春法等,1998;俞士汶等,2003)。语
素数据库的登录项一般以“国标GB-2312”的6763个汉字为基础收集,并为每个语素标注
如下属性:语素义、语法性类、成词与否(成词、半成词、不成词)、构词位置(前位、
后位、不定位等)、特定构词项目等。为了研究语素构词的规律,有的数据库还收录了由
已登录语素构成的二字词、三字词和四字词,并标注了它们的读音、语法性类、构词方式
(主谓、偏正、述宾、述补等)、类序:(a+n、v+n等)、多义与否和字义组合方式。
    类似的资源还有“汉字义类信息库”(亢世勇等,2001),也是基于“国标GB-2312
”收录汉字条目,标注了读音、义项、同音、同形、语义类别、词性、成词与否等属性。
与上述语素数据库相比,它的特点之一是按照《同义词词林》的分类体系标注语义类别属
性,这样就把每个汉字的每一个意义都纳入了一个层级结构里面,可以体现单字意义之间
的同义、反义关系和上下位关系。
    这些资源建设的目的有两个,一个是为汉语信息处理提供初始信息(各种词法、语法
、语义属性),另一个是获取与构词规律有关的统计数据。譬如,以“汉语语素数据库”
为基础,用语法性类作为词素的基本属性,统计了在全部词素中各种性类的分布:名词性
词素占46.7%,动词性词素占31.4%,形容词性词素占12.7%,等等(注:尹斌庸(1984)也
曾做过统计,处理的语素集合有所不同,统计的结果也有些差别。)(苑春法等,1998)
。这些数据能够帮助我们从语法因素的角度对汉语的构词部件有一个宏观的把握。但是对
于词素构词这个目标来说,与其说这些统计数字对揭示构词规律有直接的作用,倒不如认
为它们实际上体现了一种思路,这就是用语法因素作为词素的基本属性来概括词素组合成
词的各种情况。这种思路来自如下关于构词方式的基本观点:合成词的词素之间是句法结
构关系。
      (二)构词规律的统计和研究
    在上述语言资源的支持下,用语法性类作为词素的基本属性,得到了关于二字合成词
词汇结构形式的一些统计数据。其中典型的是按句法模式表现的构词方式和按词性表现的
构词类序(苑春法等,1998)。
    所谓按句法模式表现的构词方式,是以句法功能(主、谓、宾、定、状、补等)为结
构成分,以这些功能的组合类型(定中、述宾、述补、联合等)为结构方式,在二字合成
词中统计各种组合出现的数目。显然这些统计数据反映的是词素之间的句法结构关系。在
这项统计结果中,还分别按照名词、动词和形容词列出各种组合类型的数目,希望借此说
明合成词的词性与其内部句法结构之间的关系。所谓按词性表现的构词类序,是以词性(
名、动、形等)为结构成分,以两个词性的排列顺序(形+名、动+名等)为结构方式,
统计各种排列在二字合成词中出现的数目。这些统计数据从词性的角度反映词素在构词时
的顺序关系。各种排列顺序又分别按照名词、动词和形容词进行统计,希望借此说明合成
词的词性与词素的性类之间的关系。
    在用语法性类作为词素的基本属性进行统计的同时,也考虑到了意义在构词中的作用
。只是这种考虑很粗略:只考察二字合成词字义组合变化的三种情况。即,(1)合义:二
字词的意义是两个词素意义舶组合;(2)非合义:二字词的意义不是两个词素意义的组合
;(3)介于(1)和(2)之间:合成词的意义与两个词素的意义有关系,但又不完全是两个词
素意义的组合。统计数据反映了这三种情况在名词、动词和形容词中的数目和频次。希望
借此说明合成词的词义与词素意义的关系。除此之外,还有统计数据显示词素可否成词及
其在二字合成词中的位置,其中后者与合成词词素之间的顺序有关。
    这些统计数据从不同的角度反映了汉语二字合成词的结构方式。值得注意的是这些调
查研究的目的:希望这些数据能够反映词素构词的规律,并且据此建立一种处理汉语未登
录词的有效方法。然而实际上,根据这些统计数据所表现的规律,计算机很难识别和理解
新出现的二字合成词。从目前识别和理解未登录词语的工程实践中,我们可以看到这一点

      (三)在识别和理解未登录词语的工程中的应用
    就目前所见到的文献资料而言,在词素构词方式的调查统计中得到的统计规律很少在
识别未登录词语的工程实践中得到应用。尤其是那些基于语法属性的构词规律(譬如,定
中偏正和体素联合是二字名词的主要构词方式,合计约占二字名词的90%,其中数量最多
的类序类型是“名+名”,占46.7%,其次是“形+名”,占20.6%;等等),并没有像人
们所希望的那样,能够系统地用来识别新的合成词,或者帮助判断新词的词性和词义。这
些统计规律为什么没有得到全面的应用,我们将在后面讨论。
    倒是汉语当中一些朴素的构词法则甚至字词用法个例,容易成为识别未登录词的辅助
规则。譬如郑家恒等(2001a)在处理分词碎片中的汉字散串时,利用后缀词素判断新词,
也用“名+名”做规则识别二字合成词,还利用“功能字”(注:指单音节自由语素,如
:我、的、啊,等等。)和“功能词”(注:指二字虚词,包括:代词、连词、副词,等
等。)剔除“噪声字串”。在这些办法当中,规则“名+名”的意思是,在分词碎片中任
意两个单字如果符合“名+名”的类序模式,那么它们也许构成一个汉语合成词。其成词
的概率与上面提到的“名+名”在二字名词中的百分比(46.7%)并不是一回事。
    实际上在识别未登录词语的工程实践中,还是基于“字符出现”的统计方法用得更多
一些。罗盛芬等(2003)比较了九种这类方法的应用效果,其中最有效、也是最常用的是互
信息法。基于“字符出现”的统计方法是不考虑语言学意义上的构词规律的,它只根据单
字之间结合的紧密程度及其对上下文环境的依赖程度判断成词的可能性。
    至于在语言工程中辩识未登录词的词义,就更不容易了。郑家恒等(2001b)曾做过一
个从词素意义到二字组合,推测合成词词义的实验。推测的结果是二字词词义组合的四种
类型之一(注:设二字词为x+Y,词义组合的四种类型分别是:合义(x+Y的词义与x、Y的
字义有直接关系);偏义A(x+Y的词义偏重于X的字义);偏义B(x+Y的词义偏重于Y的字
义);转义(x+Y的词义与x、Y的字义没
    有直接关系)。),而不是词义本身。“汉语语素数据库”的工作也曾按类似思路统
计过字义组合的方式,但是还没有见到在处理未登录词时应用这些统计数据的报告。
      三 汉语信息处理中构词研究的局限性
    研究合成词的结构规律,是为了识别和理解未登录词。然而从上面的分析可以看出,
在汉语信息处理领域里,关于这个问题的统计和研究与其应用目标之间存在着脱节的现象
。原因是什么呢?
    首先是可操作性的问题。从多数关于单字构词方式的统计性结论中,我们很难得到处
理未登录词时可操作的方法。以按词性表现的构词类序为例,多数统计工作都会给出这样
的结论:在被考察的n个二字合成词中,类序为“名+名”(注:还会有“名+动”“动
+形”“形+名”等其他十余种构词类序,这里只举“名+名”一例。)的有m个,所占
百分比为m/n。如果一个系统依据这些数据去判断一个双字组合X+Y是不是二字合成词(或
者更进一步:是不是名词),那么它应该首先知道X和Y的词性。可是汉语里面一个词素常
常有两个或更多的词性,这就使得应用的条件很不好确定。即使能够确定X和Y是名词性的
,X+Y是词或者不是词的概率p或q也与m/n是两码事。因为p和q是相对于汉语中出现的所有
“名+名”双字组合而言的,包括成词的和不成词的,而m/n仅仅来自那些已经成词的双
字组合。
    在关于构词规律的统计结论中,常见的还有按句法模式表现的构词方式。例如:在二
字合成词当中,动词的主要构词方式是谓素联合、述宾和状中偏正,合计占总数的90%以
上。如果依据这条结论去判断一个双字组合X+Y是不是二字合成词(或者更进一步:是不
是动词),在操作上会遇到和上面的类序问题一样的困难。除此之外,还会多一个更大的
阻碍:大多数句法模式的组成成分(述、宾、状、中,等等)是动态属性,因此X和Y是什
么成分,多数情况下不可能在成词以前预先知道。
    至于意义在构词中的作用,目前能够得到的只有合成词词义与各个词素义之间组合关
系的部分统计数据,而且都是粗线条的:仅仅考察了意义组合变化的三、四种类型(譬如
合义、偏义、转义等等)。这些组合类型本身就是难以量化的模糊概念,如果用来推测合
成词的词义,仅此一点,其可操作性问题之难就可想而知。
    可操作性方面的问题反映了研究思路上的困惑。在处理未登录词时,我们需要的构词
规律应该是合成词的形成性条件,即两个什么样的词素、怎么样才能组成一个二字合成词
。而现有的关于构词方式的统计性结论,只是两个词素成词以后的一些结构性质(主要是
语法性质),是非形成性的。所以它们虽然看上去部分解答了本文第一节基本问题中提出
的设问,却不能对识别和理解合成词起有效的作用。因此,指望从体现合成词内部结构性
质的统计规律出发,去寻找合成词形成的条件,用来识别和理解未登录词,是否可行很值
得质疑。
    必须承认,目前在构词规律方面的调查统计和研究成果,尤其是经过深加工的语料和
数据库,都是非常宝贵的资源。它们使我们能够系统地考察汉语的词素,从宏观上把握汉
语词汇系统的一些重要性质,帮助我们对汉语合成词的内部结构有一个比较全面的认识。
其重要性不言而喻。我们在这里提出疑问的,只是这些结论在识别和理解未登录词时的实
际作用。
    除了研究思路以外,在汉语信息处理领域里影响词素构词研究的还有一个问题,这就
是研究构词规律的基本观点。迄今为止我们见到的几乎都是以句法为本(或者叫以语法为
本)的观点。也就是说,认为合成词词素之间的组合关系是句法性质,在调查统计中用句
法因素(或者叫语法因素)作为词素的基本属性来概括词素组合成词的各种情况。我们在
前面分析过的按句法模式表现的构词方式和按词性表现的构词类序,就是这种观点最典型
的表现。语言信息处理学者几乎是没有多少犹豫就采用了这个基本观点,这是因为他们看
到了大量的语言事实:合成词内部存在着句法组合的结构方式(注:周荐(2003)认为,96
.57%的双音节复合性单位可以套用句法结构模式来解释或理解。),而且句法模式相比之
下更易于形式化。但是词汇学家对这个问题却持有不同的看法。他们认为在合成词内部,
字与字的组合未必能够从句法的组合规律上找出解释性来(刘叔新:1985)。认真研究这
些观点和论述,对汉语信息处理应该是有益的。
      四 “意合”的构词方式
    词素的构词规律也是词汇学家研究了很久的问题,其中备受关注的题目之一就是,词
素组合成词时的结构方式是什么?是句法结构关系还是意义结构关系?词汇学家认为,在
词素组合的过程中,起决定性作用的是参与组合的词素能否在意义上和习惯上相互搭配。
虽然绝大部分复合词可以套用句法结构模式来解释或理解,但这是它们成词以后的事情,
原因是人们在造词和造句时有相近的心理模式(周荐,2003)。合成词词素间的顺序关系
与词序不是一回事,合成词的词法结构与语句的句法结构也并不对应。因此在研究构词规
律的基本观点上,词汇学家主张“意合”的结构方式,注重意义结构关系。
    这是一种以意义为本的观点。周荐(1991)曾以《现代汉语词典》所收的全部双音节复
合词(注:双音节复合词的两个词素都是表义单字。)为研究对象,分析了每个复合词内
部的意义结构关系,试图说明它们依据什么样的结构方式由两个词素组合而成。比如,对
词素A和B(A代表事物对象,B代表事物对象修饰、限定的成分)组成的一类复合词A+B,
根据A、B的语义类别或语义关系把其结构方式分为29个次类,每个次又根据A、B更具体的
语义再分为小类。例如(注:下面的例子引自周荐(1991)。):
|
|人/动物/事物+处所 A—人,B—A所在的处所:皇宫 使馆 妓院
|            A—动物,B—A所居之地:虎穴 牛棚 蜂巢
|            A—物象,B—使用或处理A的处所: 茶馆 药铺 银行
|形状+动物/事物 A—某动物之形,B—具A特征的动物:   板鸭 带鱼 瓢虫
|      A—以动物比况物体的形貌,B—具A形貌的物体: 驼背 鱼雷 蝶骨
|工具+事物 A—人的手脚或所持用具,B—为A作用的物象: 手鼓 足球 棒球
|      A—使物体运动的原动力,B—被A驱动的物体: 气锤 风钻 水磨
|
   
    每一小类都给出了结构成分的意义类别、位置顺序以及结构关系,体现了“意合”的
构词特点,为根据词素的意义识别未登录词提供了依据。
    对造词法和构词法的分别研究(葛本仪,2001)一方面支持了上述“意合”的观点,
另一方面对未登录词处理也具有实际的意义。所谓造词法指词素组合成词的过程,解决的
是词从无到有的问题。而构词法的研究对象是已经存在的词,研究的是词的内部结构方式
,典型的是一些句法结构形式(联合式、偏正式、动宾式、补充式等等)。对于未登录词
识别来说,判断一个二字组合是不是词,是词素组合成词的过程,应该属于造词的范围,
适用造词的规律和方法。如果用构词的方法解决,就会用成词以后呈现出来的结构性质作
为合成词形成的条件。这些条件在应用时会遇到困难:对句法条件来说主要是可操作性的
问题,对语义条件来说则至少是完备性的问题。
    那么按照“意合”的观点;哪些因素会影响词素组合成词的过程呢?人们在造词时要
受多种语言要素和非语言因素的制约,譬如,语义(表义确切、合乎情理、色彩和谐),
句法(结构模式),语音(音位、声调、避免同音),风格(口语、文言)和修辞(比拟
、比喻),还有认知、文化、心理等因素。词在形成时会有一种理据作为它产生的依据或
条件,统摄各种语言要素和非语言因素的作用。要想真正解决未登录词的问题,我们需要
一个语言认知模型来描述这些理据和各种因素,体现词素组合成词的过程。除此之外,还
需要一个语言计算模型来解决形式化和可操作的问题。词汇学研究目前能够做到的只是从
意义和逻辑方面寻找造词的一部分规律,得到的结论有的不够确切,有些结论之间互不够
协调。人具有意合的语言能力,可以理解这样的结论。但对于计算机来说,即使是很明确
的规律,即使是只有一条,也还需要前提条件是已知的、可以形式化定义的,判断过程是
用可操作的有限步骤实现的,判断的结果不是模棱两可的(即问题得到了解答或者没有得
到解答)。这样的要求不容易满足。仅就词素组合成词的过程所涉及的语言要素来说,就
先得有个完整、清晰的认识,然后才能考虑形式化的定义。
    相对于从认知模型到计算模型这样一个含有太多未知因素的难题,语言信息处理倾向
于采用基于“字符出现”的统计方法来研究构词规律。然而统计语言模型仍然需要建立在
语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于它采
用什么样的语言知识作为参数(傅爱平,2003)。基于“字符出现”的模型使用的参数是
最表层的语言知识。用它来表达构词的过程,确实勉为其难,但这也是现实条件所限。
      五 不完备的构词规则及其应用实例
    语言信息处理常常在一定程度和范围内有自己的工程化、实用化目标。虽然目前构词
研究与其应用目标之间存在着脱节的现象,我们还不可能系统地描述词素组词的过程并用
它识别和理解未登录词,但这并不妨碍我们把某些构词法则、词素的性质、甚至字词用法
个例作为识别未登录词的辅助规则,在一定程度上达到工程化的实用目标(注:郑家恒等
(2001a)曾经在较小规模的封闭语料(10万字)里运用一些构词法则和特定字词识别新词
语。)。
    这些辅助规则来源于汉语词汇学多年的研究,在语言处理系统中应用之前,往往需要
经过整理和改造。譬如葛本仪(2001)曾提出过词素组合的十种情况,符合条件即可辨认为
词。其中经过处理能够形式化并且可以操作的有四种。例如:如果两个能表义、但不能独
立运用造句的词素A、B组合在一起,形成一个新的结构,表示新的意义,并能独立运用造
句,那么A+B是词。对于这种情况,我们可以预先建立“表义的粘着词素表”等字表,辅
以前后边界限制,再加上累积概率的计算,就可以控制这种情况的主要辨认条件。下面是
根据类似的构词法则改造而成的辅助规则,可以在分词碎片(自动分词后剩余的字串)中
辨认未登录的二字词:
    辨认框架: X A+B Y (X是A的前一字,Y是B的后一字)
    需用资源:L:表义的粘着词素表
         P1:非构词字表(充分语法化的单音节虚词、构形词素、单音节副词/代
词等)
             (例如:“的/们/很/最/我/你/他/它/这/那/是”等

         P2:弱构词字表(不足语法化的单音节虚词)
                (例如:“比/连/用/像”等)
         Q:特定字表(单音节介词、连词、助词、方位词(分前位/后位))
    辨认条件:
    一)过滤性约束条件:当A∈P1或B∈P1,则A+B不是词
    二)过滤性约束条件:当A∈P1∪P2且B∈P1∪P2,则A+B不是词
    三)筛选性约束条件:当A not∈PI且B not∈P1,则
    1)X∈Q(前位)且Y∈Q(后位),即为框式特定字 则A+B是词
                  (如X=“在”,Y=“上/下/前/后/里/外/中”

    2)A∈L或B∈L;X=Y=“。”(注:“。”代表标点符号。下一条规则中的“#”代表
已成词的词素。)   则A+B是词
    3)A∈L或B∈L;X=Y=“#” 则A+B是词
    4)A∈L或B∈L;X∈P1∪P2 且Y=“。”  则A+B是词
    5)A∈L或B∈L;X∈P1∪P2且Y=“#”   则A+B是词
    6)A∈L或B∈L;X=“。”且Y∈P1∪P2  则A+B是词
    7)A∈L或B∈L;X=“#”且Y∈P1∪P2   则A+B是词
    8)A∈L或B∈L;X∈P1且Y∈Pl      则A+B是词
    概率累积机制:按正/负权重累积计算A+B成词的概率。例如,两个过滤性条件的权
重是负100%;筛选性条件是的权重是正值,大小不等。
    这一组规则在我们的“汉语新词语辅助识别系统”(注:关于该系统的设计和实验结
果,详见骆彬,《汉语新词语辅助识别系统的研制》,2003年中国社会科学院研究生院硕
士学位论文。)中作为“字符出现”技术的补充得到了应用。这个实验系统采用了多种技
术的混合策略,这组规则是其中规则技术的一部分。对1270万字语料(《人民日报》1999
年1至6月)进行识别二字新词的开放测试,得到了多种技术交互作用的测试结果:召回率
为68.28%,准确率为32.74%。研制这个新词语辅助识别系统的目的,是使用计算机自动从
电子出版物中提取候选新词,供词典编纂者筛选,用于新词条的收录。从事词典编纂的专
家认为,他们在从候选词表中挑选新词语的时候,噪声字串的干扰低于70%就可以接受,
如果准确率能达到50%以上则比较满意。目前这个系统识别的准确率刚达到可接受的程度
。显然,这些规则不能完整地反映汉语合成词形成的过程,也不是一种系统化的辨识方法
,它只对未登录词的识别起部分作用。考虑到这种规则需要不断改动,我们把规则的执行
方式设计成开放式的,便于规则的增加、删除和修改。
    至于未登录词的理解(推测词义和词性),目前还没有工程化的办法。词素构成合成
词,更多的是习惯使然、约定俗成的组合。词汇学家虽然对词素义与词义的关系有所研究
,但多是原则性的。例如构词中语素共义(义项所概括的意义)和语素变义(合成词中语
素所出现的意义差别)的关系(注:共有八种关系:一致关系、种类关系、关联关系、借
代关系、比喻关系、部分语素义模糊、部分语素义消失、词的全部语素义消失(符淮青,
1996)。)仅有这些原则,还远不能根据词素的意义推测合成词的词义,更何况在语义资
源和形式化方面也存在着巨大的困难。至于推测词性,在以意义为本的观点看来也是不可
行的,因为即使是从成词以后的性质来看,合成词的内部结构(句法或形态结构)与合成
词的词类之间也没有什么对应关系(戴昭铭,1988)。关于词素的语法性类与合成词词性
之间关系的统计数据,更难以在语言工程中得到有效的应用。
      六 结 语
    本文提出了汉语信息处理中关于词素构词方式的基本问题,考察了目前对于这个问题
的研究和应用情况。认为现有的统计性结论在未登录词处理中对于揭示单字构词的规律缺
乏有效的作用。究其原因,一是这些结论体现的是词素组合成词之后的结构性质,而不是
组合过程中的规律;二是这些调查统计遵循以句法为本的观点,而合成词的结构方式主要
是意合。在词素组合的过程中,起决定性作用的是参与组合的词素能否在意义上和习惯上
互相搭配。但是目前的研究还远不能系统地揭示意合的规律,大多数语言要素和非语言因
素也难以形式化地定义。在语言信息处理中,基于“字符出现”的统计语言模型使用的参
数是最表层的语言知识,还不足以说明词素组合成词过程当中的问题。因此在语言工程中
,我们还只能运用不完备的构词知识去识别未登录词。本文最后给出的一组规则及其应用
结果就是一个例子。
【参考文献】:
    [1] 戴昭铭,现代汉语合成词的内部结构与外部功能的关系[J].语文研究,1988,(4
).
    [2] 冯志伟.确定切词单位的某些语法因素[J].汉语语言与计算学报,2001,(2).
    [3] 博爱平.机器翻译中汉语动结式生成的过程和困难[J].中国语文,2003,(1).
    [4] 符淮青.词义的分析和描写[M].北京:语文出版社,1996.
    [5] 葛本仪.现代汉语词汇学[M].济南:山东人民出版社,2001.
    [6] 亢世勇等.汉字义类信息库的研究与实现[J].汉语语言与计算学报,2001,(2)
.
    [7] 刘叔新.汉语复合词内部形式的特点与类别[J].中国语文,1985,(3).
    [8] 刘叔新.汉语描写词汇学[M].北京:商务印书馆,1995.
    [9] 罗盛芬等.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学
报,2003.(3).
    [10] 王东海.汉语同义语素编码的参数和规则[J].中国语文,2002,(2).
    [11] 尹斌庸.汉语语素的定量研究[J].中国语文,1984,(5).
    [12] 俞士汶等.现代汉语语法信息词典详解(第二版)[M).北京:清华大学出版
社,2003.
    [13] 苑春法等.基于语素数据库的汉语语素及构词研究[J].世界汉语教学,1998,
(2).
    [14] 苑春法.汉语构词研究[J].语言文字应用,2000,(1).
    [15] 郑家恒等.新词语自动识别方法研究[A].自然语言理解与机器翻译[C].北京:
清华大学出版社,2001.
    [16] 郑家恒等.二字词词义组合推理方法的研究[J].中文信息学报,2001,(6).
    [17] 周 荐.复合词词素间的意义结构关系[A].语言研究论丛(第六辑)[C].天津
:天津教育出版社,1991.
    [18] 周 荐.汉语词汇研究史纲[M].北京:语文出版社,1995.
    [19] 周 荐.复合词构成语素的选择[A].中国语言学报(第7期)[C]1995.
    [20] 周 荐.双字组合与词典收条[J],中国语文,1999,(4).
    [21] 周 荐,论词的构成、结构和地位[J].中国语文,2003,(2).

【作者简介】:傅爱平,女,中国社会科学院语言研究所研究员,主要从事应用语言学研究。 
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-2 12:17 , Processed in 0.073799 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表