湘里妹子学术网

 找回密码
 注册
查看: 2875|回复: 0

元语言研究的三种理解及释义型元语言研究评述

[复制链接]
发表于 2006-1-13 13:37:45 | 显示全部楼层 |阅读模式
作者:苏新春
来源:《江西师范大学学报》2003年第6期


提要:“元语言”最早是由哲学界提出的一个命题。在后来的发展中,形成了语义哲学界与对象语言相对立的表达语言、语言学词典学中与被释词相对的释义语言、及自然语言处理界中表示认知义原的三种不同的主要研究类别。论文从释义元语言的角度出发,对《朗曼当代英语词典》的英语释义元语言,及国内信息处理界进行的汉语“定义原语”所作的工作及其它一些研究进行了对比性分析。

关键词:元语言 释义元语言 词典学 语义学

一.“元语言”的提出与三个领域的不同理解

“元语言”最早是由哲学界提出的一个命题。20世纪波兰逻辑学家塔斯基(Alfred Tarski)认为人们当判断一句话是真还是假时,往往会把这句话的客观真实性与这句话存在的真实性混淆在一起。因此,在区别语言与语言所指称的事物的关系时,就有必要把真实语言与形式语言区分开来。真实语言是与客观对象相联系的语言,在与元语言相对时称之为对象语言。而用来称说对象语言的则是元语言。自塔斯基提出元语言后,引起了人们广泛的思考,并逐步扩大到了许多有关的学科。就其主要来说,形成了三种不同类型的元语言理论。

1.语义哲学界的元语言说

语义哲学界是元语言理论的发源地。塔斯基关于元语言理论的理解产生了广泛影响。一本有影响的哲学著作对搭斯基的元语言理论作了详尽的介绍。

(塔斯基认为)对每一种有穷阶的形式化的语言来说,一个形式正确和实质适当的关于真句子的定义能够在元语言中如下构造出来:只使用一般的逻辑表达式,语言的本身的表达式,以及属于语言构词法的术语,即语言学表达式的名字和这些表达式之间存在的结构关系的名字。[1]

他在论述到“X是真的当且仅当P”这一关于“真”的定义时,就认为这一推演形式,及这一推演形式中的X、P都是属于元语言的范畴。“P”指的是一个句子,“X”指的这个句子的名字。在这里的元语言中,“真”定义成立的关键依靠的是等值表达式,而不是“X”或“P”所指称的客观事实。

一部有影响的哲学辞典《西方哲学英汉对照辞典》介绍了哲学界关于元语言的一个经典解释:

第一语言的表达式的名称,以及这些表达式之间关系的名称,都属于第二语言,后者叫做元语言。[2]

哲学界的元语言是相对于真实语言而言,它没有了真实语言所包含的现实世界的那些具体、庞杂、混合的内容,而只是真实语言的抽象语言表达形式。元语言有着抽象的、形式化的、纯粹的、超越客观所指对象的形式语言特点。后来的哲学研究者对元语言的提出给予了很高的评价,认为它克服了长期以来将思想、存在、语言三者混为一谈的不足:

我们现在回头来看,语言之所以能成为西方哲学的最后边界,是因为西方哲学从一开始就将对于‘存在’(古希腊语on,英语to be)的思考视为自己的核心课题,而on或to be具有双重意义:它是哲学意义上的‘存在’,又是语言学意义上的系词‘是’。前者是从‘对象性语言’层面对事实的陈述,后者是从‘元语言’层面对思想的表述。在前一种情况下,它是一种对象性的陈述或描述;在后一种情况下,它是一种元语言性质的判断或断定。于是,‘事实-思想-语言’打成一片了,或曰混为一谈了。西方哲学这种以‘言’代‘有’、以‘思’代‘在’的理性主义传统,确实异常强大,以至于现代人文主义最杰出的哲学大师海德格尔,最后也未能彻底逃出‘语言的牢笼’,以至承认‘语言是存在的家园’。不仅如此,当今西方哲学似乎还有某种越陷越深的迹象。[3]

为了能谈论陈述,就必须使用陈述的名称或陈述的描述,也许还有像‘陈述’那样的词,即理论必须用元语言、用人们用以谈论语言的语言。而为了能谈论事实和有意义的事实,就必须使用事实的名称或事实的描述,也许还有像‘事实’那样的词。一旦我们有了元语言,类似这种我们能用以谈论陈述和事实的语言,就容易就陈述和事实之间的符合作出断言。”[4]

哲学界的元语言理论在语言学界有着很大影响。一些有影响的语言学著作或辞典所引述的看法大都沿用了这一看法。《语言与语言学词典》对metalanguage的解释是:

元语言,纯理语言。指用来分析和描写另一种语言(被观察的语言或目的语[Object language]的语言或一套符号。[5]

有的则兼采众说,而把哲学界的看法放在首位。如《语言学百科词典》:

元语言,又称“纯理语言”、“符号语言”。与“对象语言”相对。指描写和分析某种语言所使用的一种语言或符号集合。用汉语来说明英语,英语是对象语言,汉语是元语言;用英语来说明英语,英语既是对象语言,又是元语言。在辞书编纂和语言教学中用于释义的语句称元语言;在语言研究中为描写和分析语言成分特征使用的一套符号和术语,如[±Noun]([ ±名词])、[±Abstract]([ ±抽象]、[±Animate]([ ±有生命])等,也属元语言。[6]

2.语言学词典学中的元语言说

语言学特别是词典学所谈到的元语言虽然也受到语义哲学中元语言说的影响,但他们所指已经有了很不相同的含义,指的是用来解释词典所收词语的定义语言——本文称之为释义元语言。[7]

Wierzbicka曾有过一段很精彩的论述:

1)任何语言的词典中都存在不可定义的词,它们的数量较少,自成系统,它们的作用是用来定义其它的词语。2)不可定义的词是可列举的,语言中的其它词可以用它们来定义。3)不可定义的词在不同的语言中虽然各有所不同,但却是相互对应的,在语义上是等价的。因此,不可定义的词在各种语言中可视为“普遍词汇”。[8]

我们可以看到,定义语言的某些特点与语义哲学有着共通之处,例如它们是有限、可穷尽列举的,在不同的语言中是共通的、等价的等。但二者之间又有着很不相同的东西,关键在于,语义哲学中的元语言是脱离事实语言的,属于形式语言的一部分,它是高于事实语言,被抽象出来的语言表述格式,而释义元语言则是事实语言的一部分,是其中通用、高频、中性的那一部分。

用作解释别的语言成分的释义元语言说法,在我国语言学界、词典学界有相当大的影响。这两大学科的学者一般都是从这个角度来阐释元语言的理论。

辞书中解释词条的语言,是元语言之一。这种元语言的整体观包括元语言的整体简化,即只使用民族共同语的有限的常用词。[9]

所谓“元语言”,是英语metalanguage的汉译,指的是用来分析和描述语言的语言。有人觉得“元语言”的泽法不知所云,宁愿接受“纯理语言”或“前设语言”的译法。总之,这是一种“工具语言”或“人为语言”,而不是日常应用的自然语言。一般词典释义就经常要运用“元语言”以及与此相关的多种符号和格式。有的词典家认为,借用“元语言”释义,令读者增加一层负担,未必有利于读者掌握词义,倒不如直接运用自然语言交待词义,更便于与读者“交流”。于是就有了前文所介绍的“不要释义”的尝试。[10]

3.自然语言处理界的元语言说。

在自然语言处理界,如何让计算机能自如地处理繁复无比的语言一直是一个“引无数英雄竞折腰”的课题。而试图把语言形式化、规则化,并最终能做到自如地生成语言,则是人们探索的一条基本思路。在语法、语音的形式化、规则化完成以后,语义又放在了人们的面前,这是最难处理一部分。要使语义做到形式化、规则化自然会产生出原始语义的想法,这就是“语义原语”的来由。Yorick Wilks对语义原语下过这样的定义:

A“PRIMITIVE”(or rather a set of primitives plus a syntax etc.)is a reduction device which yields a semantic representation for a natural language via a translation algorithm and which is not plausibly explicated in terms of or reducible to other entities of the same type.原语(或者说一个原语集加上一个句法)是一个语义消减装置,自然语言可能通过一个翻译算法转化成用原语进行的语义表示,而原语本身不能再消减成或解释成其它同类实体。[11]

这里关于语义原语的说明显然是吸收了语义哲学中元语言的思想,如它有最小性,不能被再分解;有生成性,能够由原语再加上某些规则来做新的表示;有形式语言的特点,能够由翻译算法、代码等来指代自然语言。不同之处就是它是由计算机来认知与操作完成的。

以上三种元语言理论:语义哲学中具有形式语言特点的元语言说、词典学中的释义元语言说、自然语言处理中的语义原语说,对元语言的“元”显然有着很不相同的理解。在它们眼里,元语言各有着不同的性质和特点,不同的功能与作用。由于词典学是一门很注重实践的学科,收词释义是词典的基本内容,以解释词语为己任的释义元语言研究也就成为元语言研究中富于实践意义、具有良好的可操作性、具体性研究做得最充分的领域之一。释义元语言又是词汇学中具有基础意义的一块重要内容,在研究中要运用到词汇的性质、词语的分类与分层、常用词、词义的义域、词义的系统性等众多理论。

二.“元语言”正在成为对众多学科产生影响的普遍理论

人们早就认识到在一种语言的千千万万个词语中,它们的地位并不是完全相同的,而是存在着使用的频偶、年代的久暂、意义的广狭、影响的大小、再生的强弱、涵蕴的丰寡、识别的难易等诸多差异。这些差异会直接影响到具体词语在词汇系统中的地位。这也就是人们总是乐于对词语总汇进行分类逐层、条分缕析研究的根本原因。元语言理论的提出,就是在这样一种求知背景下做出的探索努力之一。

在当代,“元语言”已是一个相当热闹的话题。人们已经愈来愈多地把元语言看作是一种语言词汇系统中位于最核心的位置,最富于解释力,能成为其它语言成分的诠释工具的那部分语言。笔者在2003年6月29日在“新浪网站”键入“元语言”,索得资料多达553条,而用搜索引擎google,竟索得1005条。发现人们在谈论众多学科问题时已经把元语言作为一个底层理论的术语根据自己的理解来随时加以了引用。

如教育心理学之对元语言:

从目前已有的研究看,汉语儿童学习字词和阅读的同时,也发展了各种元语言学意识,其中一些元语言学意识的发展与儿童阅读能力发展有很密切的关系。[12]

培养学生的“元语言能力”……谈到“教养”之基础的语文素养,使我联想到大西道雄教授的一番论述。他首先把“有教养”的人界定为这样一种人:“立足于语言感悟,能够深入地思考、准确地判断和行动自立的人”,也可以说是“能够借助语言同他人交流,同时,基于相对的自我认知拥有同他人共同生存的能力的语言主体。”然后强调了构成语文素养之核心的要素,就是“思维语言”。或者模仿或者根据指令作出行动的所谓“机器人”是同这里所说的“有教养”的人风马牛不相及的存在。而使人超越了这一点的,便是“元语言思维”。[13]

“元语言意识”指儿童对语言、文字一般结构特征的认识和操作。[14]

文学创作之于元语言:

元语言在文学中已非纯粹语言学上的解释,从雅可布森到巴特,文学批评成为对文学而言的一种元语言,于是任何学科都有属于自己的元语言,到了拉康,元语言泛化、相对的意义使之取消了自身的存在,融进了后现代。我依然承认元语言的存在,如同承认文学批评的意义。元语言可以是意义生成的,也可以是对日常意义的毁灭,或者两者兼有。[15]

编程语言之于元语言:

XML是一种结构化描述语言。它随着因特网技术和电子商务的发展成为HTML的后继者。它的优势在于,它不仅是一种标识语言,更是一种可以定义描述对象结构的元语言。XML文档自含结构,使得系统间交换的信息可以互相"理解。”[16]“根据定义,XML文件是合乎规范的SGML文件,是SGML的一种简化形式,也是一种能够定义其他标记语言的元语言。[17]

摄影家之于元语言:

“语言学转向”对于摄影意味着,照片无论如何“逼真”地记录了现实,也不能因此便把它与现实等同起来。因为在照片与现实之间,还隔着一层并不透明的东西--符号(或曰语言,一种“光影语言”以及其“元语言”。[18]

语篇学者之于元语言:

通过对不同语篇体裁的语篇进行比较与对比,我们不仅可以从微观上把握一类语篇的内在结构及其组织机制,并能从宏观上了解某一语篇体裁发生的社会文化背景或语境。换言之,语篇体裁创造了对一类语篇进行整体描述的元语言(metalanguage)。[19]

医学者之于元语言:

医疗卫生方面的越来越多的信息需求使疾病分类问题越来越突出,似乎上个世纪的诊断词汇快速膨胀,没有相应的精确的元语言与之匹配以描述诊断术语之间的关系。尽管一些元术语如疾病、紊乱、综合征等已经被广泛使用,但其确切含义方面仍有很多模糊,描述疾病分类学关系的元语言也仍缺乏或未被应用。[20]

这不由得不让人深深感到,“元语言”正在走出哲学界、语言学,正在成为一个具有泛学科意义的普通术语。尽管它在不同学科有着不同的含义,但其共同特点似乎都具有了以下的意味:具有超现实的意义,不含有使用通常语言时一般会含有的指称别的事物的杂质;是对其它语言表达形式的解释者或构成者;在该学科领域中具有底层理论建构的意义等。显然,所有的这些学科对元语言的使用都是后续性的,而它却极大地受到语言学关于元语言理解的影响。

三.《朗曼当代英语词典》的释义元语言

在语言学和辞典学的范围,释义元语言成为人们关心的焦点。对释义元语言的研究,西方语言学进行得相当充分,其中又以英语为最。

《朗曼当代英语词典》用近2000个常用词解释56000个词条,威斯特和因迪科特的教学词典(第4版)用1490个词解释24000个词条,法国古根海姆两卷本词典元语言包括1374个‘成分词汇’和55个下定义词。下定义词大约指的就是属词。[21]

要说到英语词典学界的释义元语言研究,就不能不说到迈克尔·威斯特和他的《新方法英语词典》。[22]威斯特毕生从事英语教育工作,早年他运用自己的心理学知识及行为主义理论模式,通过简化词汇、改变词汇分布结构、运用常用词并逐渐加入新词的方法,来设计新的阅读方法,编写新的阅读教材,取得了明显的教学效果。威斯特对阅读方法的研究导致了他对词汇控制理论的研究,当时,词汇控制研究是最热门也是最有争议的外语教育研究领域。参加讨论的四位著名学者桑代克(E.L. Thorndike.)、帕尔默(H.E.Palmer)、奥格登(G.K. Ogden)还有威斯特,都就词汇频率和外语学习词汇的有用性等问题展开了辩论。威斯特的最显著成果之一就是他1935年他编写成功的《新方法英语词典》(New Method English Dictionary)。

威斯特凭借自己丰富的课堂实践经验,以外语学习者的实际需求为准绳,严格限制词典的收词量,把它们局限在外语或第二语言学习者最有可能接触的范围之内,并尽当时所能,尽量收录当时的一些新词。[23]

其中一个最引人注目的就是威斯特在该词典的释义中只用了1779个单词,后来又减为1490个。威斯特控制词典释义词汇的目的在于减少学生的麻烦,其结果是写出的释义简洁明了。人们称赞威斯特的NMED具有划时代的意义,他创立了一种新的词典类型:英语教学词典。

在威斯特的影响下,后来陆续出版了第二代、第三代的英语单语学习词典。其中最为成功的例子是《朗曼当代英语词典》(Longman Dictionary of Contemporary English)(1978)。

“词典编写的最基本原则之一,是释义所使用的词语总是比被阐释的词语简单。”(《总论》)《朗曼》继承了个别词典试验过而中断多年的做法:“一切定义和用例所用词语被限制在两千个词左右,这些词语是在充分研究若干英语词汇频率表和教学用语表之后加以精选的。在这过程中,还特别参考了迈克尔·韦斯特的《英语一般词汇表》。”(《总论》)为了确保只使用两千个词的“中心”意义和较能为人所理解的派生词,编者采取了严格的措施,包括利用计算机进行检测,以及所有用例都出自编者手笔,而不拘于引证。[24]

《朗曼》的2000释义词语广为人知,以致后来成为定义语言的代名词。那么这2000条释义词语是如何产生的呢?这主要靠的还是英语教师的语感,来源于经验。

威斯特凭借自己丰富的课堂实践经验,以外语学习者的实际需求为准绳,严格限制词典的收词量,把它们局限在外语或第二语言学习者最有可能接触的范围之内,并尽当时所能,尽量收录当时的一些新词。[25]

可见,这里提取出来的定义语言是实际语言使用经验的产物,它因而必定具有常用、稳定、中性、基础、词义覆盖面广、现代性等特点。它们本身就是自然语言中的一部分。在《朗曼》后来版本的变化中,虽有个别词语的增删,但其2000条释义词语的基本架构一直没有大的变化。

那么,这2000条词语是怎样的一些词语呢。1978年版的《朗曼》后面附了释义用词表,经分析,发现通常说的2000条只是一个概数。准确地说是2169条,其中有前缀13条:dis-、en-、fore-、im-、in-、ir-、mid-、mis-、non-、re-、un-、vice-、well-,有后缀41条:-able、-al、-an、-ance、-ar、-ate、-ation、-dom、-ed、-en、-ence、-er、-ess、-ful、-hood、-ible、-ic、-ical、-ing、-ion、-ish、-ist、-ity、-ive、-ization、-ize、-less、-like、-ly、-ment、-ness、-or、-ous、-ry、-ship、-th、-ure、-ward(s)、-work、-y、-ese。

在剩下的2115条中,有下面几种情况比较特殊:

A.词义词性不同的同形词收入的有7组:bear(n)-bear(v),lead(n)-lead(v),March-march(v),May-may(v),Miss-miss(v),row(n)-row(v),wind(n)-wind(v)。

B.收入意义相关词形稍有变化的两个词且并列同处一行的有11组:actor,actress;arch,archway;arrange,arrangement(s);Buddhist,-ism;child,children;Christian,Christianity;clothes,clothing;humour,humorous;sympathy,-etic;type,typical;violent,-ence。这些词并列作为一组是因为它们之间在词义与词形上有着密切的派生关系,其差异来源有的是性别的不同,有的是词性的不同,有的是单复数的不同,有的是本义与引申义的不同。如果严格地按词形不同则属不同词语的话,把它们拆开来分别排列,则会多出11个词。

C.与上一类相似,也是意义与词形密切相关的词语,但不是以逗号隔开而是用括号标示放在原词后面的,共有43组。其中的原因除了上述各种外,还有一类就是固定搭配的结构:according(to)、affair(s)、alcohol(ic)、ash(es)、atom(ic)、attract(ive)、backward(s)、bacteria(-ium)、consonant(sound)、fashion(able)、forward(s)、gradual(ly)、her(s)、Hindu(ism)、indoor(s)、infect(ious)、jaw(s)、jealous(y)、Jew(ish)、lung(s)、moment(ary)、moral(s)、our(s)、outdoor(s)、ox(en)、plastic(s)、provision(s)、recent(y)、relative(s)、ruin(s)、scale(s)、scarce(ly)、sex(ual)、sock(s)、sport(s)、stair(s)、stocking(s)、their(s)、tropic(s)、vowel(sound)、worthy(of)、wrap(up)、your(s)。

D.复合性词组的有5例:all right、god & God、no one、owing to、postage stamp。

为了更好地了解《朗曼》的释义词集的构成情况,把它与《朗文多功能分类词典》作了一个对比。《朗文》是目前英语学习词典中最受欢迎的分类词典之一。它的收词规模不大,但都是在学习英语时要求掌握的通用、常用、基本的词语,共收了以图示义和以文示义的词条17061条。原书末尾说“共收录词汇、词组、习惯用语近30000个”,这里面其实是包括了许多在“立目”词语后面罗列的相关词条。《朗文》根据“人类的社会生活为中心围绕着社会中的人”这一基本原则建构了语义分类系统,共分出14大类,129中类和2284小类。由于《朗文》的这些性质,把《朗曼》释词与之对比,可以更好地看出《朗曼》释词的语义分布及词语选择的标准。[26]为了方便在两个数据库之间进行联表查询,对《朗曼》2169条释义略去前缀、后缀与同形词三类,其余的2108条,与《朗文》进行了对比,发现存在于《朗文》的有2003条,《朗曼》有而《朗文》无的有105条。[27]

《朗曼》2000释词具有以下特点:

首先是通用性词语。《朗曼》释义词基本都在《朗文》所收的17000条词语的范围内,而后者正是供语言初学者使用的词典,它针对语言学习者而精选词语的做法是得到学术界公认的。定义语言的通用性,与学习词典的词语通用性,在这里正好发生了很贴切的自然吻合。

其次是分布面广。《朗文》所收词语对整个英语词汇来说虽然不很充分,但在某种程度上来说却是完整的。因为要全面达到英语学习与使用的交际水平,它就必须要照顾到语言表达与实际使用的各种需要。因此,所挑选出来的词语必须是全面的。而且《朗文》的分类正是体现出了一种语言的词汇整体使用功能的特点。以“人类的社会生活为中心,围绕着社会中的人”,这正是人类社会,也就是语言社会的生成与分布的最大特点。《朗曼》的定义语言正好均匀地分布在语言社会的各个方面。

再次是常用性词语。《朗曼》定义语言的另一个特点就是常用性,必须通俗、易懂才能更好地完成对其它语言的说明与定义任务。在《朗文》中,同一小类的词语排列在前的词语大都就是常用词。如A20“动物的幼仔”收了“young、offspring、progeny、issue、litter”,《朗曼》释义词young位于其首。A54“狗与同类动物”收了“dog、puppy、hound、sheepdog、mongrel、cur、bitch”,《朗曼》释义词dog位于其首。

最后是充分利用了英语词汇以派生构词法为主,构词能力强的优势,收录了数十个常用的构词缀,这样可以在有限的释词范围内较灵活地搭配重组,再造出新的适用词语来。但这种做法可能是太看重“2000”数字的封顶而不愿突破。把一些比词低一级的构词单位放到释义词语中,可视作是一种变通的做法。既做到了释义词语的“有限性”,又不妨碍它的扩张性与组合能力。

长期以来,《朗曼》的有限释词的做法一直得到人们的赞同,2000释义词也保持着相当的稳定性,与它以上的这些特点是分不开的。《朗曼》释义词语的选用很大程度借鉴了威斯特的词频统计结果,而威斯特的选词主要依靠的是长期的英语教学经验。结果证实,好的释义元语言一定要有很充实的语言使用经验作基础,也就是说要以“实用”为第一测量标准,而这正是语言最本质的特点——交际功能的实现。

四.张津、黄昌宁对汉语定义原语的提取

清华大学计算机系智能技术与系统国家重点实验室的张津、黄昌宁二先生1996年提出了国家自然科学基金重点项目研究报告:《从单语词典中获取定义原语方法的研究及现代汉语定义原语的获取》,这是汉语学界第一份关于汉语释义元语言研究的报告。他们的做法是以有完整释义的汉语词典为封闭材料,通过数学模式来计算释义词与被释词之间的语义关系,从而得出最低数的释义词语,形成了含3857条词的释义元语言集。他们的工作是这样的:

1.对象语料

使用的是《现代汉语词典》中所有复音词目的定义与《现代汉语通用字典》中所有单字词的定义。[28]其所收录词语及义项容量如下:


词型数
义项数
单义词数
多义词数
多义词平均义项

单字词
6517
15602
2997
3520
3.581

多字词
44386
52263
37822
6564
2.200

合计
50903
67865
40819
10084
2.682


2.理论与方法

使用的数学理论和模型是“图论”。

根据这种形式化描述我们可以把词典转化成一种用有向图表示的方法,并为从词典中获取原语的问题建立一个数学模型,将这个问题转化为一个图论的问题。[29]

图论是有着广泛应用领域的数学理论。它把研究对象都看作是一个有“顶点”和连接顶点的“边线”组成的“图”。图论就是研究这样的“顶点”与“边线”构成的“图”的科学,其实也就是研究“顶点”与“边线”的关系。“图”用G表示,V表示“顶点”,E表示“边线”,图论最简单的公式就是“G=[V,E]”。与V关联的边的条数叫做“顶点V的次数”。由于图中每条边都有两个不同的顶点,在计算次数时,每记一条边同时都要相应地记其端点两次(两个顶点)。“图论为任何一个包含了一种二元关系的系统提出了一个数学模型。”[30]

图论在它的理论论述中有这样两点尤为值得我们注意:1.“一个‘图’中各顶点之间相互位置的摆法一般来说对我们并不重要,我们关心于一个‘图’的只是它具有哪些顶点;其次,图中所划出的各条边的长短、曲直我们也不予关心,我们关心的只是哪一个顶点与哪一个顶点之间有或者没有边相连。”2.“图论中不允许出现没有端点或只有一个端点的边。这是因为……一个图中的顶点可以代表各种事物,而边则代表事物之间的某种特定的关系,因而可以想像,不可能出现没有事物的‘关系’,也不可能只有一个事物而没有其对立面的‘关系’。”[31]

张、黄氏在图论原理下采取了下面的具体做法:

对于一部词典,可以用下面的方式将它唯一的对应于一个有向图。

1. 对于词集中的每个词w2,在图中有且仅有一个节点n与它对应;[32]且图中的每个节点n,在词集中有且仅有一个词w与它对应。

2. 对于词集中的任意两个词w1,w 2,(其中w1对应于n1,w2对应于n2)。若w1的定义串中出现了w2,则图中从n1到n2有一条有向边;否则,图中从n1到n2不存在有向边。[33]

这样,充当释义词的机会愈多,其实就是充当“边”的端点的机会就愈多,也就有愈多的“边”集聚在它身上。转换成释义语言,也就是充当释义词的频率愈高,释义词的特征愈突出。这就是运用图论来提取释义元语言的最基本演算原理。应该说这是有很大合理性的。

3.统计结果

经使用以上方法,共得出“定义原语”3856条。研究者对这3856条释义词作了义类分布调查,参照依据是《同义词词林》(下面简称《词林》)。义类标注及分布调查成为研究者对统计结果所作的唯一加工及评价。研究者的说明是这样:

我们对定义原语集中原语义类分布进行了统计来观察由属于哪些义类的词或概念可以构成一个定义原语集。我们选用梅家驹等人主编的《同义词词林》中给出的义类代码。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 05:27 , Processed in 0.095636 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表