湘里妹子学术网

 找回密码
 注册
查看: 3108|回复: 0

关于建构现行汉字信息属性库的设想

  [复制链接]
发表于 2009-11-6 08:44:01 | 显示全部楼层 |阅读模式
作者:杨同用 来源:http://www.yyxx1.sdu.edu.cn/index.php

   文字是记录语言的书写符号系统。作为表意文字系统中的汉字,因其具有表音表意的双重属性,也就具有了书面语言的特征。汉字一字一音节,同时又具有一定的意义,即表示语言中的语素或词,这使得汉语中的字与语素(有些语素是成词语素,即本身可成词)大体上是一一对应的,因而我们就可以从汉字的形、音、义、性、能等各方面描述汉字的属性,而对这些属性的描述无疑会有利于汉语的信息处理。

  有关汉字属性的词典已有一些成果问世,它们的出版对汉字研究、汉字教学以及中文信息处理等工作都有一定的作用。我们认为,对汉字属性的描写,应尽可能多侧面,多角度,有些问题只需在理论指导下进行,有些问题则需进行深入研究,在占有大量资料的基础上得出相对可靠的结论,最终目的是服务于汉字教学、研究与中文信息处理等工作。

  根据我们的设想,对汉字属性进行描写,首先应对汉字字数进行限制。汉字究竟有多少,谁都说不清楚,自古至今的字书越来越多,许慎《说文解字》收小篆9353个,到了清代的《康熙字典》就达47035个,《汉语大字典》收字已达56000个。这么多的汉字不必都进行属性描写,因为字库收字过多过滥,不仅占用相当大的空间,查检也很不方便。确定哪些字进入字库可根据汉字使用频度.计算机问世以来,已出版了《汉字频度统计》、《现代汉语频率词典》、《现代汉语字频统计表》等字频统计工具书,这都可以作为确定字库字种的参考。字数确定后,就可以从形、音、义、用、频、性、能等各方面进行分析统计。形的部分包括字形、笔顺、组成部件数、能否充当部件、能否作部首、有无相对的繁体字、有无异体字等。这部分内容操作起来相对简单,对字形的描写可根据《印刷通用汉字字形表》、《简化字总表》以及《第一批异体字整理表》等文件,笔顺可根?quot;先横后竖,先撇后捺,从上到下,从左到右,从外到内,从外到内后封口,先中间后两边"的基本原则,参照《印刷通用汉字字形表》的字序加以确定。关于汉字字形,现在不是没有一点争议,但既然有国家标准,我们就将采用这一标准。至于笔顺,则应根据国家标准确定每个汉字的笔顺。

  部件是由笔画构成但又大于或等于笔画的基本构字单位。汉语的独体字由笔画直接构成,而合体字则由部件构成,有的部件本身还包含着小的部件,所以部件又可分为一级部件,二级部件,三级部件等。对汉字进行分析,可看它包含几个部件,独体字如"一"、"斗"、"天"当然只能是一个部件,而合体字"好"、"吕"、"吃"是两个部件,"掰"、"众"、"昭"是三个部件,"照"、"湖"、"摄"是四个部件,"礴"是五个部件。部件是构字单位,由笔画构成,所以一个汉字只要是一个整体作为另一个汉字的构字部分,就认为它能充当部件,否则就不能。如"人""好""昭"都可充当部件,而"所""整""掰"等则不能充当部件。有些部件具有字形归类的作用,以它作部件的汉字能够形成一个类聚,在字书中是各部的首字,可依此查检具有这个部件的汉字。具有这种性质的汉字,就认为它能作部首,如"女"、"口"等,否则就不是部首,如"笔"、"表",尽管它们也是偏旁。

  汉字的整理工作历史上进行过多次,解放后曾先后推行《第一批异体字整理表》(1955)、《汉字简化方案》(1956)、《简化字总表》(1964)和《印刷通用汉字字形表》,汉字的形体得到进一步规范。但是,繁体字、异体字在有些情况下,在一定群体中又需辨析或使用,所以汉字属性库就需列举现行汉字的繁体字、异体字,如"袄"的繁体字是"襖","葱"的异体字是"蔥"。因为我们建的是现行汉字属性库,所以古汉字的各种形体就可以不再涉及。

  从字音的方面描写汉字,可看它能否儿化,可否轻读,是否多音字,多少同音字。有的字词典对收录的汉字在这方面做了注释,可以参考。我们可根据普通话读音情况和我们的语感,对照一些工具书,主要是语音方面的工具书,分析其能否儿化,可否轻读。汉字在记录多音节词时,尤其是作多音节词的后字时,其音变情况易于描写,如有的必须儿化或轻声,有的不能儿化或轻声,有的两可,但作为一个单字,因它可构成不同的词,只能说明有无儿化或轻声的情况。需要注意的是,各类工具书对儿化和轻声的注音分歧相当严重。蒋宗霞(2000)曾就轻声问题对比了《普通话水平测试大纲》(吉林人民出版社,1994.11)和修订版《现代汉语词典》,发现有些本应是轻声词的,《现代汉语词典》却未以注明,如"知道"、"自在"、"意见"、"吩咐"等。另外一些工具书,如《普通话轻声词汇编》、《北京话轻声词汇》所收轻声词数目也大相径庭。在目前实验语音学还未对轻声作仔细分析研究,尚未确定一个数值上相对恒定标准(包括音强、音高、音长甚至音色)的情况下,还需要我们根据工具书和语感,作进一步的调查分析。

  一个汉字是否多音字较易判别,只需查阅字表或工具书,而该汉字有多少同音字,也只需查一下有关相应工具书便一目了然,当然做这项工作首先需要确定进入汉字信息属性库的汉字的数量,有多少同音字,当然只能是在这个库里的汉字的同音情况。如果汉字是多音字,则一般每个读音都会有一批同音汉字。

  从语音特点来看,汉字中还存在复音字、合音字,如"孔"、"精"、"惊"就分别是"窟窿"、"机灵"、"激灵"三词音节的复合,而"叵"、"孬"、"甭"则分别是"不可"、"不好"、"不用"的合音,这虽然只是个别现象,但毕竟是汉语实际情况,在汉字属性库中应如实反映。

  汉字是语素文字,一个字一般代表一个语素,所以对字义可从字的意义虚实、单义多义、同义字、反义字等角度来考察。汉字与语素基本上是对应的,语素是表义单位,当然就有虚实的问题。我们认为,凡是能成实词的成词语素字,或表示具体实在意义的非词语素字是实义字,如"走""民",而只能构成虚词的成词语素字或表示附加意义的非词语素字是虚义字,如"了"、"阿"。当然有的字因其义项的不同,有时表现出实义,有时表现出虚义,如"子"、"老",这也应在我们的属性库里有所表现。

  同义字、反义字分别指意义相同相近或意义相对相反的一组字,汉字代表汉语的语素或词,所以同义字、反义字与同义词、反义词的范围是交叉的,同义字、反义字可以是同义反义的词,也可以是同义反义的语素,还可以是同义反义的词对语素,反义字是成对的,而同义字却可以是一批字,如"看、视、见、瞧、瞅、窥、瞥、瞰、望、眺"等所表意义虽略有差异,但都与"用眼看"有关。

  关于字频,许多人已进行了统计。应当说所搜集语料越全面,规模越大,统计也就越准确,当然各种语料还应确定一定比例。如果对各种语体进行分类统计,工作量增加了,利用价值也会更高。

  从性质上来看,可考察汉字是否记录语素,能否成词,定位情况以及可否作词缀。字与语素大体上是相对应的,但也不尽然。双音节语素中,有的字就只代表汉语中的一个音节而没有具体意义,如连绵词、叠音词、译音词中的字,"玻璃"中的"玻"、"璃","坦克"中的"坦"、"克"。"坦"和"克"本来应是音义结合体,但用在这里就只代表一个音节而不是语素。译音用字虽有一定的范围,比如一个音节往往习惯于用一两个汉字,如译音字常用"巴""尼"、"基"、"姆",而很少用"八"、"泥"、"鸡"、"母",但由于它们大多不是译音专用,作为一个单字,就不能认为它不是一个语素。

  排除了不能作语素的汉字,其余汉字能否成词还可再区分。有的汉字能单独成词,如"人"、"学"、"好",也有一些汉字不能单独成词,如"民"、"习"、"子"。作为语素,前者叫做可成词语素,后者叫做不成词语素。不成词语素只能与其他语素联合构词,而成词语素既可单独成词,又因其活动能力强,也可作为构词语素与其他语素构成合成词。

  合成词中的语素还有个定位与否的问题,根据这个情况可将语素分为定位语素和不定位语素,前者如"第"、"子"(在确定的意义上),后者如"人"、"桌"。

  从运用来看,有些是古语字,有些是方言字。据统计,常见于现代汉语书面语料的汉字不过几千字,但有些大规模的字书收字却高达几万,实际上其中大部分是古代曾用过而现今已不用的古字或方言用字。我们这里所说的古语字和方言字指的不是这两类字,它们分别指现代汉语中还在运用着的古语词、已被普通话吸收的方言词中的专用字。古语字如"之""陛""丞",方言字如"尴""尬""垃""圾"等。

  有些事物汉语中是没有的,随着中外交流的需要,表达这些事物的概念就要求汉语有相对应的词语,除了意译方式之外,就是音译。实际上音译词不仅限于事物概念,运动类、性状类概念也有一些外来词。而且音译词也不一定表达汉语中原来没有的事物,由于多种原因,有些音译词还能代替表达这一概念的汉语原有的词或短语。因为音译词所用字多数情况下并不表达意义(个别情况下也表示意义,如haker:黑客,这实际上既是音译又是意译,属于翻译技巧问题),所以原则上说,汉语中的每个字都可以作为音译用字,但实际上我们发现,音译用字只限于一小部分汉字,一般一个音节只习惯于用一两个汉字,这样我们就可以根据统计资料把这些字找出来进行标注。由于它们常用作译音字已成为习惯,所以就可以作为其属性在属性库中加以反应。从现在的趋势看,译音词越来越多,对它们加以标注,有利于译音用字的选择,而对计算机中未定义词的处理更有实际意义。

  从性能上来看,我们还可根据一定的数据来看汉字是否常用字,常用级情况,包括汉字在多少语料、什么性质语料中的出现频率均可考查,不少人在这方面已进行了统计。另外,我们还可从是否人名用字,是否地名用字,是否可做企业商标名等方面考查。关于人名用字情况,专用的很少,我们主要看哪些通用字可用于人名,哪些字多不用于人名。这个问题不少学者已从文化学、民俗学、社会学等方面作过研究。有人认为,人名用字与意义联系紧密,这是有道理的。"慧""勤""美""敏""捷""杰""鹏"等,人名中很常见,而"拙""傻""懒""丑""鸡"则很难见到,"zhuo"这个音倒有用于人名的,但却是表卓越、优秀义的"卓"。进一步我们还可研究男女人名用字也不相同,人名成了传统文化、社会习惯对男女性别分工的一个反映。在用字上,男性多用勇敢、刚强、彪悍等意义的字,而女性多用温柔、聪敏、艳丽等意义的字。实际上男女用字在语音上也有区别,比如男性多用开口度较大的音,女性多用开口度较小的音,如都是表示聪明义的,"敏""灵"多用于女性,"聪""哲"多用于男性。从地域上来看,国内和国外(华人)、北方和南方、一个地区和另一个地区的人名用字也有不同,比如男性用"根"字,广东、香港一带用于双字人名的后字很常见,而其他地区则很少。另外,不同历史时期人名用字也有不同。地名用字实际上也只集中于一部分字,企业商标名称的用字范围也极为有限,这些问题都值得深入研究并进行标注。研究这些问题不光对信息处理有好处,而且对取名、命名都有一定参考价值。

  汉字的属性是多方面的,以上我们分别从形、音、义、用、频、性、能、用等诸方面作了一些探讨,对有的问题作了初步的研究。希望这对于构建汉字属性库能具有一定的价值,而汉字属性库的建成无疑对汉字研究及中文信息处理有重要的意义。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-6 09:23 , Processed in 0.070043 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表