古代汉语极高频字探索

Artvine · 发表于 2003-11-16 21:59:05

【原文出处】《语言研究》
【原刊地名】武汉
【原刊期号】200103
【原刊页号】69～84
【分类号】H1
【分类名】语言文字学
【复印期号】200112
【标题】古代汉语极高频字探索
【标题注释】本文曾在第五届全国古代汉语学术研讨会（2000年8月，广州）上宣读，受到较广泛关注和好评，也受到一些同行质询；大家都是好意，借此一并致谢。另，与会前后，文稿得到沈家煊、何乐士、郭锡良等先生指教，笔者不胜感激，并遵嘱进行必要修改、补充。
【作者】郭小武
【作者简介】郭小武中国社会科学院语言研究所 100732 北京市中国社会科学院语言研究所
【内容提要】本文分为四个部分：第一部分介绍网络资源利用和字频分级情况，第二部分展示古代汉语100极高频字的统计数据，第三部分从词性、语义、字音及字形各方面探讨极高频字词的分布特点，第四部分附录从古到今六部著作中的极高频字。本文所做极高频字统计，所列根词字集、极高频根词字集，以及对于极高频实词的语用解释，对于词类封闭性、开放性的分析，对于字音、字形分布所体现的“经济原则”的论证等，均有一定新意。
【关键词】古代汉语/极高频字/根词/经济原则
【正文】
　　中图分类号：H109.2;H124 文献标识码：A 文章编号：1000-1263(2001)03-0069-16
　　一引子
　　1.1 网络资源利用
　　随着计算机技术的迅猛发展，互联网上的中文文献将会越来越多。这是一个前辈学者无缘一见的宝库，而今摆在了我们面前，我们没有理由把自己关在门外。
　　作为汉语、汉字研究人员，对于浩繁的网上资源，除了一般的阅读、学习外，还有一个收集、分析、研究的任务。虽然网上的电子文本常常流于粗糙，校对不精，还存在内码不一、格式不一、出处不详、缺字严重等问题，但它所具备的共享性及便于查找、引录、对比、统计等优点，却是书本文献无法比拟的。正是基于这样的考虑，笔者两年来广泛收集了上百种有代表性且较准确的古代中文文献（注：大部分从国际互联网上下载，小部分接受友情馈赠。材料来源用到的主要网址有： http://www.sinica.edu.tw/ftms-bin/ftmsw3; http://chinese.pku.edu.cn/wenxzl.htm; http://www.bookbig.com/culturel.html.），
并相应进行了统一内码、统一格式及部分重校等基础工作。此外，我们还亲自制作了一些简单实用的程序（注：所用主体程序是郭小武《中文词语检索系统for Word 97》(V1.0)，中华人民共和国国家版权局1999年10月21日，软著登字第0003834号。），建立了规模庞大的词库，这些都为研究工作提供了很大方便。我们相信，新的材料形式和新的处理手段，应能为科研成果的推陈出新带来更多更好的机会；最少从理论上说该是如此。
　　本文是笔者近期所做字频、词频系列研究中的一个分支课题。
　　1.2 频级情况介绍
　　由于字频是个连续体，因而分级总带有人为性。《汉字信息字典》既分“字级”，又分“频级”。“字级”有三，分别对应于《国家标准》基本集(GB2312-80)的一、二级字和未收字；“频级”凡五，采取郑林曦、高景成主编《汉字频度表》的最常用字(1-560)、常用字(561-1367)、次常用字(1368-2400)、不常用字(2401-4170)、偶用字（4171以次）。其实，“字级”是“频级”的折射，二者都是对于字频的分级，也都带有人为性。
　　极高频字即最常用字。用较大规模频率统计方法对古汉语文献最常用字的情况进行摸底、分级和探讨，本身是个新的尝试。但因论文容量有限，不大可能讨论很多的字，所以本文拟以其最常用的100字作为主要讨论对象。本文把这100字分为“极高频A级”10字，“极高频B级”20字，“极高频C级”70字。
　　1.3 极高频字的提取和考察目标
　　关于极高频字的提取，需要简单说明三方面的情况：其一是所依据的材料；其二是所采用的方法，其三是所统计的结果。材料上，本文以典型性为基本要求，同时注意保证量的充足。方法上，本文以类型分析为基本框架，在对单部著作进行统计的基础上进行综合的统计、分析。本文所统计结果是从有关文献全部字频中筛选出来形成的，程序本身无差错，差错率随文本质量变动。
　　本文的统计、提取和研究，一是为了摸底，求其然；二是为了解释，求其所以然。我们尝试解答以下几个问题：在古汉语里，究竟哪些字属于极高频字？为什么它们能够成为极高频字？它们的分布和构成有什么特点？它们在断代的汉语系统里充当着怎样的角色？它们在历时的汉语系统里经过了怎样的演变？
　　二极高频字的统计
　　2.1 “专书－综合”极高频字的统计与说明
　　2.1.1 “专书－综合”极高频字统计简表（表1）
　　附图

　　2.1.2 B、C两级字的补充
　　表中"B30"及"C100"分别是“极高频B级”与“极高频C级”的最后一字，上面均有省略，按降频补充如下。
　　《左传》B级：于晋於君有侯为月师王使齐大楚无郑将伯国诸；C级：焉如夫与伐是矣可及宋卫叔孙何我乎氏十二故命年吾盟三夏者归从陈会请能则必若谓来礼杀臣乃出春秋事成入自冬行在所卒先死遂至民告言吴知文季奔弗对又许。
　　《论语》B级：有矣为於君乎可如与言无则问知何吾仁夫道焉；C级：行谓礼必孔斯三能见学哉事是闻公未路我好在已所得小天民乐邦亦使大下欲贡诸政从文食善後德求恶对信死然仲由非一过出足虽居夏己及父予尔张友色季成今立。
　　《诗经》B级：无人维如既尔矣王君言在天心是何什止为方载；C级：予民思女南大来匪斯公四亦山行归莫也命乐且此自忧可曰月日采则将靡与岂德中百文国孔车风实生见东者酒或谓下胡周小鱼而哉侯弟＠⑦云皇乎福式士父衣所食明。
　　“综合”B级：有于晋君於为侯无王月师大使我齐楚如矣郑将；C级：与可是夫伯国何焉诸乎者及伐孙叔宋卫命十氏吾盟则二三言年故归在从谓夏能行来必礼陈事民自出请知天会所若成乃臣杀入文死春亦冬秋先至卒告见遂父未德既。
　　2.1.3 次数与频率说明
　　《左传》、《论语》、《诗经》用字数据详见表2-2。
　　综合以上三书，带标点总字数310904，不带标点总字数242983，标点占22.85%；三书所用单字共统计到4213个。
　　本文之所以采用“不带标点总字数”作为频率计算的分母，看得见的原因是多标少标见仁见智，出入可以很大。深一层的原因是，如果把“带标点总字数”作为频率计算的分母，就应该相应地统计各种标点的频率，而像逗号、句号等必会出现在极高频的高位。（注：标点符号在书面语言里具有不可替代的特殊作用，对于语气和节律的表达尤为重要。常用的标点符号，如逗号、句号等，频率比任何字词都要高得多，因而也很值得研究。本文仅提供一个动态的标点符号所占的总比例，未能分门别类进行统计，是个遗憾。）
　　如表1，《左传》中出现最多的是“之”字，排1号，共7344次，占不带标点总字数196043的3.746%。《论语》中出现最多的是“子”，《诗经》中出现最多的是“之”，不赘述。综合以上三书，“之”字出现最多，排1号，共9133次，占三书不带标点总字数的242983的3.759%；这也就是说，此三书每100字中“之”平均出现近4次。
　　表中第10号字下的“上小计”是指“极高频A级”10字出现次数与频率的累计；B30号字下的“上小计”是指“极高频A级”与“极高频B级”共30字出现次数与频率的累计；末行的“上总计”指A、B、C三级100极高频字出现次数与频率的累计。三书综合100字累计频率达到52.332%，表明最常用的100字对于三书的覆盖率超过了一半（注：按《现代汉语字频统计表·社会科学综合频度表》，前100字累计频率为40.97。），而此一数据是只有经过仔细统计才能真正弄清楚的。
　　2.1.4 作品类别与高频分布
　　《现代汉语常用字表·说明》在谈到“分布和使用度”时说：“统计汉字在不同学科的分布，可以衡量某个字的使用分布是否均匀。如某个字在单一学科中使用频率较高，但在其他学科中却很少出现，这说明它的分布是不均匀的。与此相反，有的字不仅使用频率较高，而且能在多学科中出现，这说明它的分布是均匀的。选取分布均匀的字，可以避免选字的片面性。”（注：见《当代中国的文字改革》658页。）可见“使用度”是结合分布对频率的再调整。
　　表1中，《左传》是历史类作品，《论语》是哲学类作品，《诗经》是诗歌类作品，三类作品用字情况有所差别，尤其诗歌类与前两类差别明显，说明需要考虑用字的分布。本文设有“综合”，用于对分布进行调整。至于“使用度”的方法，本文不予专门分析。
　　下面拟扩大材料规模，先分类统计，再综合统计。
　　2.2 “分类－综合”极高频字的统计与说明
　　2.2.1 “分类－综合”极高频字统计简表（表2-1）
　　2.2.2 B、C两级字的补充
　　历史类B级：人者有公大於十下侯君天国年于与上三将二使；C级：是所臣无秦故夫齐至中太则事乃楚相得一可言诸自五军帝行月矣皆立兵百民四如欲今及出何能後时见此入赵阳汉从后死晋日东令成闻必长在地知周文乎六安数谓。
　　哲学类B级：为则有於无故天所君下可是知矣能王公民国夫；C级：大得行言与乎此一谓非必何上事道然见生臣使若三用如死至治今欲相在明主自十中利时日地善五吾物羲二後令百出未焉皆食圣将文亦成恶士闻足心身德四长先虽。
　　诗歌类B级：人何于彼心既维君如为天王言尔矣在与於可思；C级：日自归是行乎将所来方山南女中此只下止载曰予大风莫夫远民命四乐忧见流也公上知斯时生皇亦明离月吾水从德怀周车长东且采独文者国则靡岂哀未高美百焉实。
　　附图

　　综合类数据是以下讨论的主体，这里兼出A级10字，分行排列如下：
　　A级10字：之不以也而为子其曰人
　　B级20字：者王有於公大则天无下君所故国是十与上夫可
　　C级70字：三使侯臣矣将得二言于事一行能民年至中知此何相齐自秦乎五见必太如乃谓今欲诸道皆非百死然时生楚出後日四帝在立月兵军令用地成从若明闻入及文长吾我未
　　2.2.3 文献材料数据表（表2-2见下页）
　　2.2.4 补充说明与一般观察
　　从表1和表2-1的对比可以看出，不但不同类作品的用字彼此存在差异，即使是同类作品之间也存在一定差异。如，“表1”《左传》极高频A级10字降频是“之子曰不也公以而其人”，表2-1“历史类”极高频A级10字降频则是“之不以为而曰子王也其”；表1“综合”栏极高频A级10字降频是“之子不曰也以公而其人”，表2-1“综合”栏极高频A级10字降频则是“之不以也而为子其曰人”，频率次序均有相当调整。这表明规模的扩大意味着偶然性的减小，而扩大了规模的极高频字统计更具典型性、代表性。至此可以较有把握地回答古汉语里究竟哪些字最为常用的问题，它们就是“之不以也而为子其曰人”等。
　　按表2-2，我们统计了23种作品，带标点总计3342963字，不带标点总计2714387字，标点占18.8%。在这23种电子版繁体汉字作品中，共出现单字8162个。8162个单字，减去仅出现1次的冷僻字2954个（约占36.19%），所余5208个单字（约占63.81%），大致就是先秦两汉汉语中的“通用字”。这5208个“通用字”对于2714387字文献材料的覆盖率达99.891%。（注：5208÷8162≈0.638的计算使我们想到了0.618的“黄金率”，两者的接近恐怕不是偶然的，按“黄金率”及我们的统计进一步推算，则可用5208×0.618≈3219或略向上浮动的数量作为先秦两汉汉语中的“常用字”。经初步验证，前3219字对于古汉语2714387字文献材料的覆盖率约为96.56%。）
　　三极高频字的分布
　　3.1 词性分布
　　古汉语的词汇系统是以单音节为主的词汇系统，而一个汉字往往就是一个词，因此可以说，古汉语里的极高频字往往就是古汉语里的最常用词。同样顺理成章的是，古汉语里的最常用词承担着古汉语里最常用的表达任务，它在语法上的折射则是最常用的语法范畴、语法类型。这为通过文字形式探讨语法问题提供了较高程度的可能性：尽管其间的区别也会带来一定偏差，运用时需要谨慎折算处理，但在大方向上仍不失其独有的利用价值。
表2-2
　　　　作品　　有标点字数　　无标点字数　标点比率　单字量
　　　　今文尚书　20695　　　　16357　　　　20.96　　 1597
　　　　左传　　　250799　　　 196043　　　 21.84　　 3238
历　　　国语　　　92635　　　　71953　　　　22.33　　 2592
　　　　战国策　　162946　　　 129742　　　 20.38　　 2649
　　　　礼记　　　122576　　　 98202　　　　19.89　　 2973
　　　　史记　　　609856　　　 499013　　　 18.18　　 4721
史　　　汉书　　　905946　　　 744924　　　 17.78　　 5315
　　　　［类综合］ 2165453　　　1756234　　　18.90　　 6830
　　　　周易　　　 30221　　　 21847　　　　27.71　　 1357
　　　　老子　　　 6622　　　　5477　　　　 17.30　　 795
诸　　　论语　　　 21604　　　 15962　　　　26.12　　 1345
　　　　墨子　　　 93962　　　 77227　　　　17.82　　 2399
子　　　商君书　　 24332　　　 20257　　　　16.75　　 1187
（周　　孙子　　　 7424　　　　6085　　　　 18.04　　 768
　易　　庄子　　　 79567　　　 64464　　　　18.99　　 2898
　附　　孟子　　　 44790　　　 35289　　　　21.22　　 1876
　前　　荀子　　　 90995　　　 74899　　　　17.69　　 2509
　）　　韩非子　　 128032　　　106337　　　 16.95　　 2663
　　　　管子　　　 154663　　　126559　　　 18.17　　 2764
　　　　晏子　　　 54528　　　 43975　　　　19.35　　 1994
　　　　吕氏春秋　 123518　　　101005　　　 18.23　　 2954
　　　　论衡　　　 246904　　　200748　　　 18.69　　 3183
　　　　［类综合］　1107162　　 900131　　　 18.70　　 5523
诗　　　诗经　　　　38501　　　30978　　　　19.54　　 2810
歌　　　楚辞　　　　31847　　　27044　　　　15.08　　 3103
　　　［类综合］　　70348　　　58022　　　　17.52　　 4250
总　　［共23种］3342963字　　 2714387字　　　18.80%　　 8162字

　　3.1.1 极高频字（词）主要词性分布表（表3）（注：此注系据何乐士先生的建议而补加。何先生建议的要点大致如下：（一）如果一个字的用法分属两个或两个以上词类，宜尽量给出各自所占相对比例；（二）如果字词所属非主要词类所占比例很低，低到什么程度予以省略，宜说明其下限；（三）如果字词所属词类在学术界有不同看法，表文取舍宜有说明。何先生的建议是正确的，而我原来的处理也不是没有自己的道理。我原来担心的是，表制得太大不易排，文写得太细不易读，因而取了尽简的态度，并认为用其概率也不失为一种求其大体的途径。有鉴于此，下面拟在保留原有设想的基础上，对有关内容予以细化。（一）比例问题。这里把表3“词性分布”的序号下标改为十分比下标，制成按比例改造并加以简化的“极高频字（词）主要词性分布表”（表3附1（见下页））。（二）下限问题。如“表3附1”，如果字词所属非主要词类所占比例很低，低到十分之一以下则予以省略。（三）归属问题。有些字词所属词类在学术界有不同看法，表文取舍情况大致如次：“者”“所”归助词，不归代词；“自（+v：自＋责）”归副词，不归代词；“见（+v：见＋杀）”归副词，不归助词；“皆”一般归副词，不归代词。另外，“诸”为“之于（於）”“之乎”合音时，表文姑按“之”字归代词。“形数”是形容词、数词的合称，两者的语法功能相似，具有很大共性。）
　　附图

　　3.1.2 词性分布说明
　　表3词类行次从实到虚排列。这个行次本是依据通常顺序（名、动、形、数、（量、）代、副、介、连、助（、叹））排列的，但我们做过数据统计后发现，古汉语词类的实虚顺序大致可按“词均次”、“词均比”（见表）的递增顺序排列，因而进行了尝试性的大胆调整：合并形容词和数词；代词后移。至于量词和叹词，它们在古汉语里出现的次数本来就很有限，涉及极高频字的就更少；偶尔涉及到的，量词姑且计入名词，叹词姑且计入助词。
　　对于极高频字（词）的词性分布，表3的处理方式是：当一个字有多种用法且分属不同词类时，如果其间具有源流关系，则依次下标序号（也有例外，特别是名、动之间，颇有从动到名发展的，但标号次序不变）；如果其间没有历史渊源关系或关系不很明确（如彼此为假借用法），则在后面加下标"j"。如：“之”在古汉语里主要有代词、助词两种用法（动词等用例较少，仍照例统计，但不标字目（注：这样在一定程度上会影响到后面统计数据的精确度，但不至于对序列造成破坏。）），其间或有一个从代词到助词的派生过程，可用“之[,1]→之[,2]”表示。“以[,1]→以[,2]”（介→连），“为[,1]→为[,2]”（动→介）等仿此。副词“其”与代词“其”之间是否存在“其[,1]→其[,j]”的源流关系，不易论定，代词作“其[,j]”。
　　表3右五列是通过部分抽查概算出来的词性分布统计数据（原则上通过微调精确到百位）。“类次数”表示极高频字（词）在各词类中出现的次数，合计1125800次。这1125800次是词化后的统计：只要多音节词中含有极高频字，此处就给予统计；如果多音节词中含有两个或两个以上的极高频字，则不予重复统计。这样，经折算后，此表中统计到的词次数要比前文表2-1中统计到的字次数少140320次。由于古汉语的多音节词中，双音节词占绝对多数，所以可大致理解为在古汉语极高频范围内，就动态文本而言，双音节词占12.646%，单音节词占87.354%。次一栏“类比例”是“类次数”的百分比，合计为100%。
　　按照“类次数”或“类比例”所得八类词的降次／降频排列是：名＞动＞助＞形数＞副＞介＞代＞连。
　　“单音节词”表示每类中所含单音节词的成员数，因一个字可能分属多个类，故合计为147个，比100极高频字多出47个。这也意味着极高频字的语法－语义负荷很重。“词目数”降次排列是：名＞动＞形数＞副＞代＞介＞连＞助。
　　“多音节词”分类统计单音节词构成多音节词的个数（为静态的常见同性多音节词统计，原则上精确到十位），合计略少于2240个。其降次排列顺序与“词目数”大同小异，所异者是连词的个数略多于代词和介词。
　　“词均次”是“类次数”除以“单音节词”所得结果，表示某词类中平均每个单音节词所出现的次数。某词类的“类次数”多，或许是因为其成员多，名、动就是这样。由此可见，“类次数”是绝对值指标，主要体现的是某类词整体的负荷量；“词均次”是相对值指标，主要体现的是该类词中每个成员作为个体的平均负荷量。提出“词均次”的直接目的是便于从个体观察整体。
　　“总均次”不是“词均次”的综合平均数，而是1125800除以147所得的结果，表示147个词在1125800词数的语料中平均每个出现7659次。以此为界标，其上属实词（平均出现次数少于7659）、下属虚词（平均出现次数多于7659）、实词部分有接近于“总均次”的形数、副词，处在过渡状态，是半实半虚的类型。“词均比”是“词均次”的百分比，“总均比”0.680%的数值同样可以作为实词与虚词的界标（参看图1）。
　　按照“词均次”或“词均比”所得八类词的增次／增频排列是：
　　名＜动＜形数＜副＜代＜介＜连＜助
　　这个顺序与“单音节词”数目的降次排列相同。经与现代汉语等统计数据相对比，证知“单音节词”降次排列可有一定波动（虽然波动不大，就像“多音节词”中连词会稍多于代词和介词那样），而“词均次”或“词均比”增次排列则更趋稳定，也就是说，有更大的必然性。有鉴于此，我们认为，“词均次”或“词均比”增次／增频排列的顺序应该就是汉语词类（古今大致一致）从实到虚的本然顺序。
　　明确汉语从实到虚的本然顺序有着重要意义，对于语法化研究尤其重要，因为它在事实上为语法化研究找到了一个可靠坐标。下面把表3的数据转换成形象直观的图示（图1），以求醒目。（注：关于表3和图1，何乐士先生建议给出一个助动词的独立位置和数据，沈家煊先生建议给出一个曲线图，两位先生的建议是中肯的。）
　　附图

　　图1 极高频字（词）主要词性分布示意图
　　图示以词框的高低表示相对频级的高低，以词框的宽窄表示字词绝对数量的多少，以各词框右部的虚实程度、宽窄程度表示各类词开放、封闭的性质及大概的可扩展度。图右的标注是图示基本含意的文字说明。
　　3.1.3 词性分布论析
　　如图1所示，联系到频级情况，可从外延、虚实、功能诸角度对词性分布加以探讨。图1表明，频级、外延、虚实、功能几方面具有相当的统一性；这种统一性在典型意义上是倾向性，在本质属性上就是规律性。通过量变的排比以寻求质变的答案，此一宏观问题可望得到较好解释。
　　各词类的外延情况差别很大，底层的名、动外延开放，高层的代、介、连、助外延封闭，中层的形数、副词半开放、半封闭。假如我们只统计极高频A级的话，高层词类的词在频级上将会更加突出，而其下层词类的词将“望尘莫及”；又假如我们统计到全部字词的话，底层词类所占比例将会稳定增加，而其他词类的增幅则会相对小些。为什么呢？原因就在于类型的高封闭性与词均的高频率性紧密相关；比较而言，类型开放意味着成员繁多、总体频率不低、词均频率不高（但在极高频A级也占可观的比例，那是由词汇的离散性造成的）。名词、动词的频率情况显然属于后者。在一种语言的整个词汇系统中，封闭性强的词类一般地总是对应于相对高频的词类，而相对高频的词类一般总是虚的，总是此种语言中语法要点的最重要的承担者、体现者。从封闭、开放或虚、实角度看世界，各种事物无不如此，可见语法体现了物质世界的普遍法则。
　　从极高频字词看古汉语的语法要点，判断、否定、疑问、指代以及关联诸范畴均居于显著地位。以判断为例，涉及助词“者、也”，副词“乃、非”，动词“为、曰”等，其中的“者、也”甚为典型；“乃、非”和“为、曰”等虽非虚词，但也都因为具有特殊封闭性和与表达判断范畴关系密切而有别于一般的开放性实词。（注：已故王力先生(1985)曾认为系词是半虚词，代词也是半虚词，副词是半实词。他的认识很值得重视。现当代的古汉语虚词著作一般都收有代词、副词以及与表达判断范畴有关的一些词，值得肯定。）再以否定为例，涉及到的字词有“不、无、非、未”等。
　　封闭性强的词类处在高位，开放性强的词类处在低位，彼此对立明确，不相混淆，由此证明词类虚、实与词类封闭、开放之联系的紧密。代词语义很虚；通常认为代词属于实词，现在看来这种归属不一定合适，至少对于古汉语不一定合适。代词的语义是漂移的，所指一般并不固定；它们虽可单独作句子成分，但却很少单独使用。如果把代词归入虚词，则词类的虚实与词类的封闭性、开放性就基本一致起来了，而这对于古汉语语法的易于分析把握未尝不是一件好事。形数、副词属于半封闭、半开放的类，可相应地认为是半虚半实的类。古汉语形数、副词的主要功能一是前置构成偏正结构的偏的部分（定中的定或状中的状），二是后置作述语（相对于主语）或补语（相对于述语），且罕有独用者，可见半虚半实也确实合乎它们的自身特点。
　　从词类功能看，作为实词的名、动主要起支撑、解释作用，可以合称“骨干词”；作为虚词的代、介、连、助主要起调节、配合作用，可以合称“调配词”；处于骨干词和调配词之间的是半实半虚的形数、副词，它们具有双重身份，兼有双重功能，但又没有两极词类那么典型、充分和完整。这便是古汉语词类的“梯级”分布和“链式”结构，层层相叠，环环相扣，并由此构成一个统一体。
　　3.2 语义分布
　　高频虚词应语法要点而产生，高频实词应语用热点而产生；实词之能够进入高频行列，主要的动因在于语用，在于某些语义在语用条件下的高度激活。上节讨论了极高频字词在词性分布上的表征，本节期望能观察到极高频字词在语义－语用分布上的表征。这同样是个值得认真探讨的宏观问题。
　　3.2.1 字频变化与义项分布
　　我们起初设想在义项数量的静态分布上可以看到一个明晰变化，然而事实否定了这一设想，因为义项随频率变化而变化的量甚小，在小范围内几乎观察不到。请看后面表4的“主要义项分布”与各“频级”的对应情况，其静态部分并没有明显的衰减轨迹（平均4.81个）。放大观察范围后，其衰减轨迹才有所呈现。《汉书》字频排在第1001-1010号的10字是“荧舞损帅鸟佐豫祥纳怪”，排在第2001-2010号的10字是“砰懦脑陌岷妙袤脉潞ｌù＠①”，排在第5001-5010号的10字是“ｊｉé＠②拮＠③＠④醮轿＠⑤峤ｊｉǎｏ＠⑥皎，其平均义项数量虽渐近于1（单一、单纯），但变化幅度仍嫌不够明显。再看这些低频字的词性分布，可发现它们大致已全属实词。由此可知，上面说的词性分布对于频率变化的反应是敏感的，而这里说的义项分布对于频率变化的反应是不敏感的；从不太敏感点入手探讨问题，似乎并非理想途径。
　　统计义项的动态分布是个功德无量的工程，但这首先需要对基础文本进行全面的义项标注，一人一时实难做到，此处只好从略。为探讨字频变化与义项分布的有机联系，下面尝试引入“根词”、“极高频根词”概念，以便转换一个新的视角。
　　3.2.2 极高频字与根词
　　词汇系统可分为基本词汇和一般词汇两部分，基本词汇是词汇系统的基础。基本词汇又可分为根词和非根词两部分，根词占据基本词汇的核心位置。根词，也叫核心词，以词义方面具有超强的稳定性、构词方面具有超强的多产性、语音方面具有超强的凝固性为主要特征。
　　可通过两种途径获取根词集：一种是经验型的，主要依据词义的原始性、普适性、单纯性、基础性等，以单音节词为主进行筛选；一种是统计型的，直接从多音节词汇中提取出现次数最多、时空局限性最小的一些单音节词。这两种途径所得结果并不完全一致，差异主要表现在对“人体词”（如血、肉、耳、目等）、语法词（如人称代词、判断词、处所介词等）的处理方式不同：前者允许常用“人体词”、语法词进入根词系统，后者不允许任何构词能力不强的词进入根词系统。
　　西方学者斯瓦迪士(M.Swadesh)在19世纪50年代从印欧语言中先后挑选出200个、100个最稳定的词作为基本词（核心词），是经验型的，我国当代学者陈保亚先生(1996:187)认为“有一定的普适性”。陈先生曾设想“通过语素的组合指数来确定词汇的阶”，但并未实现。
　　笔者所见有限，未注意有学者提出系统的汉语根词集。为便利与极高频字进行对比，我们新近从自备的12万条古今兼容多音节词词库中提取出一个300根词集，但未对时空局限性作严格排查。前100字如下（降序）：
　　子人不大一老生心水小地无中国有工下学天上行动出风分
　　家手事面主花高力文自作发口外长门成开山相物後白来道
　　经年民合用理平重金火光公流时马本为日方情海军明眼得
　　车起三名言数政空色好意义教产定通神实正路新前见同身
　　下面是“极高频字主要义项分布、极高频字与根词重合字表”（表4）。
　　附图

　　拿100极高频字与我们新得前100根词（统计型的）在主要义项上与斯瓦迪士100基本词（经验型的）（注：见陈保亚(1996)附录一。）进行对比，可从中发现一些重要信息。极高频字与统计型根词重合38字，与经验型根词重合19字，差异明显。两种类型根词在此自身重合只有8个（不人大一见日地长），数目太小。如果把两种类型根词综合起来，可得49字与极高频字重合，但这实际上等于把根词对比的数目扩大了，也不恰当。为稳妥起见，下面的分析主要基于统计型根词。
　　相对而言，极高频字与根词似乎取向很不相同：极高频字代表了词汇中最常用、最活跃的部分，含有较大时空变数；根词代表了词汇中最基础、最稳定的部分，含有较小时空变数。既然取向这么不同，两者的重合比例何以会那么高呢（假设在数以万计的汉字中做两次随机的百字抽取，其重合概率也只有百分之一左右）？换句话说，有38字兼备极高频字和根词的双重性，原因何在？其实，通过排除定位的方法就可以很快找到问题的答案：所有频率不高的字被一概排除了，但构词众多的字不在其中；所有构词不多的字也被一概排除了，但高频实词一般不在其中；经此排除，所剩下的字已很有限。再从正面看，高频实词本身就倾向于多产，多产的根词本身就倾向于高频，两者显然并不矛盾，也不游离，而是处在相互交叉状态；为倾向性所决定，交叉的部分还不会太小——交叉部分的字便是具有高频与多产双重性的字。由此可见，所谓“取向很不相同”，实际上也只是观察事物的着眼点很不相同，并不意味着矛盾或游离。
　　可以给极高频字同根词重合的部分起个专名，叫做“极高频根词”。极高频根词的主体由极高频字中构词能力较强的实词组成；极高频根词不包含极高频字中的虚词和时空局限性强的实词（如君、臣、齐、楚等）。极高频根词的成功离析和界定，可使我们对极高频字和根词各自的构成特点有一个更准、更细的认识。
　　3.2.3 极高频根词的历史走势
　　极高频根词的历史走势是个大问题，这里无法深入讨论，只是附带论及。请看下面的系列图示。
　　附图

　　图2-1取古汉语高频字和根词各300个，分三级对比两者的重合情况。
　　纵坐标分别三级高频字，1-100高频字与1-100根词重合38个（即极高频根词）；101-200高频字与1-100根词重合15个，加合为53个；201-300高频字与1-100根词重合8个，加合为61个。38衰减到15、再衰减到8的重合数，说明上文(3.2.2)关于100极高频字与100根词高比例重合的判断是合理的。
　　横坐标分别三级根词，1-100根词与1-100高频字重合38个（已述，即极高频根词）；101-200根词与1-100高频字重合16个，加合为54个；201-300根词与1-100高频字重合6个，加合为60个。38衰减到16、再衰减到6的重合数，同样说明关于100极高频字与100根词高比例重合的判断是合理的。
　　图2-2取现代汉语高频词和根词各300个，分三级对比两者的重合情况。解说可如图2-1类推，请特别关注各级重合数的不同。另外，古代汉语以“高频字”隐指高频词，而现代汉语字词差距很大，最好以词为统计单位。（注：如果不是采用极高频词与根词对比，而是采用极高频字与根词对比，则重合数会有很大不同：不是23个，而是44个，比古汉语还要多。这种情况与汉语字词频率的连带变化有关，但用字代词统计现代汉语的极高频根词，明显不宜。）
　　对比图2-1、2-2可知，极高频根词在古今汉语里的数目有明显差异：古代汉语38，现代汉语23。据此可尝试对极高频根词的历史走势做出如下推断：远古汉语的极高频根词数目会比古代汉语更大，未来汉语的极高频根词数目会比现代汉语更小。这一推断的基本内容，比较直观地反映在图2-3之中。
　　本文之所以做出极高频根词的数目会越来越小的推断，除有统计数据的支持外，还出于对辩证唯物主义历史观的尊重：自然、社会，人的认知和人的语言，其中有一个从简单到复杂、从低级到高级的、同向但不同速的发展过程。远古人类生活内容有限，认知范围有限，语言表达所常用的词汇（常用即高频）也就有限（有限必向根词集中），而极高频根词的数目自然很大。随着时代推移，血缘界限、地域界限、行业界限终将被一一打破，人类生活内容空前丰富，认知范围空前扩大，语言表达所常用的词汇必会随之拓展范围，增加标识，趋于抽象，并因应社会和认知不断涌现的新的热点而加快变换节奏。极高频根词本是极高频词与根词重合的产物，当重合面减小、胶着力减弱时，数量自然会降下来一些。
　　数量衰减意味着趋0，但趋0只是接近0，却很难达到0。换言之，极高频根词一般不可能消失，不可能从根词中游离出去。至于再往前推，推到语言的初始状态，则两圆该是几乎重合（接近100），但又不会完全重合（达到100）。
　　如果以上论证能够成立的话，可以设想，极高频根词数目从多到少演化的推断，不仅适用于古今汉语，而且适用于其他语言的演变。当然，根词本身也还有是否可以断代、是否容许转义以及范围到底多大等问题。篇幅所限，此不繁说。
　　3.2.4 极高频实词的语用解释
　　这里主要讨论社会文化高热点与极高频实词之间的因果关系。
　　为方便讨论，极高频实词可以三分：第一分为“长后延极高频实词”，亦即极高频根词，见表4所列“统计型的”38字；第二分为“中后延极高频实词”，含极高频字与101-300号根词重合的“入死二月能兵立知百五四从在使非十今令则欲太必”22字；第三分为“短后延极高频实词”，含“王君侯臣齐秦楚闻曰至谓未”等字。三分极高频实词本属连续体，相互间并无截然分明的界限。
　　三分极高频实词在语用方面的相同处是都属于文献撰写年代的社会文化高热点词，不同处是保持高热点词地位所向后延续的年代有长短之分，如图3所示。
　　附图

　　图3 三分极高频实词同异示意
　　社会文化的高热点是极高频实词存在的直接动因和充要条件。“社会文化的高热点”宜作广泛而抽象的理解，举凡能够引起人们高度关注和高度重视的事物、事件、状况、数量、关系、理念等均在其中。古汉语文献以春秋、战国、秦汉时代为主，当时的政治、军事、战争以及哲学论辩等都是特别引人注目的热点问题，因而与此相关的一些字词，像“王、侯、臣、齐、秦、楚”等，使用频度随之剧增。试设想，假如没有齐、秦、楚三国，或者三国的重要性不够、引人注目的程度不够，“齐、秦、楚”三字还能够进入极高频实词行列吗？又假如鲁、宋、燕三国比齐、秦、楚更重要、更引人注目，它们的使用频度还可能比齐、秦、楚低吗？当然，引人注目的因素不只是重要性，还有新颖性、变动性、唯一性、对立性、持久性等。拿现代例子来说，电脑出现了，才／就会有“电脑”一词；电脑的重要性、新颖性、变动性等足以成为引人注目的高热点事物，于是“电脑”一词的频率才／就会迅速攀升。古今道理是相通的。
　　极高频实词（特别是中、长后延极高频实词）里的一些成员除了具有超常的重要性、持久性外，还具有很强的唯一性、对立性，它们的地位不可替代、难以动摇，因而能够通行于古今。如“国、事、天、地、人、民、为、用、可、使、有、无、生、死、大、上、下、中、後、出、入、不、非、必、日、月、年”以及常用数字等。（注：100极高频字中有“大”无“小”、有“後”无“前”，但资料显示，“小”排降频第154号，“前”排降频第293号。）
　　以上道理或许太简单了，简单得就像开多大水龙头就出多大的水一样。其实，这种简单到家的“水龙头效应”正是奥妙所在。既然社会文化热点与字词频率变化有直接因果关系，那就不仅允许由因求果，而且一定允许由果求因——把字词频率作为社会文化的“晴雨表”，透过字词频率的变化去分析社会文化的变化，透过极高频实词的构成去探究社会文化的高热点、大潮流，就如同透过水流量的大小去判断水龙头打开的大小一样。字词频率对于关注程度的高灵敏度反应特性，可以广泛运用于经济形势分析、社会动态调查、密码破译、刑侦破案诸多领域：“无风不起浪”，特殊的频率必有特殊的起因。从这个意义上说，如能有杰出学者为之倡导，则建立起一门系统的频率语言学，决然不会是徒劳无益的“空穴来风”。
　　3.3 字音、字形分布所体现的“经济原则”
　　字音和字形是两套连带的符号系统。两者的主要不同之处在于：前者作用于听觉，是主体；后者作用于视觉，是副体。主要相同之处在于：都具有自然、社会双重属性，都属于符号代码表意系统，都遵从“约定俗成原则”、“经济原则”和“分配原则”（关于词语离散性有机分布的原则）等。因极高频字音、形分布系统对经济原则有典型体现，而以往对此观察、研究得又不很充分，所以本节拟予专门讨论。
　　从实质上讲，“经济原则”就是讲求效率的原则：用较少时间花费获得较高交流功效，在花费与功效之间找到一个最佳结合点、平衡点。这一思想同优选法原理相通，只不过它是长期“磨合”、自然“锤炼”的结果，并非一时一地人为因素所营造。譬如有个字，我们每天就用它百次（常用字），又有个字，我们百天才用它一次（冷僻字），那么按照“经济原则”的要求，前者将相对趋简，后者将相对趋繁。或许有个别例外，但一旦扩大到整体和系统上，走向必会十分分明。又譬如前面提到的例子“电脑”，也叫“计算机”，“电子计算机”，刚兴起时对它的称名还争论了一阵；其实，随着频率的提高，人们会自然而然地做出选择——“电脑”，且不说“名实”问题，单从“经济原则”和频率走势已不难得其仿佛。
　　在“经济原则”作用下，极高频字在音、形等形式方面应有一个明显的简化趋势（可叫做“高频从简”或“高频压缩”）。而且由于极高频字一般属于“高活性词”，不属于“惰性词”，其简化属于频率性调整（个体调整为主），不属于结构性调整（类型调整为主），因而其理论解释似乎更倾向于支持词汇扩散论的“有例外变异”学说，不倾向于支持历史比较法的“无例外变异”学说。（注：参看王士元(1982)、梅祖麟(1986)。极高频字词的变异具有先导性。王士元：“词的出现频率越高，变化就越早。”按，内在的变化模式应是“高频压缩”，外在的变化模式应是“高频扩散”。需要说明的是，非高频字词语音、字形的历史演变似乎更倾向于支持历史比较法的“无例外变异”学说。又，历史比较法、词汇扩散论主要讲语音变异，其实它们对于字形、字体变异也有很强的解释力。汉字繁、简演化及篆、隶、行、楷演化的许多历史事实都可以证明这一点，而且字形、字体变异要比语音变异更易感受和观察。）近、现代汉语“了”的语音变异就是很典型的例子： [liau]＞[lao]或[lou]＞[la]或[l附图]。（注：参看郭小武(2000)。当时未能读到王士元(1982)、梅祖麟(1986)的论述，是个遗憾。）
　　声学实验成果、语言发生模式（起源模式、习得模式）及世界语言语音的常规构成显示，音素、音节的动态选择可有下列的一般序列（＞表多于或优于；／表平列；暂不考虑声调、长短等因素）：
　　部位（方法同）舌尖中／舌根／双唇＞舌尖前／舌尖后／舌面
　　辅音方法（部位同）塞＞擦／塞擦；不送气＞送气；鼻＞边；浊／清
　　元音[a]/[e]// (/[附图])＞[α]/[ε]/[o]/[附图]；标准元音＞非标准元音（注：取英国人琼斯(Daniel Jones)八个标准元音的说法，即前所列；括起来的[附图]是中、央元音，属调节性通音。）
　　音节（单音素／）二音素＞三音素＞四音素（…）；（词长：单音节＞多音节）
　　这个序列的形成一定有其生理的、声学的基础，也一定与“经济原则”及普遍的频率倾向有紧密关联。下面从“经济原则”视角看古汉语极高频字的语音分布。
　　古音学家关于古音系统有各种构拟，这里主要采用黄侃十九纽、王力三十部（有等呼）的说法。下面是极高频字古音分布的一般序列列示（取声韵母分类，不取元辅音分类，两种分类区别明显，但这里并不影响排列次序）。
　　舌尖中39＞舌根29＞舌尖前18＞双唇12（凡98；零声母2）
　　塞43＞塞擦24＞擦7；鼻22＞边2；浊59＞清39（零声母2）
　　四音素43＞三音素25＞五音素17＞二音素14＞六音素1
　　因各家对元音的构拟分歧严重，这里不予罗列、排序；不过大致可以肯定，如果所拟主要元音中缺少[a]/[e]// (/[附图])等通行的强势元音，总是不完善的。（注：参看潘悟云(1999)。）
　　100极高频字古音分布的声纽序列与上出普通序列基本印合，应系正常次序。100极高频字古音分布的音节序列与上出普通序列出入太大，值得重新思考；我们认为，不是普通序列错了，而是构拟系统出了问题：音节偏长而且长短错置。构拟系统100极高频字的平均音节长度为3.66音素，高峰值在三、四音素上，这在世界各种语言的100极高频字词序列里恐怕均难以达到。现代汉语100极高频字的平均音节长度才2.74音素，高峰值在二、三音素上。应该说，已故王力先生构拟的音节还是较短的（问题可能主要出在等呼部分不当），而有的构拟系统音节更长，几近无法开口，偏差也就更大。至于高峰值的位置，极高频A级10字多数落在二音素上，其他依次落在二、三、四、五音素上，应属常规次序。高频从简是“经济原则”的一般要求，不应违背。这一点希望能引起古音构拟学家的重视。
　　古汉语100极高频字的字形能够很好地体现“经济原则”高频从简的一般要求。以繁体楷书笔画计，A级10字共44画，平均4.4画；B级20字共132画，平均6.6画；C级70字共497画，平均7.1画。三级字笔画平均值分布次序井然。100极高频字共计673画，平均6.73画，远低于扩大到2000字的笔画平均值（约11画（注：见陈明远(1983)。））。据统计，现代汉语1000高频字（简体）的平均笔画数为7.977画，GB2312-80用字6763（统计数为6724）的平均笔画数为10.665画，再扩大至7785字的平均笔画数为10.943画（注：见《汉字信息字典》“笔画数统计”。），同样次序井然。古今材料表明，联系到频率的笔画量对于“经济原则”的体现是很充分的。字音一样，不应例外。
　　“经济原则”在字形上的另一表现形式是手写体的高频草化，还在出土文献中有丰富例证。限于篇幅，不再阐述。
　　四附录（注：本文原拟写“极高频字的演变”一节，后因篇幅太大而未果；“附录”原本只有《世说新语》以下四部著作的100极高频字。郭锡良先生建议还可以把先秦、两汉分开来进行统计、对比和研究。这个建议值得重视，但本身是个需要单做的大题目。作为一个补救办法，这里把《荀子》《史记》两书的100极高频字字集加到“附录”中。）
　　4.1 《荀子》100极高频字
　　A级10字：之也不而者以则人其是
　　B级20字：为子有故无下所天於君矣曰然能可知谓道夫大
　　C级70字：王礼国非事义一行得此焉上必用莫治如民欲明乎後乱若至百生与言使善利足恶安法心三成士好贵臣小乐物圣名见相何贤将公文虽主正仁功时日在说亡今从世中性
　　4.2 《史记》100极高频字
　　A级10字：之王不以为子而曰其人
　　B级20字：公也者於年有十大秦下侯与天使将乃是君齐臣
　　C级70字：上太三国二楚所立至相军得兵无后中故赵诸自夫言帝欲事行可一汉皆卒五此见阳则矣死今出入时能从馀东何闻生如四及地周令杀百魏文长然晋南高西数武成复万
　　4.3 《世说新语》100极高频字
　　A级10字：曰不之王人为以公有何
　　B级20字：与子而其此云于时谢中在无问相如见所自大得
　　C级70字：言是作至一语可後桓长下太谓乃道既者卿军坐欲武复当君文答刘便帝令庾亦出我未诸故事然知因日意上殷遂名共二将甚能许闻去家使少来也若已玄孙州年东伯往
　　4.4 《朱子语类》100极高频字
　　A级10字：之是不如人有得此以说
　　B级20字：一曰而也其子只为便者所自事则问理无道於又
　　C级70字：可然见知亦言何处心大时他谓在天这中下若个来上意去云了生物与学义底後看却皆仁未做今明要当能地须文用至先行方故字夫圣好多礼气公非日出正会书性必分
　　4.5 《红楼梦》（简体）100极高频字
　　A级10字：了的不一来道人是说我
　　B级20字：这他你去着也儿玉有宝个子又贾里那们见只太
　　C级70字：便好在笑家上么得大姐头听就出回知日要下都心事二老过话还起自看如叫到没两母些时之今小问因奶凤等娘可什呢忙夫想面爷才中王打进此倒罢样和吃正无几姑
　　4.6 《世界上下五千年》（简体）100极高频字
　　A级10字：的了一他人在国军是大
　　B级20字：不这地到们有上和个年为战中时来斯后下德日
　　C级70字：出里发起尔着以就法马对进被于成要队自行部多会月动克民得利开西天家也学作罗过子美世把说本之而向生特英当我士兵从海机主然用去方前拉但又都面力王次
　　附图

　　关于助动词，在极高频字范围内主要涉及“可、得、能”3个，总约出现28400次，词均约9467次，约占极高频字词1125800次的0.840%。按“词均次”或“词均比”排序，助动词的虚化层次明显比一般动词要高；但由于统计范围不够大，其封闭性、高频性没有得到充分体现。时间词、方位词情况类似，需要扩大规模观察变化。
　　关于曲线图，下面尝试按照“表3附1”的“词均次”数据加以绘制。
【参考文献】
　　1 北京语言学院语言教育研究所 1986 《现代汉语频率词典》，北京语言学院出版社
　　2 岑麟祥 1981 《历史比较语言学讲话》，湖北人民出版社
　　3 陈保亚 1996 《语言接触与语言联盟》，语文出版社
　　4 陈明远 1983 现代汉字笔画的统计分析，《中国语言学报》1期
　　5 程湘清主编 1982 《先秦汉语研究》，山东教育出版社
　　6 程湘清主编 1984 《两汉汉语研究》，山东教育出版社
　　7 国家语言文字工作委员会、国家标准局 1992 《现代汉语字频统计表》，语文出版社
　　8 郭锡良 1986 《汉字古音手册》，北京大学出版社
　　9 郭小武 2000 “了、呢、的”变韵说——兼论语气助词、叹词、象声词的强弱两套发音类型，《中国语文》第4期
　　10 何乐士 1984 《左传》的人称代词，中国社会科学院语言研究所古代汉语研究室编《古汉语研究论文集》，北京出版社
　　11 吕叔湘（著）、江蓝生（补） 1985 《近代汉语指代词》，学林出版社
　　12 吕叔湘主编 1999 《现代汉语八百词》（增订本），商务印书馆
　　13 梅祖麟 1986 关于近代汉语指代词——读吕著《近代汉语指代词》，《中国语文》第6期
　　14 上海交通大学编码组、上海汉语拼音文字研究组 1988 《汉字信息字典》，科学出版社
　　15 潘悟云 1999 上古汉语元音系统构拟述评，江蓝生、侯精一主编《汉语现状与历史的研究——首届汉语语言学国际研讨会文集》，中国社会科学出版社
　　16 沈家煊 1999 《不对称和标记论》，江西教育出版社
　　17 王均主编 1995 《当代中国的文字改革》，当代中国出版社
　　18 王力 1980 《汉语史稿》，中华书局
　　19 —— 1985 《中国现代语法》，商务印书馆
　　20 王士元 1982 语言变化的词汇透视，《语言研究》（武汉）第2期
　　21 徐大明、陶红印、谢天蔚 1997 《当代社会语言学》，中国社会科学出版社
　　22 杨伯峻、何乐士 1992 《古汉语语法及其发展》，语文出版社
　　23 殷国光 1997 《吕氏春秋词类研究》，华夏出版社
　　24 苑春法、黄昌宁 1998 基于语素数据库的汉语语素及构词研究，《语言文字应用》第3期
　　25 赵元任 1980 《语言问题》，商务印书馆
　　26 中国社会科学院语言研究所古代汉语研究室 1999 《古代汉语虚词词典》，商务印书馆
　　字库未存字注释：
　　＠①原字亻加戮去戈
　　＠②原字木加曷
　　＠③原字酝去云加爵
　　＠④原字敫下加言
　　＠⑤原字走加焦
　　＠⑥原字亻加敫
　　＠⑦原字彀去弓加禾

		自动登录	找回密码
密码			注册

古代汉语极高频字探索

相关帖子