湘里妹子学术网

 找回密码
 注册
查看: 2724|回复: 0

古籍整理通用系统及其中字典的编纂

[复制链接]
发表于 2004-1-2 19:53:58 | 显示全部楼层 |阅读模式
-----------------------------------------------------------------------------------------------
发表时间: 2003年10月22日 11时59分  
发表作者: 北大中文论坛  
发表内容:古籍整理通用系统及其中字典的编纂
朱小健 撰(北京师范大学中文系副教授)
来源:青藤书屋



【标题注释】

本文第一部分“现有古籍整理计算机系统情况”中E、F、G
、H、I、J的情况参考了李竹、单玉秋的调查报告;第二部
分“古籍整理通用系统应具备的功能”系根据与许嘉璐、冯
志伟、张猛、朱瑞平、靳光瑾、李竹、单玉秋等先生一起讨
论的结果整理的。

【内容提要】

现有古籍整理计算机系统基本上都是各自封闭的,互不兼容
,没有考虑开放性;大都表现为整理的成果,而不是为古籍
整理工作提供的工具,因此有必要研制一个古籍整理通用系
统。本文提出了古籍整理通用系统应具备的功能,讨论了其
中字典编纂在义项的选择及排列、词义的解释、书证的使用
、字音标注、字属性标注等方面的特点,认为这种字典的编
纂及其编纂规律的归纳研究是训诂学面临的新课题。

计算机技术的飞速发展,给语文工作现代化带来了前所未有
的机遇。古籍整理通用系统的研制工作,是训诂手段现代化
的一个组成部分,而其中的字典编纂又是系统研制工作中的
一个重要内容。这种字典不仅在载体上区别于传统的纸质图
书字典,在内容、形式上也不同于现有的电子版字典。从传
统训诂学的角度看,这种字典解释字词的特点与注释书、训
诂专着、训诂札记都有不同。这对字典辞书的编纂及我们进
一步理解训诂实践形式的特点都有一定启示。

本文简述古籍整理通用系统中字典编纂的特点,作为前提,
也兼及古籍整理通用系统应具备的功能。

一 现有古籍整理计算机系统情况

古籍整理工作历来是靠人力手工,80年代以来,利用计算机
技术进行古籍整理工作这一课题受到越来越多的人的注意与
重视,已经研制出不少古籍整理计算机系统。但这些研究存
在着大量的重覆劳动,同时各系统也基本不能通用。要真正
解决古籍整理研究手段的现代化问题,有必要研制一个古籍
整理通用系统,使广大古籍整理工作者手中的计算机,不仅
仅是“换笔”,而是能用来对古籍语料进行处理。这项工作
,需要国家的支持及语言学界与计算机界的通力合作。为此
,我们在全国高等院校古籍整理研究工作委员会的支持下,
对现有古籍整理计算机系统情况进行了调查。

调查涉及的系统有:

A四川大学“中文索引编制”。
B四川大学“中国地方志宋代人物资料管理”。
C深圳大学“红楼梦电脑检索”。
D深圳大学“中华大典”。
E陕西师范大学“十三经词典编纂”。
F陕西师范大学“十三经词语索引”。
G陕西中医研究院“文渊阁本四库全书医家类光盘版”。
H陕西中医研究院“中医十三经通检”。
I哈尔滨师范大学“史记检索系统”。
J北京大学、台湾元智大学“宋代名家诗网络系统”。
K台湾东吴大学“十三经检索”。
L台湾东吴大学“诸子集成检索”。
M台湾中研院资讯所“中文文献处理系统CDP”。
N台湾中研院资讯所“二十五史”。

调查显示,这些系统普遍具有阅读、检索、统计、排序、打
印等功能,个别的还有简单的辅助研究功能(J、M)。大部
分系统有在选定通用字库上增加自造字的字库,也有的是采
用字根临时生成字库(N)。

这些系统的实现环境为MSDOS(A、B、C、E、F、H、I、K
、L)+北大方正(A、B)或UCDOS(C、H)或金山汉字
(E 、 F )或“震汉”等BIG5汉字(K、L);
WINDOWS31(D、 J 、 M )+中文之星 (D );WINDOWS95(G、N)等。编程语言及关系数据库为
FOXBASE(A、B、H);DBASE(C);BASIC(E、F);BORLANDC++31(J);PARADOX(D、J)等。

这些系统基本上都是各自封闭,互不兼容,不考虑开放性,
并且大都为就某一古籍文本进行整理,表现为整理的成果,
而不是为古籍整理工作提供的工具(A、M除外)。

二 古籍整理通用系统应具备的功能

古籍整理主要包括校勘、标点、注释、翻译、研究等工作,
从这些工作的需求出发,理想的古籍整理通用系统应具备的
功能是:

1足够用的汉字库。
2便捷的文本录入方式(如扫描、键盘录入)。
3同一文献不同版本的自动校对。
4常见错字的纠正(如已──己;裹──里)。
5常见句标点提示。
6古文词语今译提示。
7字注音(含古音、今音)。
8字、句等不同语言单位检索。
9字、句等不同语言单位统计。
10字、句等不同语言单位排序。
11天文、职官、词性等专题检索。
12天文、职官等知识库提取生成。
13辅助研究(如诗歌韵脚标注、作品风格定位、作品时代
判定、药性相克相辅等)。
14排版。
15打印。

其中功能1目前较大的字库有GBK大字符集(即ISO─106461,GB─13000)、北大方正、华软、BIG5等,古籍整理工作
者最易接受的是GBK。事实上GBK的21003字符可满足绝大多
数古籍整理工作的要求,如《二十四史》只缺800字左右,
可由自造字解决。 待全国高校古籍整理工作委员会325工程
(65000汉字字符集)完成后,可与之挂接,彻底解决。

功能2扫描录入识别技术已有较成功的软件, 古籍整理通用
系统可不予关注,仅设计为在已有文本条件下使用。

功能4、5、11、12、13等均需在古代汉语分词、句式、有关
文化知识研究成果上实现。这些研究成果目前尚不敷用,可
在今后的研制中实现。

故我们目前要研制的古籍整理通用系统的功能应包括功能1
、3、6、7、8、9、10、14、15、及13的一部分(如格律诗的
韵脚标注)。

三 古籍整理通用系统中字典的编纂

系统功能6、7、8、9、10、及13的一部分(如格律诗的韵脚
标注)的实现,都需要一部以数据库形式存储可供调用的字
典为基础。编制这部字典,要运用计算机技术,更离不开训
诂学知识。

功能6“古文词语今译提示”, 是要让使用本系统的古籍整
理工作者在进行古籍文本的标点、今译时能得到字词意义的
随机帮助。针对古籍整理工作者的实际需要,从所收义项上
看,这种随机帮助不必包括字词的常用义,以免使用者在过
多的义项中反覆筛选。从义项排列上看,罕见义、假借义等
不易掌握了解的义项应排在前,较普通的义项应排在后,以
利使用者急用先见。从书证上看,每个义项均应有例证,但
为便使用者浏览,应采用二次调用形式。即当使用者选定某
个义项后,以二级窗口显示。

义项的编排和书证的引用,应当参考和依据现有字典辞书的
研究成果,但须甄别覆核,择善而从,重新排列。

如“控”,《汉语大字典》和《汉语大词典》的解释是:
《汉语大字典》:(一)kòng(1)拉开(弓弦)。(2)操
纵;控制。(3)牵制。(4)走告;控诉。(5)投;落下
。(6)顿挫。(7)弯,低。(8)使容器口朝下,让里边
的液体慢慢流出来。(二)kōng除。(三)qiāng 打。

《汉语大词典》:1kòng(1)引弓,开弓。(2)驾驭;控
制。 (3)走告。(4)顿挫,停顿而折返。(5)投;跌落
。(6)弯曲;下垂。(7)贯通。(8)使容器出口朝下,让
里边的液体慢慢流出。亦指将人头部放低,吐出食物、水等
。(9)见“控总”。2qiāng敲打。

两相比较,《汉语大词典》没收《汉语大字典》所收的只见
于《集韵》而无其他书证的音项“(二)kōng除”。 《汉语
大字典》的(一)(1)(2)(3)(4)(5)(6)(7)
(8)和《汉语大词典》的1(1)(2)(7)(3)(5)
(4)(6)(8)分别对应。是二书解释基本相同。其中“
控制、控告、控水(即二书的(8))”义现代汉语仍保留
,属常用义,本字典可不收或在义项排列上放在最后。而音
项qiāng和kōng则应作为冷僻义首选收入。

对现代字典辞书中的释义,要进行一定的甄别。如《汉语大
字典》和《汉语大词典》在“拜”字下面都收了“拔掉”的
义项,根据都是《诗经召南甘棠》郑笺“拜之言拔也”
。拜,《说文解字》解为“首至手也”(依段玉裁校),即
下拜行礼。《诗》首章言“伐”,次章言“败”,则三章之
“拜”不可能是行礼,所以郑玄释之以“拔”。“拜”与
“拔”没有意义上的关联,郑玄在这里用“之言”是用本字
解释通假字。“拜”是“拔”的同音借用字。朱熹《诗集传
》释此诗之“剪”为“剪其枝叶”,“伐”为“伐其条枚”
,“败”为“折”,“拜”为“屈”,谓全诗三章由“伐”
(砍)至“败”(折)至“拜”(屈)是对甘棠树的爱惜的
一步步加深。读《诗》者常以为郑玄与朱熹的看法迥异,其
实,这两位的说法并不矛盾。朱熹是认为郑玄说的拔,就是
屈的意思,是拔的引申义。《史记乐书》:“奋疾而不
拔。”张守节正义:“拔,倾侧也。”倾侧即倾斜,弯曲。
《广韵》:“扒,拔也。《诗》云‘勿剪勿扒’。”扒是拨
动,也就是使弯曲。据文证义,《甘棠》中的“拜”,是否
是“拔掉”,还值得进一步探讨。对这样的义项,吸收时需
要斟酌。

古籍今译常常费力不讨好,译本常被人们讥为内行不去读,
外行读不了。古籍整理系统提供的字词意义的随机帮助,也
很容易陷入这样的境地,出现专家不需用,一般人用了仍不
能解决问题的弊病。要尽可能提高字典的实用性,就不能仅
仅依靠现代字典辞书的研究成果。为满足专家古籍整理工作
的需要,有必要在字典中附上几部训诂根柢着作的字词解释
,供专家随机提取。像《说文解字》《毛传》《郑笺》《经
典释文》,甚至于《经籍纂诂》,都可以考虑进来。这些解
释是为专家查检而设,可以完全按原着录入,不必提炼成严
格意义的义项。

功能7“字注音(含古音、今音)”, 要求字典给每个字作
汉语拼音标注、中古反切标注、上古韵部声纽标注。考虑到
功能13的需要,还应对现代汉语、中古音、上古音的押韵情
况进行标注。

功能8“字、句等不同语言单位检索”,功能9“字、句等不
同语言单位统计”,功能10“字、句等不同语言单位排序”
,都需要通过对每个字的属性标注来实现。根据当前古籍整
理工作者的现状,应进行汉语拼音、笔画数、笔顺、四角号
码等多项标注。

四 余论

计算机技术给语文工作现代化提供了捷便的手段,也给训诂
工作带来了一些新问题。如以前古籍文本在传抄刻写过程中
产生的字词讹误只有“形近而讹”和“声近致误”两类,现
在用键盘录入的古籍文本,由于汉字输入编码的影响,又出
现了一种“码近相混”的讹误。像“已兆靖康之祸”误为“
已净靖康之祸”,(注:例见《随园诗话》679页,(清)袁
枚着,汪静韦、唐婷阳译,长春:吉林人民出版社,1996。
)“兆”IQV(五笔字形输入法编码,下同)误为“净”
UQV(I、U键相连);“清进士”误为“溥是士”,(注:
例见《随园诗话》722页。 (清)袁枚着,汪静韦、唐婷阳
译,长春:吉林人民出版社,1996。)“清进”IGE FJ误为
“溥是”IGEFJ(应在F前击空格键);“玉壶清泪血痕新”
误为“玉壶清泪备痕新”,(注:例见《随园诗话》756页。
(清)袁枚着,汪静韦、唐婷阳译,长春:吉林人民出版社
,1996。)“血”TLD误为“备”TLF(D、F键相连);“
蘼芜亦解怜倾国”误为“蘼鞠亦解怜倾国”,(注:例见《
随园诗话》757页。(清)袁枚着, 汪静韦、唐婷阳译,长
春:吉林人民出版社,1996。 )“芜”AFQB 误为“鞠”
AFQ(漏B);不胜枚举。显然,训诂工作在进行古籍文本
的校刊时不能不正视这种讹误。

古籍整理通用系统中的字典,是字典辞书中的一种新类型。
它为实现系统功能6、7、8、9、10、13而编制,它的第一使
用者是计算机,不是人,因而它对21003字符要逐个进行细致
准确的标注, 这一点很像训诂专着的词词皆释。基于古籍整
理工作的实际需要,它在释义时可以忽略常见字及常用义,
把主要精力放在冷僻难懂的字词上,这一点又有些像随文而
释的注释书。它重在解决具体古籍文本中的字词意义问题,
但义项的设立、诠释、书证却不仅限于某个具体语境,这又
与训诂札记相似。这种供计算机使用的新型字典的编纂及其
编纂规律的归纳研究,是训诂学面临的新课题。

要解决计算机技术的运用给语文工作带来的一系列新问题,
训诂学大有用武之地。也只有与时代的新要求紧密结合,积
极服务于社会,训诂学才会有自己旺盛的生命力。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-6 06:50 , Processed in 0.133523 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表