湘里妹子学术网

 找回密码
 注册
查看: 2624|回复: 0

数据库、计量分析与古代文学研究的现代化进程

  [复制链接]
发表于 2008-12-29 03:46:28 | 显示全部楼层 |阅读模式


尚永亮 撰(武汉大学文学院)
《文学评论》,2007/6,187~190页

       数据是证据的延伸和扩大,建构古代文学专业数据库是学术研究现代化的必然要求,而运用计量分析方法则既构成传统历史文化研究法的一大辅助和补充,也成为使学术研究更具科学性、客观性和准确性的重要途径。本文围绕建构专业数据库和采用计量分析法等相关问题进行讨论,希望能对中国古代文学的现代化进程有所助益。

一、数据与数据库建构的重要性

        数据与证据不是一个概念。一般来讲,证据偏重于具体的史料性的案例,数据主要指若干同类案例集合而成的数量依据;前者量小,后者量大;前者范围稍狭,后者范围甚广;前者多用于传统的历史文化研究法中,后者多用于以数据库为依托的计量分析法中。此其显在的区别。但二者又有着内在的相通,其基本性质都在于对研究对象予以更深入的体认或佐证,故在学术研究中大抵发挥着同类作用。

        在中国古代文学的研究历程中,古代学者大都重感觉而轻证据,近现代学者则重证据而轻数据。古代的诗评家、文论家们在论述某些问题时,常常使用类比思维或感性的、印象式的批评,点到为止,而不对支撑其观点的学理依据予以深究;或在举证时随意性较强,而不太注重证据所具有的代表性和科学性,故其批评意见往往显得浮泛、笼统而难以落到实处。乾嘉以降,随着考据学的兴盛,学者们对证据给予了高度的关注,所谓“例不十,法不立”,大抵即可代表当时的研究倾向。到了现当代,学术研究较之古代有了长足的进展,研究的广度、深度、视角、方法等都发生了变化,但在重证据、轻数据一点上却没有大的改观。学者们习惯于从史料中搜索具体的文献证据,习惯于制作资料卡片,习惯于社会、文化、历史的批评,习惯于史论结合式的夹叙夹议,从而形成了一种不同于古代批评者的新的学风。这种习惯和学风,易于将微观与宏观相结合,通过具体案例的梳理和分析,逻辑地论证自己的某些观点,也易于使文章情韵相包,元气淋漓。但其缺失也是显而易见的,因为任何事情都有其个别情况,都有例外,即使所举例证过了“十”,但相比起未被发掘的文献资料而言,也只是九牛一毛,很难避免以偏概全。换言之,若无相关案例的海量搜集以及对此数据的计量分析,便不易获得稳实可靠的定性判断;若仅凭主观感觉而随意抽取个别事例用以证明事物的本质和规律,虽然省事,却也往往误事。具体来说,其缺失主要表现在以下三点:一,难以保证例证的普遍性、代表性。二,难以在更大范围内对涉及较为宏观的问题作出准确论证。三,难以对不同时期、不同地域、不同群体的创作走势以及各种接受态势的升降起伏作出客观定位。由此三点,也就直接导引出了当代的古典文学研究是否真正具有科学性、规范性的问题,导引出了在重证据的同时,是否应更加关注较具学理性、客观性和深密度的重数据的问题。

        数据是证据的延伸和扩大,数据搜集到一定程度,便有了规模,有了系统,将这些数据通过计算机按一定组织方式集合在一起,便形成“库”,即存储、管理数据之库①。数据库的突出特点是存储数据广而全,管理数据有序而查找便捷。它要求对所要论证的某类问题进行竭泽而渔式的资料搜罗,要求对搜罗到的材料进行系统归纳和分类排列,以使其在最大范围最大程度上以最便捷的方式对相关论点提供支撑,对学术研究的学理性、准确性、科学性提供保证。这就是说,所谓数据库,关键在一“数”字,只有达到了足够的“数”,才使得“据”坚实可靠,“库”名实相副。

        建构数据库是一个长期的过程,它要求学者有一个较之一般证据搜集更为宏阔的目标,并潜下心来在浩如烟海的资料堆里摸爬滚打,排比统计,去粗取精,不断更新。一个数据库的建构,最初往往只是围绕某些具有固定指向的问题进行的,但随着数据的逐渐丰富,库之规模的不断扩大和完备,其所指向的问题便已不局限在一两个方面,从中还可发现此前未曾意识到的新的问题,并对相关或相邻的课题作出回应。在某种意义上,数据库的建构过程,就是发现问题、细化和深化问题的过程。它一举而多得,虽费力而成效显著。

        建构数据库同时也是学术研究现代化进程的必然要求。时至今日,学术研究已与古代和前现代有了极大的不同,不仅在广度、深度上日益拓进,而且在研究手法的多样性、科学性等方面都大大提升。以前的文献搜集靠的是纸本阅读,资料统计靠的是手工操作,而这些方式到了今天大都已可由电子文本和计算机所取代。就笔者目力所及,当下已投入市场并为研究者使用的电子文本就有《文渊阁四库全书》(香港迪志文化出版有限公司和上海人民出版社合作出版)、《四部丛刊》(北京书同文数字化技术有限公司、万方数据电子出版社合作出版)、《国学宝典》(北京国学时代文化传播公司研制)、《汉籍全文检索系统》(陕西师大历史文化学院研制)、《中国基本古籍库》(北京爱如生文化交流有限公司制作),以及多种多样的网络版文献资料。这些电子文本包容量大(仅《中国基本古籍库》试用版即有10000种古籍书目,300种古籍全文数据和382个版本的图像数据),排列方式多样(如《汉籍全文检索系统》就有四部序、时代序、拼音序),检索非常便捷(如在《四库全书》电子版中输入关键词,在几秒或数十秒时间内,即可在其3461种著作79309卷中找到所有与之匹配的资料)。利用这些电子文本,大大节省了时间和人力,一人一天的工作成效胜过此前千百人一年甚或多年的工作成效。由此我们看到:一种先进的技术手段,奠定了一个崭新的学术研究背景;在这样一个背景下,利用现有的和将要不断推出的电子文本和网络资料,建构不同类型的专业数据库已不再是难事。

        就中国古代文学专业学术数据库的建构而言,有两个方面最为重要:一是统筹布局,合理分类。在建构数据库的过程中,将所收集的资料予以系统有序的布局和分类,是对本主题与相邻主题、本学科与跨学科进行整体联系的必要过程,诸如主题类型、文学流派、作家作品、评论资料乃至诗韵格律、语言特点、意象类别、叙事程式、情节结构等,都可单独成类。这种分类,既是依据资料本身所具有的属性进行分类,也是为适应研究者的研究方向、研究兴趣进行分类。分类的方式越全面,越独特,数据库的用途相对而言也就越广泛、越有效。二是强化关联,动态管理。数据库每一子系统既相对独立,又与他系统相互关联,由此形成系列,产生集合效应。同时,任何资料都不可能一次穷尽,任何建构都不可能一次到位,故专业数据库的建构应是一个动态的过程,只有不断增加新的资料,并对原有资料进行必要的增删调整,才能使其发挥最佳效用。以笔者所建《唐五代贬官数据库》为例,通过查阅各种传世文献和墓碑石刻,共搜集唐五代各类贬官2886人,将这些贬官的生卒年、籍贯、及第时间及年龄、仕宦经历、贬谪时间、贬谪地点、贬谪事由、被贬官职、在贬所年限等,分门别类予以排列,便形成一个较为完备的唐五代贬官数据库。在此一数据库中,利用Excel功能,可以非常迅捷地将同一时段、同一地域、同一贬因、同一贬职的官员按序排列出来,并与不同时段、不同地域、不同贬因,不同贬职的官员形成对照,从而对所考察对象提供多方面的第一手数据。与此同时,该数据库又专设文人贬官一项,除如上分类排列外,还对1013位文人贬官的创作量予以统计,由此既得以见出唐五代三百余年间,何时何地何种官职的贬官最多,其间具有什么样的发展嬗变轨迹和规律,也可以通过贬官被贬前后创作数量的变化,考察贬谪给其创作带来的影响。目前,此一数据库仍在继续建设中,并已搜集了200余万字的文献资料作为支撑。随着不断的充实和更新,相信能对唐五代贬官史和贬谪文学史的研究发挥较大作用。

        表面看来,以高科技手段为依托、以资料搜集、统计等为主要内容的资料库建构,还只属于基础层面的工作,而不是学术研究本身。但深入一步便会发现,这种基础层面的工作从一开始便已构成学术研究的必要环节,而且要做好这些基础性工作,仍然需要充分发挥人的聪明才智和专业知识,从多方面进行思考,进行创新。这种思考和创新,主要包括两个方面:其一,需要具有强烈的问题意识。面对汗牛充栋的古典文献,搜集哪些资料,建构什么样的数据库,这些资料、数据库能解决哪些学术难题?都应在思考范围之内。人们常说,不怕做不到,就怕想不到。实际上,数据库建构之有无特点、能否成功,很大程度上就是要敢想、善想、会想,要既出人意外,又在人意中,以奇兵制胜。其二,需要提高应对现代高科技的技能。如何尽可能多地利用电子文献并掌握其检索功能,练习计算机的各种操作方法并充分发挥其潜能,使其最大限度地为建构完备而独特的数据库服务?这些问题,已现实地摆在了每一位有志于建构专业数据库的学者面前。工欲善其事,必先利其器;只有利其器,研究才能得心应手。

        以上两个方面,前者重在学术素养,后者重在技巧能力;前者的核心是问题意识,后者的核心是技能训练。在学术研究日益现代化的今天,这两者缺一不可。虽然就学术研究的本质而言,后者是为前者服务的,但如果忽视了后者,前者便难以达成完满实现。学者生当今日,既需完善自身的知识结构,还应强化个体的现代技能。换言之,为了拓宽学术研究的视域,提高学术研究的质量,学术数据库理应由最擅长学术研究的学者本人来建构,那种非学术人员代为建构学术数据库的局面则须尽快得到改变。

二、计量分析与学术研究的科学化

        建构数据库的目的在于应用,在于对数据库所提供数据进行分析。分析的方法有多种,而计量分析便是其中较为重要的一种。计量分析又称定量分析,其突出特征在于确定量值,把可测的量与数值联系起来,排比论列,实现从定性到定量的转化②。通俗点说,计量分析就是通过对数据之数量特征、数量关系与数量变化的分析,考察研究对象之内部构成、所占比重、时空分布、发展变化,并在此基础上作出明晰的整体定位和价值评判。通过计量分析,人们对研究对象的认识可以进一步客观化、精确化、科学化,可以最大限度地弥补传统研究方法的某些不足。正是由于计量分析具有上述长处和特点,所以这一最初起源于西方,并在自然科学领域被广泛使用的研究方法,自上世纪80年代以来,便在中国人文社会科学领域得到不同程度的采用,诸如社会统计学、教育计量学、刑法计量学、计量经济学等的兴起,皆其显例。对中国古代文学研究来说,计量分析法同样不失为一种可资采借的方法。与传统的社会文化研究着眼于社会背景、时代精神、作者心理、作品风格等“软指标”不同,计量分析更重视研究对象的数量构成及其显在变化等“硬指标”,更重视对这些“硬指标”及于对象之各种影响的分析和评价,而对涉及与数量关系较密切的时空变化、发展格局、接受态势等文学“外部”研究而言,其效果尤为显著。以唐宋诗词研究为例,笔者曾先后撰写并发表《唐五代诗作者之地域分布与北南变化的定量分析》、《唐知名诗人之层级分布与代群发展的定量分析》、《开天、元和两大诗人群交往诗创作及其变化的定量分析》等文③;友人王兆鹏教授则有《宋词作品量的统计分析》、《宋词作者的统计分析》、《20世纪词学研究格局的定量分析》等文④。在这些文章中,我们分别利用自己建构的唐诗数据库和宋词数据库,对唐宋诗词的数量、作者人数及其在不同时段的变化,对作者的地域分布、层级分布、代群发展及交往诗创作等相关情形,制成若干图表,予以量化统计和分析,得出了一些不同于前人的结论,或者使原有成说得到更为有力的数据支撑,使之由模糊、笼统变为清晰、确切,并由定量分析转化为定性判断。

        在使用计量分析方法的过程中,我们有这样几点体会:其一,力求基本数据的准确。数据是计量分析赖以存在的最重要保证,如无准确的数据,则准确的结论就无从谈起。当然,由于与研究对象时隔千载,不少当时的文献资料都已佚失湮灭,要想丝毫无误地把握历史原貌是不可能的。但在条件许可的情况下,最大限度地搜集材料,接近历史,却是可能的,也是必需的。比如,关于唐诗及其作者的数量,长期形成的说法是:诗歌47000余首,作者2500余人⑤。但笔者据《全唐诗》、《全唐诗补编》、《全唐诗逸》、《中国文学家大辞典‧唐五代卷》等相关文献重新统计,得出现存唐诗50454首、作者3228人的结论。又如,关于唐代文学家的地域分布,此前虽有学者作过考察,但误差较大,像河南、山东这样的作者活跃省份,各种文体的作者只有103人和60人⑥。而据笔者统计,二省仅诗作者即分别达到264人和141人。这样两组不同的数据及对此数据的分析,在结论的准确度上恐怕是有不小差异的。

        其二,运用相关数据,对研究对象进行多角度、多层面的分析,使数据尽可能地发挥其利用价值。比如,当我们已知较为准确的唐诗数量和作者数量后,便进一步考察其在初、盛、中、晚各个时段的分布,由此见出唐诗创作发展变化之大势;考察其在北南两方各地域以及各时期的分布数量,由此见出唐诗创作中心之所在及其由北而南的演变情形;考察唐诗创作中的高产、多产、中产、低产作者数,由此见出不同层级的作者对唐诗繁荣各具什么贡献;考察各层级知名诗人在不同时期的分布情形,由此见出唐诗创作全盛期及衰落期之所在;考察知名诗人在初、盛、中、晚不同时段的代群分布,由此见出各代群的内部构成、前后更迭、代群间隔及其嬗变规律。这样一些不同角度不同层面的分析和考察,在一定程度上拓展了研究的视野,提供了新的信息和结论。如果不善于利用相关数据,不善于寻找分析的角度,便难以将材料激活,难以达到计量“分析”的目的。

        其三,将研究对象纳入系统框架内,从相互关联和比较中把握其特点和本质属性。事物都是相互关联、相互依存的,唐诗作者也不例外。盛唐开(元)天(宝)诗人群与中唐元和诗人群是唐诗史上最为活跃的两大群体。群体必有较多交往,这种交往又分群体外和群体内两种,而且在不同时期不同作者那里呈现出不同情形。运用计量分析来考察这诸种情况,虽可客观地反映每一群体内部之差异和两大群体之间的差异,但还不足以说明其差异形成的原因。因此,从社会政治、文化背景,从诗人个性、境遇、群体意识、审美追求、在群体中所占中心或边缘地位等方面,予以关联性、因果性、综合性的考察和比较,便是必要的了。否则,仅依靠相关数据作出若干统计,仅对研究对象进行孤立的、单向度的分析,恐怕无助于问题的真正解决。

        当然,将计量分析运用于中国古代文学的研究,在国内还只是刚刚起步,而在唐宋诗词的研究中进行计量分析,我们也只是作了一点点尝试,还存在许多技术层面和学理层面的问题,诸如分析模式、分析手段、变量函数关系、信度、效度等的确立,量与质的关系、文献数据与文化变量、心理变量之关系的协调,都是尚未解决或未解决好的问题。具体来说,在进行计量分析时,以下三个方面的问题最值得关注:

        首先,如何处理历史文献中的缺失值?由于历史风烟的荡涤和遮蔽,也由于社会文化生活的丰富复杂,在搜集数据时,常常遇到相关资料的散佚、不可寻觅或被忽略,从而出现计量分析时的某些缺失值。对这些缺失值,究竟采取什么态度?有无补救的方法?如果任其缺失,将之视为现实与历史对接时不可避免的一种必然,在一定程度一定范围内亦未尝不可,但这种缺失毕竟带来了研究可信度的降低。对这种情况,能否借助于社会统计学等学科的经验,使用多重插值法或其他基于模型的方法进行处理?

        其次,如何处理不同数据的权重?所谓权重,指的是计量分析中各数据所占比重。数据类型、所载文献及撰著者、撰着时代不同,所占比重自然不同。比如研究唐宋诗词接受史,一般要接触三种资料,一是历代诗歌选本,二是历代文人点评,三是今人研究论著。这三种资料对唐宋诗作者地位之厘定和作品之传播接受所起作用是有差别的,但如何界定这种差别?这种差别究竟有多大?进一步说,即使同为诗歌选本,著名选本与一般选本也不可等量齐观,需不需要分别对待?分别对待的标准又是什么?这些问题解决不好,就有可能影响到计量分析的准确度与合理度。

        最后,如何解决定量分析与定性分析的结合?一般来说,定量分析与定性分析是紧相关联的:定性分析在很大程度上依赖定量分析,定量分析的结果必然导向定性分析。没有后者,前者就失去了目的和意义;没有前者,后者便难以达到精准和科学。道理虽如此,但在实际运作中,要摆正二者的顺序并使之达到和谐却并非易事。一方面,定性判断并不只是出现在定量分析之后,在不少情况下,反倒需要对那些非直接性的间接数据予以定性判断、有所取舍后才能进入定量分析的程序;而如何定性,如何取舍,必然会影响到定量分析的结果。另一方面,就定量分析而言,仅仅拥有大量的数据和处理数据的方法,并不一定能保证分析结论和定性判断的正确可靠,在对这些数据进行分析时,还要涉及隐藏在数据背后难以量化的多种历史文化关系,而这些关系都将对定性分析产生程度不同的影响。不顾及这些关系,仅将目光局限于定量分析,局限于数据,就有可能会将研究引向歧途。定性与定量,是一个矛盾的统一体,如何处理二者的关系,需要花费气力在不断的实践中摸索总结,而不宜掉以轻心。

        综上所言,随着近年来计算机技术的突飞猛进和学科交融的迅速发展,学术研究的现代化进程已形成不可逆转的趋势。与此相关,在中国古代文学研究中,重视数据库的建构并部分地采借计量分析等新的方法,已展示出可喜的前景。当然,这里有两个问题需要说明:第一,在人文科学领域,计量分析只是作为传统历史文化研究的一种辅助和补充存在的,它不可能也不应该占据主流地位。第二,在此一学术研究转型的现代化进程中,古代文学的计量分析还存在诸多不可预见的因素,存在一些不可避免的失误;但既然是探索,就应允许试错,允许出现问题,允许在不断总结教训的过程中走向成熟。只有这样,学术研究的方法才能多元并进,学术研究的领域也才能日益扩大。
注释:

①关于数据库的定义,目前有多种表述。一般认为:数据库是依照某种数据模型组织起来并存放于二级存储器中的数据集合。这种数据集合具有如下特点:尽可能不重复,以最优方式为某个特定组织提供多种应用服务。其数据结构独立于使用它的应用程序,对数据的增、删、改和检索由统一软件进行管理和控制。但这种定义专业性过强,不易理解。故本文所用者盖为一较通俗、较形象的说法。
②参见施吕彦 主编《现代计量学概论》,中国计量出版社2003年版。
③均载尚永亮《唐代诗歌的多元观照》,湖北人民出版社2005年版。
④均载王兆鹏《唐宋词史的还原与建构》,湖北人民出版社2005年版。
⑤有学者统计《全唐诗》收诗49403首,陈尚君 辑校《全唐诗补编》收逸诗6327首,谓唐诗总计55730首。(见张明非 主编《唐诗宋词专题》第3页,高等教育出版社2003年版)这种说法其实是不确的,盖因《全唐诗》中重复极多,且有不少伪作掺入,必须将之剔除后才能得出较确切的数字。
⑥见曾大兴《中国历代文学家之地理分布》第102-132页,湖北教育出版社1995年版。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 21:38 , Processed in 0.127489 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表