湘里妹子学术网

 找回密码
 注册
查看: 2506|回复: 1

数据库是语言学家的重要工具

[复制链接]
发表于 2004-9-1 02:23:46 | 显示全部楼层 |阅读模式
作者: 江荻  
来源::中国社会科学院院报

------------------------------------------------------------------------------------------------------   

    无论是从事语言历史研究还是从事语言描写分析的学者都需要收集、加工和处理语料。语言研究领域的学者们或多或少都感受到了工作方式变革对他们的重要性。这种工作方式变革最突出的并不是某种理论和分析方法的创新,而是面向研究对象所需要更新的工具和操作手段。
     假定研究者面对的是数亿字词规模的年度报刊真实文本语料,期望从这样的语言材料中发掘新的语言规则或论证某种阐释,那么他首要的任务是怎样加工、筛选和抽取所需信息,因此他的任务转变为怎样制造加工语料和一定程度上提供分析语料的工具。他工作的操作方法发生了变化,即语言材料规模扩大导致工作方法改变。实际上,即使材料不扩展,研究者的研究视角发生变化、研究的精细程度发生变化、研究的时空效率发生变化,也都可能导致处理语言材料的工作方法和操作手段发生变化。从语言材料的属性来看,这些语料的来源和类型多种多样:既可能是学者亲自调查收集的语言材料,也可能是已经出版的语言材料;有些是文本型的语言材料,有些是句子或词语型的语言材料,有些是古代文言材料,有些是口语录音材料,甚至还有学者们千辛万苦经验型的想象性构拟形式材料。不同的材料有不同的媒介载体,不同的材料有不同的层次类别属性。要摆弄好这些材料,就得设法按照研究的目标和材料的性质进行梳理、系连、排列、归类。这是一般性研究对语言材料最基本的处理步骤。语言材料是人类知识的宝库。每一个研究目标或每一种理论方法都会对材料提出不同的处理要求,如重新分类、重新排列、重新关联等,特定情况下还可能提出对材料重新加以标注和重新解释的可能。以词汇语音研究为例,传统的三千张词语卡片按照声母分类排列需要耗费多少时间和手工操作精力,如果略微改变研究目标按照韵母排列,则需要再度重新“洗牌”,再花上若干时日手工劳作,接下来又要按照别的什么目标分类,其中的劳作实在是难以想象。如果还有诸如数据统计、分类数据抄写、分析结果描述等操作内容,每项分解的研究目标的工作时效和工作强度都无法令一项工作持续下去。这也是研究工作操作方法必须改变的一个重要因素。针对语言材料的大规模化,以及语言材料自身属性方面复杂的异源性、零散性、异质性、数量不等性等特点,语言学家有很多理由利用计算机来帮助自己处理语言材料。其中最常见的方法就是数据库方法。什么是数据库?数据库就是按照研究目的或者根据研究对象的性质将材料或者数据组织起来的集合体。它具有结构化、关系化、集成、稳定等特点。一般来说,数据库最基本的功能包括:
     1.数据定义。当我们建立语言材料数据库并在其中存储语言材料数据时,我们需要定义数据的格式、类型和相互关联关系。譬如,一个文本一定要考虑装载形式的容量,就像我们不能够只用一张卡片来抄写一个长文本一样;又如,词语,一定要考虑它的存放格式、它的排序方式、它的多种检索可能性,以及它与其他词语的关联方式。数据定义是决定数据使用的关键,数据库具有强大的定义功能,为语言学家提供了尽可能深和尽可能广地使用数据库的可能。
     2.数据处理。存放在数据库中的语言材料必须具备可操作性,语言学家通过多种操作方法来获取信息。其中最主要的操作处理包括筛选数据、数据排序、数据分类、数据统计以及数据更新。譬如,在一个语音词汇数据库中,你可以要求提取某个地理区域10种语言中与“山川”相关的所有词语,或者某个热带区域语言里昆虫的名称。以前文三千词语检索为例,选择语言(不仅一种语言数据),选择所定义的声母项,就能获得全部声母分类和排序,以及相关统计数据,所需时间约为1秒,把这些数据存储或者打印出来也不费事,然后选择韵母项、声调项作同样的操作,就能获得三个不同的数据结果。作为语言学家,花上几分钟做完这些操作性工作,你就可以集中全部心思去创造你的声韵调关系成果。这大概就是数据库的魅力和力量。
     关于语言学家需要数据库的理由很多,有些需要从数据库自身的特征来阐述。(1)数据库的多主题性。作为语言学家,你可以设想任何研究目标,然后按照你的要求进行检索,所有检索结果都一定程度上能为你的主题服务。这个前提是你曾经定义了相当广泛的数据和数据资源。(2)集成性。数据库具有容纳你所能想象的语言资源的能力,这些资源无论在来源上、类型上差异多大,都不妨碍“共聚一堂”,只要你能定义它们的相互关系,就有可能关联处理。(3)稳定性和动态性。存储在数据库中的语言材料一般是相对稳定的,稳定的材料具有可靠性,能保证不同学者分析研究的一致性。但另一方面,数据材料的组合又是动态的,不同语言学家可以利用数据库获得不同的创新。(4)全局意义。数据库规模越大,数量越多,研究价值越大。如同源词研究,你从一个或几个语言所得出的结论是非常有限的,其他语言学家并不一定信服你的研究,但如果你从100个语言的丰富材料得出结论,这个结论就具有全局性意义。
     当然,从宏观的角度考察,我们还有更多关于数据库使用的理由。首先是资源和知识管理。在知识经济时代,知识不仅是社会发展和企业成长的资源,也是学术积累和学术创新的资源。数据库作为资源存储的同时也是知识的存储,利用信息技术最大限度地掌握和利用已有资源和已有知识,可以加快知识积累和创新的速度。具体突出表现在“快、新、广”几个方面:“快”是指新技术的使用可以迅速提取已有资源,形成知识,这是知识管理的第一步,可以为创新铺垫扎实基础;“新”是指由已有资源知识触发新思想、新方法的涌现,如对大型数据库进行数据挖掘,对大型数据资源进行内容检索、概念分类,都会导致知识发现,这其实就是创新过程,很多聪明的方法、聪明的想法都得益于此;“广”是指随着资源的传播(数据库的发布、扩散),或者传递(数据库应用的教学、培训),就可能构筑一个广泛使用的知识平台,所有应用者站在同一资源起跑点,既公平又公正,有助于学术的竞争和进步,也有助于知识协作和知识整合。可以说,语言学家使用数据库绝非单纯的数据资源处理,更是一种深层次上的知识挖掘、知识抽取、和知识管理策略。当今语言资源深层开发、文本分析技术逐渐导致一系列新概念和新方法出现。因此,数据库是当代语言学家应对新挑战、把握新机遇的重要工具。
发表于 2004-9-1 14:32:00 | 显示全部楼层
未來無論Internet的前景如何演變,数据库(資料庫/Database)必定稱王。本文只提到概觀,應可作再具體些的觀察。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-29 17:32 , Processed in 0.112964 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表