湘里妹子学术网

 找回密码
 注册
查看: 3783|回复: 0

法律语言语料库建设及其思考

  [复制链接]
发表于 2009-12-23 17:05:02 | 显示全部楼层 |阅读模式
我国第一个“法律语言语料库”的建设及其思考
作者:宋北平 来源:http://www.eywedu.com/xiucixuexi/xcxx2008/xcxx20080104.html

       提 要 由于国内外尚没有建成的法律语言语料库,我国第一个法律语言语料库建设中需要探讨、解决的问题无疑会有很多,其中建设目的、取料范围、取料原则、分析标注和检索设计是必须解决的主要问题。课题组关于这些问题的研究和思考,对以后法律语言语料库的建设应该有些借鉴。
  关键词 法律语料库 建设 思考
  
  语料库诞生的时候,不但革新了语言学研究的方法,甚至动摇了一些传统的语言学理论,如今已成为语言学研究必不可少的工具。然而,将语料库引入法律语言的研究,却是一个新的问题,现就以本人设计、研制的法律语言语料库(下称“本库”)为例,对建设中的有关问题做些探讨和思考。
  
  1.法律语言语料库建设缘起
  
  2006年1月,笔者就近年潜心研究的“中国法律语言规范化工程”,邀请了国家语委原常务副主任陈章太研究员,教育部语言司司长李宇明教授,北京大学陆俭明教授,《中国法学》总编陈桂明教授,司法部司法研究所所长董开军博士,中国政法大学法律语言研究中心主任王洁教授,北京政法职业学院章景孙院长、徐明江副院长等,召开了专家咨询会。与会专家对如何开展我国法律语言规范化研究的问题,发表了许多精辟的咨询意见。陆俭明教授提出,如果想认真研究好法律语言,就必须首先建立一个法律语料库;如果没有法律语料库,法律语言规范化的研究很难开展起来。陈章太研究员进一步说,法律语料库不仅是法律语言研究必不可少的工具,也是法律语言规范化研究必不可少的利器,一定要在规范化研究展开之前完成建设工作。他们的意见获得了出席会议的法学专家认同。董开军博士说,虽然自己对语料库了解不多,但法律语料库对法律语言研究的作用无疑是很大的,应该率先研究。王洁教授则说,自己最大的遗憾是没能建成法律语料库,最大的盼望也是能有一个法律语料库。

  咨询会后,笔者即牵头成立了“法律语言语料库”科研组,笔者申报的我国第一个“法律语言规范化研究”课题获得司法部批准,法律语言语料库的研究即被纳入该课题之中。研制过程中,科研组所遇到的困难,凡没有建设过语料库,尤其是在没有科研经费的情况下建设过语料库的人,是难以想象出来的。如果没有获得如下几个方面的帮助,本库不大可能完成,至少不会在今天完成建设工作。
  
  第一,语言学家、语料库专家的帮助。笔者在设计本库的过程中,除了向陆俭明、陈章太、李宇明、崔希亮专家请教外,还特别专程请教了教育部语用所的靳光瑾研究员、谢俊英副研究员以及年轻的计算语言研究者肖航先生,北京语言大学张普教授和杨尔弘教授。尤其是,中国中医科学院《中医药一体化语言系统》的主持人伊爱宁女士向笔者详细演示、介绍了该系统的建设过程和技术来源。
  
  第二,科研人才的帮助。建设法律语料库,除了需要法学人才和语言学人才以外,必不可少的还有计算机程序设计人才,而科研组经费的短缺决定了不可能外聘。对此,北大英华科技公司给予了无偿的支持,没有他们强大的“语言~软件”科研能力,笔者几乎没有能力解决本库的计算机程序上的困难。
  
  第三,语料收集、标注、录入的帮助。这是所有语料库建设工作量最大的部分。本库按照设计要求,从国内最完善的法律电子数据库——北大法宝中抽取了8亿多字的语料,北大英华公司还承担了其它部分的标注、录入工作。

  笔者经过近两年的艰苦努力,通过整合各方面的力量,本库的建设总算完成。

  2007年10月18日,法律语言规范化研究专家委员会在法律出版社召开了专家鉴定会,对本库进行了科学鉴定。专家委员会主任、中国行为法学会会长刘家琛大法官,专家委员会副主任、最高检副部级专职检委委员戴玉忠教授,国家语委原副主任陈章太研究员,以及教育部社科司司长杨光副研究员。司法部司法鉴定管理局局长霍宪丹教授,北京政法职业学院副院长陈勇教授,社科院语言研究所董琨研究员,中央财经大学法学院院长郭锋教授,华东师范大学应用语言所副所长胡范铸教授,北大英华科技公司总经理乔聪启教授,法律出版社社长黄闽编审和副总编辑吕山等专家讨论后认为:第一个法律语言语料库的建设有助于解决我国目前法律语言研究受研究工具局限的问题,对法律语言应用、研究及规范化有重要意义,值得推广利用。
  
  2.法律语言语料库的设计与建设
  
  法律语料库是表述法律意义的语言材料的集合。在建设过程遇到的大大小小的问题,但至少如下五个问题是无法回避而必须解决的。
  
  2.1 语料库的建设目的

  就笔者所知,几乎所有的语料库都是为了语言本身的研究,或语言的学习而建设的。若有例外的话应该是《中医药一体化语言系统》。它是为医药业服务的医药语言电子数据库,但并不是语料库,实际上是经过规范化了医药语言检索系统。从语言学的角度看,法律语言是“领域语言”,而且可以说是最有现实意义的领域语言,因而非常值得研究。所以,法律语料库当然能以研究这个“领域语言”为目的而建设。不过,这种研究仍然是语言学上的研究,不需要或者几乎不需要法界专家的参与,更不需要法界人士作为主体研究者,因为其最终要解决的仍然是语言本身的问题,与法律没有多大的关系。

  由于法律是通过语言展现的,法律上的问题也就表现为语言上的问题,对法律的研究必须透过语言才能进行,因而,法律语料库的建设就能以直接为法律实践服务作为目的,包括法律的制定,法律的施行,法律的研究,法学的研究等等。当然,这些研究都离不开语言,这种直接为法律实践服务的语料库,同样也能为语言学服务,尤其是领域语言学。

  然而,笔者坚定不移地认为,无论是法律语言学还是法律语言研究,如果不是为法律实践服务,解决法律实践问题,就不是真正的法律语言学,就不是真正的法律语言研究!鉴于此,本库的建设目的,首先是为法律实践服务,其次是为法学研究服务,附带地为语言学研究服务。
  
  2.2 语料库的取料范围

  语料库的取样范围,直接决定了语料库建设目的能否实现。法律语料库的取料范围似乎非常容易划定:只取法律语言,撇开非法律语言。问题恰恰在于,究竟什么是法律语言!我国学界关于法律语言的定义,笔者曾经梳理过,大概有十余种,比较流行的有八种。每一种无疑都经过作者深思熟虑,再几经学界洗涤,应该都是真知灼见了,但共同之处都是从语言学的角度所做的界定,因而划分法律语言的“是”与“非”之间没有清晰的边界,不太可能据以划出本库的取料范围。

  例如,流行概念之一:“法律语言是民族共同语在法律事务领域运用的一种功能变体”。接着还用“语域(register)”和“变体(variety)”对该定义做出说明。撇开是否只有民族共同语才有法律语言不论,民族共同语的任何一部分都可能在法律事务领域中被运用,因而就不可能区分哪些民族共同语是,哪些不是法律语言。至于“功能变体”,更无助于二者的区分。而定义中的英文,虽然可能是我们的汉语词汇远远贫瘠于英语所致,但对具体区分汉语中法律语言的“是”或“非”仍然是“风马牛”。

  故此,我们不得不采用从法律的角度对法律语言做出的新定义:法律语言是表达了法律上有拘束力的符号系统。是否表达法律上的拘束力是区别法律语言和非法律语言的唯一标准。且这个标准不仅适用于汉语,也同样适用于其他语言;既适用于民族共同语,也适用于少数民族语言。它可以区分任何场合的法律语言,无论是书面语还是口头语。

  例如,当事人所做的书面陈述,如果他递交给了法庭,是法律语言,因为这个陈述的内容会产生法律意义;如果他没有递交给法庭,就不是法律语言,因为这个陈述的内容不会产生法律意义。该当事人如果不是书面而是在法庭口头陈述,其中被法庭记录在案且经其本人签名认可后,是法律语言,因为它会产生法律意义;其中没有被法庭记录在案的,不是法律语言,因为它不会产生法律意义。又如,律师为当事人双方起草的合同书,几经修改后双方均无异议。如果双方都签名了,表达该合同书的即是法律语言,因为它对双方均有约束力;如果有一方签名而另一方未签名,表达该合同书的便不是法律语言,因为它对任何一方都没有约束力。法律语言学者为了研究法律语言,经法庭许可所做的实况录音,同样不是法律语言,因为它不会产生法律意义。至于界定了法律语言之后,如何从法律的角度进行研究,是另一个更值得探讨的问题。

  以此为标准,本语料库的取料范围如下:

  1.全国人大制定的法律;
  2.我国对外签订的国际条约;
  3.国务院制定的行政法规;
  4.中央各部委的行政规章;
  5.司法解释及地方各级法院的“司法性”解释;
  6.地方法规;
  7.司法文书;
  8.执法文件;
  9.产生过法律意义的各种笔录;
  10.生效的合同。

  为了严格区分非法律语言,如下两点必须注意:

  第一,口语必须是转录后仍然有法律意义,即得到相关机关、人员认可其在法律上的作用,才能作为语料收集。

  第二,具有普遍约束力的法律、法规、部门规章、司法解释等,已废止、失效的,仍作为语料收入。
  
  2.3 语料库的取料原则

  对本语料库的建设,笔者于06年4月在法律出版社主持召开了“中国法律语言规范化工程科研会议”,科研人员来自法学界、语言学界和法律语言学界。会上发生的第一个争论,是讨论到本库的取料原则时,有语言学界的代表坚决认为,本库和其它语料库一样,取料必须全面贯彻均衡性,没有均衡性就没有科学性,与笔者主张的第一是重点性,第二是均衡性原则的观点发生了激烈的冲突。

  面对海量语料,任何语料库在建设时必须确定取样原则,否则,任何计算机也不可能存储全部相关的语料。语料库取样的均衡性(有人称“均匀性”)原则,即要求对不同类的语料要均衡收集,才能全面代表尚未抽取的部分。这是中外语料库取样时必须遵循的“基本原则”。然而,这个基本原则对法律语料库的而言,却并不“基本”。因为,无论是与通用语言比较,还是其他领域语言比较,法律语言独具的特征有“源”和“流”的差别。这种“源”“流”之别,实质上是法律效力的层级差别,即效力层级低的法律(如无特别说明,本文中的“法律”均使用广义)必须服从效力层级高的法律的语言表述。例如。如果社会生活某个方面的问题在法律尚未做出规定的情况下,审判中又不得不对这个问题做出判决,就只能以司法解释做出相应的规定。一旦这方面的法律颁布实施。如果已经公布的司法解释与其中的表述不一致,司法解释就应该做出相应的修改,否则就不能适用,以免与法律冲突。可见,法律语言的“源”是全国人大制定的法律,从这个“源”逐渐地流布开来,流的末梢即是未必经司法机构参与,但因为有法律的规定,对“人”仍然有约束力的生效“合同”之类的语言。

  由于在法律语言中,不同种类之间存在“服从”与“被服从”的关系,效力范围有大小的分别——最大的效力范围不仅在全国,甚至还会逸出国界,如与外国签订的条约与合同;最小的效力范围仅及于某个自然人或法人或组织。这个根本性特征,决定了法律语言取料的基本原则是“重点原则”而非“均衡”原则,即必须重点收集在全国范围内有效的语料文本。鉴于重点语料——全国有效的语料文本仅仅是法律(狭义)、行政法规、部委规章、司法解释这四种,并非海量而是有限,为了确保重点语料的全面性,因而必须全部收集(正是因为重点语料应该全部收集,而不是其它语料库的取样方法,所以本文称“取料”而非“取样”)。其它局部性和单个性的语料文本,则应该适用取料的均衡性原则。

  以“重点”原则为主,收集所有全国有效的法律,既保证了语料的充分性,又解决了“均衡”原则难以解决的代表性问题。如果不采取“重点”原则,必然发生“充分性”和“代表性”这两个严重影响本库建设目的实现的致命问题。

  其一,在全国范围内有效的法律语料,是法律语料中最核心的部分,也是最典型的部分。适用均衡性原则时,只可能有很少一部分被抽取,大部分不得不被舍弃。如此,本库要求的法律语料的充分性就不可能实现。语料没有充分性的语料库,必然不存在科学性、可信性。

  其二,均衡取样不仅不能反映文件的全貌,而且必须时刻注意样板的代表性。在全国有效的法律之语料,首先,不同法律效力级别的语料之间的代表性无法解决。显然不能认为效力级别低的能够代表效力级别高的法律语料,同样也不能认为法律效力高的可以代表效力级别低的语料,那样的结果,只有一部宪法的语料了。其次,同样效力级别的语料之间的代表性也无法解决。例如,同样是各部委的规章,如何认定哪个或哪几个部委的规章能代表其它部委的语料;同一个部委的规章,如何认定哪个或哪几个法律文件能代表其它文件的语料。
  
  2.4 语料库的分析标注

  前文提及的06年科研会议上关于本语料库建设的另一个激烈争论,是分析标注。来自语言学界的代表坚持认为,本语料库必须或应该像其它语料库一样进行分析、标注,做深化加工。而笔者认为,通常语料库的那些切分、标注等加工手段,在本语料库中没有必要也不可能全部采用。因为那些切分和标注,是为了研究语言本身或语言学而设置的,本库不是为了研究语言学,即使研究语言,也是最终为了研究法律而进行的。也就是说,为了研究语言学而进行的切分、标注,对研究法律没有太大意义,因此,本库只拟采用其中适用法律语言研究的部分。

  笔者虽然认为,切分在汉语的法律语料库的加工中未必需要,但标注还是有意义的。问题是,究竟在语料上标注什么内容才符合法律研究的需要,目前尚在黑夜中摸索,茫无头绪。例如,如果标注语料的部门法属性,或实体法与程序法属性,似属多余,因为它们已经在库内划分为不同的库区,在检索栏目完全体现出来了;如果标注语料是否符合法律语言规范,虽然很有意义,但尚未研究出是否规范的结果前是不可能标注出来的。在对标注的内容没有研究清楚之前,研究如何标注未免过于超前。既然现行其它语料库的为语言学研究而进行的分析、标注由于几乎无益于法律研究而最终将被从法律的角度进行的分析、标注所取代,因此,本语料库在没有研究出如何从服务于法律实践的目的出发进行分析、标注的情况下,宁愿不予标注,任其成为生语料库。
  
  2.5 语料库的检索设计

  本库的检索设计从语言和法律两方面考虑。由于利用语料库研究法律,首先且必须通过语言进行,所以,本库首先考虑如何从语言层面进行检索。

  2.5.1 语言层面的检索设计

  1)词在法律语言研究中,基本单位不是字而是词。词组是词的延伸。与词即可设置同样的检索模式。
  2)单句。句子可以认为是表达完整意义的语言单位,在法律语言中,句子的作用显得尤为重要,所以。句子也被设计为检索单位。由于计算机对句子的识别不可能从意义上进行,所以,句子的检索只能以句号为标志。即一个句号包括的文字即为一个句子检索单位,而不论其为什么性质、意义的句子。

  3)复句和多句。鉴于单句和复句在表达意义上的差别,而且一个句子的意义难免受到前后句子意义的影响,因而在研究本句的时候,往往需要研究其前后的句子,所以,以本句为中心,还设计了可以分别检索其前后一句、二句和三句的三种模式。这种模式还可以满足研究复句的需要。

  4)意群和段落。由于不少的情况下,三个句号未必能够覆盖一个意群,而段落也不乏研究的需要,所以也设计了段落为检索单位的模式,将意群的检索包含其中了。

  5)篇章。由于篇章也同样可能需要研究,所以设计了以整篇文件为检索单位的模式。

  2.5.2 法律层面的检索设计

  1)部门法。部门法究竟如何划分,法学界本来就有争论。通常是分得越细争论越大。例如,商法独立为一个部门法还是包含在民法内更恰当,至今争论不休。为了避免这些争论,也为了划分库区时对有些语料难以分别的问题,在划分部门法时采取了“宜粗不宜细”的原则,适用“四分法”,即“刑事”、“民事”、“行政”、“国际”四个部门法。宪法包含在行政法中,商法包含在民法中,计分四个子库。由于汉语、外语法律语言之间转换最频繁是英汉之间,所以特设了“英语法律语言语料子库”,与四个部门法子库并列,便于法律研究中比较、参照和借鉴。

  2)效力级别。为了能够比较研究不同效力层级之间的法律语言,或同一层级之间的法律语言,因而按照法律的效力级别不同而设计了检索模式。由于不同效力级别和同级别的法律语言分别属于“纵”“横”两种空间,因而不能并置于同一个库区之内,所以,二者不能同时检索,必须前后分别检索。这种模式必须在“部门法模式”展开后才能执行。

  3)时代特征。为了研究法律语言在不同时代的特征。以及先后年代的因革损益关系,因而设计了按年代检索的模式。该模式可在“部门法模式”或“效力层级模式”展开后执行。
  
  3.法律语言语料库的意义与价值
  
  3.1 促使法律界对法律语言的研究树立信心

  我国传统的语言学研究方法,大概可分为两种。其一是“主观”的方法:研究者通过内心的“自省”而“制造”出例句——当然,这种制造是研究者在对语言生活观察、比较的基础上进行,然后对其进行分析、研究。其二是“客观”的方法:收集语言生活中的实例——法律语言研究者则提出法律实践中的例句,进行分析研究。法律界对第一种方法的怀疑是:法律实践中的语言是这样的吗?对第二种方法的怀疑是:研究者的有限例句能代表法律实际中所有同样的情形吗?

  由于语料库提供的实例全部是法律实践中真实语言材料的复现,尤其是,就全国有效的法律语料而言,本库穷尽了一个研究样例的全部同样的语言材料,没有遗漏的可能,而这一部分恰恰又是法律语言的核心内容,因而,法律界对这种语料库语言学的研究方法不会也没有理由和必要质疑。可以认为,法律语料库能够成为法律界对法律语言研究树立信心的物质基础。
  
  3.2 彻底解决法律语言研究的瓶颈

  发端于语言学界的法律语言研究,进入本世纪以来。不仅出现廖美珍这样的已经深刻地认识到了法律语言研究对法律意义,因而深入中美两国法庭采集鲜活语料的语言学者,更有少数具有语言学背景而从事法律职业的研究者,进入到这个领域,认同、支持法律语言的研究是通过剖析语言解决法律问题的思想。更警醒人的是,经常就我国语言文字方面与外国对话的教育部语言司司长、著名语言学家李宇明教授明确指出:法律问题其实就是语言问题!学界在这些认识趋同的时候,却猛然发现,我国语言学界传统的以卡片记录材料的研究手段无法满足法律语言研究的需要,国内几个单位借鉴欧美经验已经建成的通用语料库,对法律语言的研究几乎没有帮助。电子数据的法律语料库的缺失,成为制约我国法律语言研究的瓶颈。
  
  3.3法律语言规范化研究必不可少的工具

  法律语言规范化的路径,第一步是建立标准的、规范的“法律语言库”,以“词”为基本元素,以“句子”为基本单位,使用者可以便捷地查出其需要的规范的法律语言材料,分辨出不规范的材料;第二步是研究出标准的“法律语言语法规则”,法律语言的使用者,以该规则为框架,以规范的语言库中的语言为材料,就可以构筑规范的法律语言。

  然而,无论是法律语言库的研究,还是法律语言语法规则的研究,如果没有法律语料库为基础,都不可能进行全面的比较研究。以点代面,没有全面占有材料,这种本身就“不规范”的研究方法,便不可能得出某个法律语言的“元素”或“单位”是否规范的结论。因此,没有法律语料库,要进行法律语言规范化研究,是难以想象的。
  
  3.4 为法律实务界、法学界、语言学界和法律语言学界共同研究法律语言提供了一个交流、对话的平台

  正如专家们一致认为的,虽然本库语料庞大,内容丰富,但仅仅做了基本的加工,也可认为是生语料库。要想本库发挥更强大的功能,就需要进一步的分析、标注。虽然可以肯定的是,现在通用语料库的加工方法基本不适用于法律语料库,但法律语料库的加工技术却离不开语言学界现有的技术基础。而究竟如何分析、标注,才能很好地服务于法律语言的研究需求,需要法律实务界、法学界和法律语言学界的共同研究和探讨。本语料库至少为以上四个学界的专家提供了一个共同研究的结合点。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-27 08:39 , Processed in 0.097446 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表