湘里妹子学术网

 找回密码
 注册
查看: 11412|回复: 10

[繁简之辩](五)简化汉字到底简化了什么

[复制链接]
发表于 2003-9-3 11:09:42 | 显示全部楼层 |阅读模式
作者:张钊
来源:国家与社会论坛
  
-------------------------------------------------------------------------------------------------------   
       两个小故事  

  一次,和一位同胞争论起唐朝初年的历史,吵得脸红耳赤。他的博学每每令我惊讶。我原来自以为很熟悉两《唐书》,但他讲的好些典故我听也没听过,很惭愧于自己史识浅薄。追究下去,他说:是从电视剧《唐明皇与杨贵妃》里看来的。我立即哑口无言!  

  去年编辑部来了一篇稿子,题目是:男尊女卑在汉语和德语中的对比。作者是一位语言学专家,在国内出过好些书,发表过好些文章。他的立论是:汉字中,从“女”、从“母”的字多含贬义。他以“毒”字为例,说:“从‘母’,贬义”。正体汉字中的“毒”字下边不是个“母”,而是个“毋”。汉字简化后,把这两个部首合一,都写作“母”,因此造成了这样奇怪的“研究结果”。  

  是什么造成了我们对历史的严重曲解,是什么造成了我们对几千年的文化沉积那样深刻的偏见呢?这首先来自我们的意识形态中对传统文化的逆反心理。但是,现代汉语白话文运动与解放以后的汉字简化运动对当代中国文化与知识分子的影响是不能忽视的。这种具有“中国特色”的意识形态以及对汉语、汉字的大规模改革都与五四新文化运动所崇尚的精神有关。  

  白话文与简化字  

  现代汉语白话文与简化汉字是五四新文化运动的精神最显著、最有成效的两个结晶品,它对中国文化的现实与未来有着难以估量的深远影响。  

  现代汉语白话文运动不仅是一场文化大革命,更是一个有广泛现实效果的政治举措。现代汉语白话文被规定为正规语言之后,首先在小、中学的语言教育中获得了普及。随着一代一代通过现代汉语白话文学习科学、文化的人们的成长,它在一般媒体如图书、杂志、报纸、广告、广播、电视,乃至于现代的互联网中,在日常的应用文字如文件、通知、说明书与账单等等中,都获得了广泛的应用。但是,现代汉语白话文运动在汉语、汉字的改革中并不是孤立的,它仅仅是这场轰轰烈烈的文化改造与文化决裂运动的先导之一,开了此后一切弃绝文化传统的行为的先河。现代汉语白话文的成功普及为这场文化运动树立了信心,为后来的汉字简化运动铺下了理念与实践的基石。可以说,汉字简化运动直接继承了现代汉语白话运动的精神,彻底完成了现代汉语白话文运动未竟的事业。  

  肇端于五四的反礼教、反封建的口号从意识形态上造成了现代人与文化传统的隔膜,而现代汉语白话文与简化汉字才切实地隔断了中国文化的承传。经过这两个运动,汉语文言文与正体汉字就由文化的主要载体退化为文化的特殊现象。对于我们今天的知识分子,它们不啻于外语、外文,不经翻译,不经注释,没有师友的指导,民国以前——并非远古——的书籍与文字就不能被流畅地解读。经过这两个运动,中国文化才成了“传统文化”,“古代文化”,成了已经死去的东西。文化大革命与八十年代的“反思”(《河殇》之流)敲死了棺材上最后两枚铁钉,把几千年的思想、文化沉积送进了坟墓。  

  白话文、简化字白化了文化,简化了思想  

  马克思主义的知识分子们说:传统文化不能适应生产力的新发展,我们需要新的文化;不与传统文化实行最彻底的决裂,新的文化就不能建立。因此,隔绝中国文化的承传,正是我们努力的方向。他们的逻辑有些不能自圆其说的地方。  

  生产力的发展是一个积累的过程,每一个新发现,新技术,新的生产流程,新的市场开发都是建立在以往的发现,以往的经验的基础上的。为了追求新的生产力,而摒弃一切既有的知识与技术,回到钻燧取火,击石成斧的水平上,当然是不可以的。与生产力相比较,文化的发展更是一个积累的过程,对既有的沉积有更大的依赖性。为了建立适应新的生产力的文化,而摒弃一切既有的文化,就如同把文化抛回到原始洪荒的野蛮时代。  

  五四人并不是要我们拒绝一切文化,头脑空空,君子而野人,人而禽兽。他们是要我们抛弃中国的文化,义无反顾地接受欧洲文化。他们只是把中国文化看成了接受欧洲“先进文化”的拦路虎。如今,这个拦路虎分享了其他珍禽异兽的命运,被我们灭绝了,我们有没有因此更好地接受了“先进”的文化呢?我们废除了汉语与汉字,却并没有因此学会任何一种“先进的语言”,并没有因此打开一条通向“先进文化”的康庄大道。连我们最崇拜的马克思、恩格斯的原典也是几经翻译、注释才能读懂。学校里教的“马克思主义”其实不出斯大林的那本薄薄小册子。  

  象一个断绝了源泉的小水洼,当代中国文化虽然仰受着欧洲十八、十九世纪支流思想的雨露甘霖,恐怕还是难免干涸的命运。缺氧的人在最后的时刻不会再感到窒息,反而产生了欣快。中国知识分子对当代文化的欣快感,无异于回光返照。我们说白话文、简化字白化了文化,简化了思想,不是危言耸听,而是处处可见的悲惨现实。  

  学习汉语、汉字,真正解放思想  

  李斯要为秦始皇建立绝对的权威与统治,因此必须杜绝一切传统价值对现实政治的批判,强迫人民以吏为师,全神贯注地学习秦王朝要他们知道的东西,实行彻底的思想清洗。先秦的文化,特别是那些文化的载体——书与儒生,都是这个思想清洗的拦路虎。焚书坑儒是灭绝这个拦路虎既干脆又快捷的办法。但是,高祖进军鲁国,当地读书声、弦歌声不绝于耳。孔子之道终于成了此后两千多年的主导思潮,而申韩法家成了暴政文化的代名词。  

  与焚书、坑儒不同,汉语、汉字所遭到的大规模的改造,真正、彻底地把人民与既有的文化营养隔离开了,使他们长久地处于文化的真空之中。Bill Gates说:“掌握了媒体,就掌握了头脑。”在失去了一切文化营养来源的时代,这句话就好千真万确的真理,在闪闪放光。  

  这两天是鲁迅的纪念日。鲁迅一面教导年轻人彻底摒弃古书,一面提倡独立的人格,呼唤“精神的战士”。当代中国知识分子可以说是用自己的一生去履行鲁迅的教诲。他们一方面把早已经被打翻在地的中国传统文化当作替罪羊,在它身上灌注了一切失败与绝望带来的仇恨;另一方面,热切追求思想解放,希望打破所有条条框框,作最彻底的“自由主义者”。但是,他们无论怎样努力,其思想与行为都不能超出既有的模式。他们虽然以“后现代”自我标榜,但其思想深处还被禁锢在带上了“中国特色的”,欧洲十八、十九世纪的那一两个思想流派的囹圄中。因为,他们鉴于语言文字的隔膜,不能切实学懂其他任何东西。  

  孔子说:“吾尝终日不食,终夜不寝,以思;无益,不如学也。”无论是学习任何一种欧洲语言,还是学习汉语、汉字,都可以帮助我们打开通向外界窗口,有希望有朝一日能解脱桎梏,逃出囹圄。不管你信不信,学习才能带来真正的思想解放。 
===

"白话文、简化字白化了文化,简化了思想"
这话值得人们深思啊......
发表于 2003-10-26 15:21:30 | 显示全部楼层

三流人物製造問題─老毛

第一等人解決問題,三流人物製造問題─老毛。
一大堆論文言大志誇,一方面不敢題教政府改革,另一方面
卻沒能力解決問題。
目前大陸的繁簡程式沒一個用心的,新華社和人民鈤報的繁
體版,還把後面寫成后面,除了死要面子之外,看不出大陸
朋友的努力。
少寫些無聊文章,來寫程式吧,來解決問題。
漢語自動分詞研究評述(Images)
http://artvine.com.tw/cgi-bin/bo ... w_post&post=372

[ 本贴由 水電工 于 2003-10-26  15:29 最后编辑 ]
发表于 2003-10-26 17:43:49 | 显示全部楼层
要知道简也不是乱简的。现在迫切需要能说文解字专家来解释为什么这么简,因为有许多专家都是人云亦云。
发表于 2003-10-26 22:18:43 | 显示全部楼层

汉语自动分词研究评述

【标题】汉语自动分词研究评述
【原文出处】当代语言学
【原刊期号】200101
【标题注释】本项研究得到国家自然科学基金(项目号:69705005)和国家重点基础研究发展规划项目(项目号:G1998030507)的资助。
【作者】孙茂松/邹嘉彦

【内容提要】本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
【关键词】中文信息处理/汉语自动分词/切分歧义消解/未登录词处理/语言资源建设
【正文】
        
1.汉语自动分词的现实性与可能性

   众所周知,中文文本没有类似英文空格之类的显式表标示词的边界标志。汉语自动分词的任务,通俗地说,就是要由机器在中文文本中词与词之间自动加上空格。一提到自动分词,通常会遇到两种比较典型的质疑。一种质疑是来自外行人的:这件事看上去平凡之极,好像一点儿也不“热闹”,会有什么用呢?另一种质疑则是来自内行人的:自动分词研究已经紧锣密鼓地进行了十几年了,可到现在也未见一个经得起考验的系统推出来(与此形成鲜明对照的是,日语同样也存在分词问题,但已经有了圈内人士广泛认同的日语分词系统),这几乎成了中文信息处理中一个“永恒”的话题,那么,到底还有没有希望搞出真正意义上的“门道”来?
    第一种质疑关心的是自动分词的现实性问题,其答案是十分明确的。当前的大环境令人鼓舞:中国正在向信息化社会迅速前进,其突出表征是Internet上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。以非受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。具体来说,自动分词在很多现实应用领域(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着极为重要的角色(Wu Z.M.and Tseng G.1993;Wu Z. M.  andTseng G.1995; Nie J.Y.and Brisebois M.et al.1996;Sun M. S. andLin F.Z.,et al.1996)。我们举两个例子直观说明一下。
    [文本检索]
    设文本A含句子(1a)而文本B含句子(1b):
    (1)a.和服│务│于三日后裁制完毕,并呈送将军府中。
       b.王府饭店的设施│和│服务│是一流的。
    显然,文本A讲的是日本“和服”,文本B则与酒店的“服务”有关,两者风马牛不相干。如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。
    [文语转换]
    注意句子(2a)、(2b)中的“查金泰”:
    (2)a.他们是来│查│金泰│撞人那件事的。
       b.行侠仗义的│查金泰│远近闻名。
    句子(2a)中“查”为动词,应读cha,句子(2b)中则为姓氏,应读zha。
    第二种质疑直指自动分词的可能性问题。虽然迄今为止我们尚不能下一个完全肯定的结论,但经过圈内学者十几年不懈的探索,这个答案的轮廓还是大体凸显出来了。毕竟词平面上的研究与句法平面和语义平面相比照,本身难度要小得多,并且无论是在计算语言学方面还是在普通语言学方面,所取得的成果也要成熟、扎实得多。现有的工作积累已经达到了可以厚积薄发的程度。如果说面向非受限文本的汉语句法、语义自动分析还是可望而不可即的话,那么,面对相同对象的汉语自动分词,则距凯歌初奏只有几步之遥了(当然即使达到了那个目标,也还不是功德圆满)。Sproat R. and Shih C.L.,et al.(1996)及Sun M. S.and Shen D.Y.,et al.(1997 )的汉语自动分词原型系统已初具处理非受限文本所需的种种功能,他们沿着正确方向跨了一大步。
    本文的重点是第2节,将集中讨论汉语自动分词中的基本问题, 并扼要评介十几年来产生的各种方法(文后的参考文献基本囊括了这一领域比较有代表性的论文)。第3 节则就今后的研究要点发表一些个人意见。
        
2.汉语自动分词中的基本问题和主要解决方法

    2.1切分歧义及其处理方法
    2.1.1切分歧义的基本类型
    切分歧义是汉语自动分词研究中的一个“拦路虎”。梁南元(1987)最早对这个现象进行了比较系统的考察。他定义了两种基本的切分歧义类型:
    定义1 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。
    [例]交集型切分歧义:“结合成”
    (3)a.结合│成
       b.结│合成
    其中A=“结”,J=“合”,B=“成”。
    定义2 汉字串AB被称作多义组合型切分歧义,如果满足A、B、 AB同时为词。
    [例]多义组合型切分歧义:“起身”
    (4)a.他站│起│身│来。
       b.他明天│起身│去北京。
    对交集型切分歧义,他还定义了链长:
    定义3  一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。
    如,交集型切分歧义“结合成分子”、“结合”、“合成”、“成分”、“分子”均成词,交集串的集合为{“合”,“成”,“分”},链长为3。
    这些定义所涉及的几个概念,基本刻画了汉语切分歧义的结构特点,因而一直沿用下来。
    梁南元(1987)对一个48,092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12∶1。
    有意思的是,刘挺、王开铸(1998)的调查却显示了与梁南元截然相反的结果:中文文本中交集型切分歧义与多义组合型切分歧义的出现比例约为1∶22。造成这种情形的原因在于,定义2有疏漏。Sun M. S.and Benjamin K.T.(1995)猜测, 加上一条限制才真正反映了梁的本意:
    定义2'汉字串AB被称作多义组合型切分歧义,如果满足(1)A、 B、AB同时为词;(2)中文文本中至少存在一个前后语境C,在C 的约束下,A、B在语法和语义上都成立。
    例如,汉字串“平淡”符合定义2,但不符合定义2' (因为“平│淡”在文本中不可能成立)。刘、王将“平淡”计入了多义组合型切分歧义,梁并未计入。由于符合定义2 的汉字串数量远远大于符合定义2'的汉字串数量,出现“乾坤颠倒”也就不足为怪了。
    仔细分析一下,定义1和定义2都是完全从机器角度加以形式定义的,定义2'则增加了人的判断。孙茂松、黄昌宁等(1997)认为, 定义2中给出的名称“多义组合型切分歧义”是不太科学的(实际上,某些交集型切分歧义也是多义组合的),易引起混淆,与“交集型”这个纯形式的名称相呼应,称作“包孕型”或者“覆盖型”可能更恰当。
    董振东(1997)采用了另外一套名称:称交集型切分歧义为“偶发歧义”,称多义组合型切分歧义为“固有歧义”。“两者的区别在于:造成前者歧义的前后语境是非常个性化的、偶然的、难以预测的”,“而后者是可以预测的”。这个表述相当深刻地点出了两类歧义的性质,耐人寻味。但名称的准确性仍有可斟酌之处。

        视角  真歧义类       伪歧义类
交集型切分歧义 定义       定义1
        性质      偶发歧义
        数量  少量         大量
        例子  地面积,和平等,的确定 和软件,在建设,部门对
覆盖型切分歧义 定义  定义2'        定义2扣除定义2'的外延
        性质  固有歧义       偶发歧义
        数量  少量         大量
        例子  起身,把手,一行,三角 平淡,高度,词条,结论
        表1 切分歧义类型表

    孙茂松、左正平(1998)指出,切分歧义应进一步区别“真切分歧义”和“伪切分歧义”。譬如:同属交集型,“地面积”为真歧义(“这几块│地│面积│还真不小”“地面│积│了厚厚的雪”),“和软件”则为伪歧义(虽然存在两种不同的切分形式“和软│件”和“和│软件”,但在真实文本中,无一例外地应被切分为“和│软件”);同属覆盖型,“起身”为真歧义,“平淡”则为伪歧义。
    归纳以上论述,本文整理出一张切分歧义类型表(见表1), 希望对澄清概念上流传已久的混乱有所帮助。
    关于切分歧义,还有两点基本观察:
    1)根据孙茂松、左正平(1998)对一个1亿字语料库的穷尽式统计,交集型切分歧义长度变化范围为3~14 个字(“提高人民群众生活水平息息相关”),交集串长度变化范围为1~3个字(“如箭在弦上”),链长变化范围为1~9个字(“中国人民生活水平和美化”);
    2) 交集型和覆盖型常常会相互纠缠在一起,这就更增加了变数。如图1中的“提高人民生活水平”共可衍生出19 种可能的形式切分(弧线表示可成词)。
    附图

    图1 若干基本类型的混合
    2.1.2 切分歧义的检测与消解
    切分歧义处理包括两部分内容:(1)切分歧义的检测;(2)切分歧义的消解。这两部分在逻辑关系上可分成两个相对独立的步骤。
    首先谈谈切分歧义的检测问题。“最大匹配法”(精确的说法应该叫“最长词优先匹配法”)是最早出现、同时也是最基本的汉语自动分词方法,1963年就在《文字改革》杂志上被介绍过(刘涌泉1988)。刘源、梁南元(1986)首次将这个方法大规模应用到汉语自动分词系统中。依扫描句子的方向,又分正向最大匹配MM(从左向右)和逆向最大匹配RMM(从右向左)两种。 最大匹配法实际上将切分歧义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。据梁南元(1987)的实验结果,在词典完备、没有任何其它知识的条件下,最大匹配法的错误切分率为1次/169字~1次/245字,并且具有简单、快速的优点。Guo J.(1997)更对最大匹配法的工作原理作了严格的形式解释。此外,揭春雨、刘源等(1989)比较完整地分析了最大匹配法的结构及其时间效率。
    从最大匹配法出发导出了“双向最大匹配法”,即MM+ RMM。SunM.S. and Benjamin K.T.(1995)注意到:汉语文本中90.0%左右的句子,MM和RMM的切分完全重合且正确,9.0%左右的句子MM和RMM 切分不同,但其中必有一个是正确的(歧义检测成功),只有不到1.0 %的句子,或者MM和RMM的切分虽重合却是错的,或者MM和RMM切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。
    显然,双向最大匹配法存在着切分歧义检测盲区。针对切分歧义检测,另外两个有价值的工作是,王晓龙、王开铸等(1989)的“最少分词法”(歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加)和马晏(1996)的“全切分法”(穷举所有可能切分,实现了无盲区的切分歧义检测,但代价是导致大量的切分“垃圾”)。这个问题直到今天也没有完全解决——如果把双向最大匹配法视作一个极端(最简单)而全切分法视作另一个极端(最繁杂)的话,我们的目标应该是:在这两极之间寻找一个“删繁就简”的折衷方案,既(几乎)排除了检测盲区,又抑制了可能切分个数的无理膨胀。
    接下来讨论切分歧义的消解问题。十几年来,研究人员几乎调动了人工智能领域所有“时髦”的计算手段来对付切分歧义,堪称“八仙过海,各显神通”。典型的手段包括:“松弛法”(Fan C.K. and Tsai W. H. 1988),“扩充转移网络”(黄祥喜1989), “短语结构文法”(梁南元1990;姚天顺、张桂平等1990;Yeh C.L. and Lee H. J. 1991;韩世欣、王开铸1992),“专家系统”(徐辉、 何克抗等1991),“神经网络”(徐秉铮、詹剑等1993 ), “有限状态自动机”(Sproat R. and Shih C.L., et al. 1996),“隐Markov 模型”(LaiB.Y. and Sun M.S., et al. 1997;沈达阳、孙茂松等1997a; 孙茂松、左正平等1999a),“Brill式转换法”(Palmer D.D.1997)等。 这些新的探索体现了切分歧义消解计算的不同侧面,在一定范围内取得了各自的效果,但从总体上看,还都嫌粗糙;或者虽然研究比较充分,但模型本身的计算能力偏弱;或者仅仅搭起了一个框架,浅尝辄止;或者实验规模太小,说服力不足。
    通过不断的实践,人们越来越深刻地认识到,如果没有足够的语言知识作为支撑,再先进的计算手段也只能是“银样蜡枪头——中看不中用”。切分歧义消解经历了一个由浅及深、由简单到复杂的语言知识利用的演变过程:
    1 )一些系统(尤其是早期系统)主要利用词频以及语素(自由抑或约束)、切分歧义表层结构等简单信息(Fan C.K. and Tsai W. H.1988;李国臣、刘开瑛等1988;王永成、苏海菊等1990;Chen K. J.and Liu S.H. 1992;马晏1996)。
    2)Sun M.S. and Lai B.Y., et al. (1992) 揭示了音节信息在自动分词中的作用。
    3)何克抗,徐辉等(1991)断言,95.0 %左右的切分歧义可以借重句法以下的知识解决,只有5.0%必须诉诸语义和语用知识。 基于规则的几个分词系统(黄祥喜1989;梁南元1990;姚天顺、张桂平等1990;Yeh C.L. and Lee H.J.1991;韩世欣、王开铸1992;徐辉、 何克抗等1991)都自觉或不自觉地受到这个结论的支配,切分歧义消解主要诉诸词法与句法规则。存在的缺陷是,规则集由人凭主观编制而成,会受到系统性、有效性、一致性、可维护性等“天然”问题困扰。
    4)为克服人工句法规则集的弊端, 一些研究人员开始尝试另一种途径一句法统计。Lai B.Y. and Sun M.S., et al.(1992; 1997) 、Chang C.H. and Chen C.D.(1993)、白拴虎(1995)等将自动分词和基于Markov链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义(词性标注对分词有反馈作用,两者并行)。初步实验(Lai B.Y.and Sun M.S., et al.1997)表明,同“先做最大匹配分词,再作词性自动标注”(词性标注对分词无反馈作用,两者串行)相比,这种做法的分词精度和词性标注精度分别提高了1.3%和1.4%。
    (5)他俩儿谈恋爱是从头年元月开始的。
    切分a.… 是 │ 从头 │  年  │ 元月 │ …
        动词   副词  时间量词  时间词
    切分b.… 是 │ 从 │  头年  │ 元月 │ …
        动词   介词   时间词   时间词
    虽然“从头”、“年”的词频之积大于“从”、“头年”的词频之积,但词性序列“动词+副词+时间量词+时间词”的概率远小于“动词+介词+时间词+时间词”的概率,所以选择切分b作为结果。
    5)Wu A.D. and Jiang Z.X.(1998)走得更远。他们相信, 多数情况下,切分歧义可以在输入句子的局部范围内得到妥善处理,但有些比较复杂的切分歧义,必须在句中更大的范围内才能解决。当遇到这种情况时,他们的系统将对句子做完整的句法分析,如果分析失败,则拒绝相应的切分:
    (6)在这些企业中国有企业有十个。
    切分a.在│这些│企业│中│国有│企业│有│十│个│。
    切分b.在│这些│企业│中国│有│企业│有│十│个│。
    切分b得不到可信的句法树,因而被拒绝。
    当然,分析的层次越深,机器对知识库质量、规模等的依赖性就越强,所需要的时间、空间代价也就越大(况且面向真实文本的汉语句法分析器在可预期的将来几乎没有实现的可能,这也是应予考虑的因素)。有时不免使人产生一种陷入因果循环般的困惑:消解切分歧义这一相对“简单”的任务似乎不得不倚仗比分词本身困难得多的句法分析才得以完成。这个“悖论”里面其实蕴涵着深刻的“潜台词”,对中文自然语言处理系统的设计很有启发,囿于篇幅,这里就不展开了。
    另一个值得一提的工作是,孙茂松、左正平等(1999b)发现, 从一个1亿字真实汉语语料库中抽取出的前4,619 个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20 %(它们对另一个完全独立的语料库的覆盖率为50.85%, 说明高频交集型切分的分布相对不同的领域是比较稳定的),其中4,279个属伪歧义(如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。 鉴于伪歧义的消解与上下文无关,于是他们提出了一个简单却很有效的策略:对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。本质上,这是一个基于记忆的模型。
      2.2未登录词及其处理
    未登录词大致包含两大类:1)新涌现的通用词或专业术语等;2)专有名词,如中国人名、外国译名、地名、机构名(泛指机关、团体和其它企事业单位)等。前一种未登录词理论上是可预期的,能够人工预先添加到词表中(但这也只是理想状态,在真实环境下并不易做到);后一种未登录词则完全不可预期,无论词表多么庞大,也无法囊括。
    孙茂松、邹嘉彦(1995)指出,真实文本中(即便是大众通用领域),未登录词对分词精度的影响超过了歧义切分。未登录词处理在实用型分词系统中占的份量举足轻重。
    对第一种未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花,所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的n元汉字串之分布(n≥2)为基础。Sproat R. and Shih C.L. (1993) 借用信息论中的“互信息”定量描述任意两个汉字之间的结合力。Sun M.S. and Shen D.Y.,et al. (1998)沿这个思路前进了一步,提出了汉字间t- 测试差的概念作为互信息的有益补充。黄萱菁、吴立德等(1996)则引入经典统计论中的“四分联立表”及检验联立表独立性的皮尔逊x[2]-统计量,对长度分别为2字、3字和4字的任意汉字串做内部关联性分析, 继而获得候选词表。Nie J.Y. and Jin W.Y., et al.(1994) , 刘挺、 吴岩等(1998)的工作仅利用了相对简单的字串频信息。这里提到的几个统计量(互信息、t-测试差、x[2]-统计量、字串频)都是依赖于极大规模语料库的,孙茂松、邹嘉彦(1995)故而称之为全局统计量。
    处理第二种未登录词的做法通常是:首先依据从各类专有名词库中总结出的统计知识(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息(如称谓),以及全局统计量和局部统计量(参见下文),进行进一步的鉴定。已有的工作涉及了四种常见的专有名词:中国人名的识别(张俊盛、陈舜德等1992;宋柔、朱宏等1993;孙茂松、黄昌宁等1995)、外国译名的识别(孙茂松、张维杰1993)、 中国地名的识别(沈达阳、 孙茂松1995)及机构名的识别(Chen H.H. and Lee J.C. 1994;张小衡、 王玲玲1997)。从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。而任务本身的难度实质上也是循这个顺序由小增大。
    沈达阳、孙茂松等(1997b )特别强调了局部统计量在未登录词处理中的价值。局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一般仅限于该文章的统计量(通常为字串频)。孙茂松、邹嘉彦(1995)通过下例演示了局部统计量的功效:
    (7)河南会员冯俊发愿无偿赠送百日红1000株。
    切分a.河南│会员│冯俊发│愿│无偿│赠送│百日红│1000│株│。
    切分b.河南│会员│冯俊│发愿│无偿│赠送│百日红│1000│株│。
    孤立地看句子(7), 即使进行句法甚至语义分析也不能判断到底是切分a还是切分b(两者都具合理性)。只有跳出句子界限的束缚,在比句子更大的单位——篇章内才能定夺。譬如,若下文出现“冯俊发”如何如何,则取切分a;出现“冯俊”如何如何,则取切分b。显然,局部统计量与心理学中的“短时记忆”机制或计算机技术中的“缓冲区”机制是“心有灵犀一点通”的。
    一般地,未登录词的介入会引起新的切分歧义,从而使分词系统所面临的形势更加复杂化。Sun M.S. and Shen D.Y., et al. (1997) 将切分歧义明确地细分为:1)普通词与普通词之间的切分歧义(第2.1节);2)普通词与未登录词之间的切分歧义;3)未登录词与未登录词之间的切分歧义。
    观察句子(8):
    (8)王林江爱踢足球。
    中国人名识别模块猜出的候选者为“王林”、“王林江”、“林江”、“林江爱”、“江爱”,中国地名识别模块猜出的候选者为“林江”。其中中国人名“王林”与“王林江”、“王林”与“林江”、“王林”与“林江爱”、“王林江”与“林江”、“王林江”与“林江爱”、“王林江”与“江爱”、“林江”与“林江爱”、“林江”与“江爱”、“林江爱”与“江爱”之间以及中国人名“林江”与中国地名“林江”之间产生了未登录词与未登录词之间的切分歧义,普通词“爱”与“江爱”、“林江爱”之间则产生了普通词与未登录词之间的切分歧义。
    必须说明,目前关于未登录词处理的研究,总的来说还是比较初步,在方法上特别是在局部统计量的计算模型上还要下大气力。这里不加说明地列出两组例子,读者不妨仔细体会个中滋味:
    附图

    2.3 语言资源建设
    一个好的自动分词系统离不开必要的语言资源的支持。涉及到的最主要的资源有三个:通用词表、经过分词和词性标注的语料库以及极大规模生语料库。一方面,它们为开采分词系统所需要的各类知识提供了“矿藏”丰富的宝山(如:切分歧义的静态分布与采用什么样的词表有关,切分歧义的动态分布及其句法消解模式,乃至隐Markov模型的统计参数,都可从分词和词性标注的语料库中习得,全局统计量则可由极大规模生语料库自动转化而来);另一方面,分词和词性标注的语料库又可作为测试材料对自动分词系统的性能进行定量评估。因此,语言资源的构造同样是自动分词研究不可或缺的一环。
    这个环节上面临的主要困难其实源自汉语语言学研究中悬而未决的一些“经典”问题,如词与语素及短语的界限、词类划分体系及词的具体归类等等。受文章长度的制约,不打算多谈了。这里仅想对第一个问题(其实就是所谓的分词规范)简单讲几句。分词规范直接影响到词表和分词语料库的质量,虽然已经有了国家标准(国家技术监督局1993;刘源等1994),有的单位也制定了自己的规范(黄居仁、陈克健等1997),但这些规范的可操作性都不太强(如国家标准中多次出现的关于“什么是词”的表述:“结合紧密、使用稳定”,就无法操作),很难据之构造出一致性好的词表和分词语料库来(孙茂松1999)。针对这一点,梁南元、刘源等(1991)和孙茂松、张磊(1997)提出了“人机结合、定性与定量并举”的解决思路,并进行了一定规模的实验,但这个思路是否真的可操作,尚言之过早。
    顺带提一下,在这个环节上,语言学是大有用武之地的,计算语言学正在以一种迫切、坦诚的心情张开双臂期待着与语言学的拥抱。反过来,语言计算的性质(系统必须覆盖拟处理的一切语言现象)也会逼迫语言学更多地以全面、系统的观点解释、分析语言,从中升华出来的理论可能更贴近语言的真实面貌,更经得起推敲。

3. 今后的研究要点

    1995年12月,国家科委组织了863智能机专题自动分词评测, 国内有几个系统参加。开放测试条件下的评测结果是:分词精度最高为89.4%;交集型切分歧义处理的正确率最高为78.0%,覆盖型切分歧义处理的正确率最高为59.0%;而未登录词识别的正确率,人名最高为58.0%,地名最高为65.0%(刘开瑛1997)。1998年3月, 国家科委又搞了第二次评测,结果与第一次差不多。这意味着,即使是对汉语分析最低级、最简单的任务——自动分词,距真正意义的实用还有距离,我们还须付出艰苦、细致的努力。
    这个不容乐观的现状并不影响我们在第1 节中对汉语自动分词的可行性做出比较乐观的估计,因为虽然有待完成的工程量还很大,但在任务难度的性质上,自动分词毕竟不属于“挟泰山以超北海”——“非不为也,乃不能也”一类。那么,今后的研究应着重在哪几点上“有所为”,才能有助于达至我们的理想境界呢?结合自己的研究经验,笔者认为大概要抓以下一些工作:1)尽快建立一个广为接受的、 高质量的通用词表。这是保证其它一切自动分词研究是否扎实、可靠的先决条件; 2)建立一套为学界同仁认同并遵守的汉语自动分词规范和词性标注规范,研制百万字级的经分词、词性标注的平衡语料库以及千万字级的甚至亿字级经分词的通用语料库。各家的工作成果应尽量共享,避免简单重复;3)在通用词表及极大规模语料库的支持下,系统地发现那些频度高、稳定性好(指与领域基本无关)的切分歧义(或可称为通用切分歧义)并有针对性地给出解决办法;4 )对覆盖型切分歧义的研究目前十分薄弱,统计手段似乎鞭长莫及,宜探讨新的对策;5 )使已有的各种专有名词识别机制更加精细化,并增设日本人名、少数民族人名识别机制;6)研究各种专有名词之间的冲突处理机制;7)继续发掘全局统计量和局部统计量的潜力,同时注意克服其副作用;8)研究融合词法、 句法甚至部分语义信息,集经验主义(统计形式)与理性主义(规则形式)于一体的分词算法;9 )以已有工作为基础(曹焕光、 郑家恒1992 ),构造更加合理的自动分词评测模型,争取评测工作的权威化、公开化、持续化;10)在机器学习理论的指导下,研究从线性或半结构化语言单位序列中获取结构化语言知识的途径,以及有监督学习和无监督学习的互补互动策略,最大限度地提高自动分词系统对复杂开放环境的自适应能力。
【参考文献】
    Chang, C.H. and Chen C.D. 1993. A study on integratingChinese  word  segmentation and part- of- speech tagging.Communications of COLIPS 3.2.69—77.
    Chen, H.H. and Lee J. C.  1994.  The identification oforganization names in Chinese texts. Communications of COLIPS4.2.131—142.
    Chen, K. J. and Liu S.H. 1992.  Word identification for Mandarin  Chinese sentences.  Proceedings of the  14th International Conference on Computational Linguistics,  101—107.Nantes.
     Fan,  C. K.  and Tsai W. H.  1988.  Automatic wordidentification in Chinese sentences  by  the  relaxationtechnique.  Computer Processing of Chinese and  OrientalLanguages 4.1.33—56.
    Guo, J. 1997. Critical tokenization and its properties. Computational Linguistics 23.4.569—59.
    Lai,B.Y.,Sun M.S.,et al.1992.Tagging- based first  orderMarkov model approach to Chinese word identification.
       Proceedings of 1992 International Conference onComputer Processing of Chinese and Oriental Languages, Florida.
    ----.1997.Chinese word segmentation and part- of- speechtagging in one step.Proceedings of International Conference:1997 Research on Computational Linguistics,229—236.Taipei.
    Nie,J.Y. , Brisebois M. , et al. 1996. On Chinese wordsegmentation and word- based text retrieval. Proceedings ofInternational Conference on Chinese Computing 1996, 405 —412.Singapore.
    Nie,J.Y.,Jin W.Y.,et al.1994.A hybrid approach to unknownword detection and segmentation of Chinese.
     Proceedings of International Conference on  Chinese Computing 1994,405—412.Singapore.
    Palmer,D.D.1997.A trainable rule- based Algorithm for word segmentation.Proceedings of the 35th Annual Meeting of ACL and 8th Conference of the European Chapter of ACL.Madrid.
    Sproat,R.and Shih C. L. 1993. A statistical method forfinding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages 4.4.336—249.
    Sproat, R.,Shih C.L.,et al.1996.A stochastic finite-stateword segmentation  algorithm  for  Chinese. ComputationalLinguistics 22.3.377—404.
    Sun,M.S.and Benjamin K. T. 1995. Ambiguity resolution inChinese word segmentation. Proceedings of the 10th  AsiaConference on Language,Information and Computation, 121 —126.Hong Kong.
    Sun, M.S., Lai B.Y. ,  et al.  1992.  Some issues onstatistical  approach to  Chinese  word  identification.Proceedings of the 3rd International Conference on ChineseInformation Processing, 246—253. Beijing.
    Sun, M.S., Lin F.Z., et al. 1996.  Linguistic processingfor Chinese OCR & TTS. Proceedings of the  2nd InternationalConference of Virtual Systems and Multimedia,27—42.Gifu.
    Sun,M.S.,Shen D.Y.,et al.1997.Cseg & Tag 1.0: A practicalword segmenter and POS tagger for Chinese texts.  Proceedingsof the 5th Conference on Applied Natural Language Processing,119—126.Washington D.C.
    ----.1998.Chinese word segmentation without using lexiconand hand-crafted training data.Proceedings of the 36th AnnualMeeting of Association of Computational Linguistics and the17th International Conference on Computational Linguistics,1265—1271.Montreal.
    Wu,A.D.and Jiang Z.X.1998. Word segmentation in sentenceanalysis.Proceedings of the 1998 International Conference onChinese Information Processing,169—180.Beijing.
    Wu,Z.M.and Tseng G. 1993. Chinese text segmentation fortext retrieval: achievements and problems. Journal of theAmerican Society for Information Science 44.9.532—542.
    ----.1995.ACTS: An automatic Chinese text segmentationsystem for full text retrieval. Journal of the AmericanSociety for Information Science 46.1.83—96.
    Yeh,C.L.and Lee H.J.1991.Rule- based word identificationfor Mandarin Chinese sentences — a unification  approach.Computer Processing of Chinese and Oriental Languages 5.2. 97—118.
    白拴虎,1995,汉语词切分及词性标注一体化方法。《计算语言学进展与应用》北京:清华大学出版社,56—61页。
    曹焕光、郑家恒,1992,自动分词软件质量的评价模型。《中文信息学报》第4期,57—61页。
    董振东, 1997,汉语分词研究漫谈。 《语言文字应用》第1 期,107—112页。
    国家技术监督局,1993,中华人民共和国国家标准GB/T 13715 —92。《信息处理用现代汉语分词规范》北京:中国标准出版社。
    黄居仁、陈克健等,1997,“资讯处理用中文分词规范”设计理念及规范内容。《语言文字应用》第1期,92—100页。
    黄萱菁、吴立德等,1996,基于机器学习的无需人工编制词典的切词系统。《模式识别与人工智能》第4期,297—303页。
    黄祥喜,1989,书面汉语自动分词的“生成—测试”方法。《中文信息学报》第4期,42—49页。
    韩世欣、王开铸,1992,基于短语结构文法的分词研究。《中文信息学报》第3期,48—53页。
    何克抗、徐辉等,1991,书面汉语自动分词专家系统设计原理。《中文信息学报》第2期,1—14页。
    揭春雨、刘源等,1989,论汉语自动分词方法。《中文信息学报》第1期,1—9页。
    李国臣、刘开瑛等,1988,汉语自动分词及歧义组合结构的处理。《中文信息学报》第3期,27—33页。
    梁南元,1987,书面汉语自动分词系统——CDWS。《中文信息学报》第2期,44—52页。
    ——,1990,汉语计算机自动分词知识。《中文信息学报》第2 期,29—33页。
    梁南元、刘源等,1991,制订《信息处理用现代汉语常用词词表》的原则与问题讨论。《中文信息学报》第3期,26—37页。
    刘开瑛,1997,现代汉语自动分词评测技术研究。《语言文字应用》第1期,101—106页。
    刘挺、吴岩等,1998,串频统计和词匹配相结合的汉语自动分词系统。《中文信息学报》第1期,17—25页。
    刘挺、王开铸,1998,关于歧义字段切分的思考与实验。《中文信息学报》第2期,63—64页。
    刘涌泉,1988,再谈词的问题。《中文信息学报》第2期,47 —50页。
    刘源、梁南元,1986,汉语处理的基础工程——现代汉语词频统计。《中文信息学报》第1期,17—25页。
    刘源等,1994,《信息处理用现代汉语分词规范及自动分词方法》北京:清华大学出版社及广西科学技术出版社。
    马晏,1996,基于评价的汉语自动分词系统的研究与实现。《语言信息处理专论》北京:清华大学出版社及广西科学技术出版社,2 —36页。
    沈达阳、孙茂松,1995,中国地名的自动辨识。《计算语言学进展与应用》北京:清华大学出版社,68—74页。
    沈达阳、孙茂松等,1997a, 汉语分词系统中的信息集成和最佳路径搜索方法。《中文信息学报》第2期,34—47页。
    ——, 1997b,局部统计在汉语未登录词辨识中应用和实现方法。《语言工程》北京:清华大学出版社,127—132页。
    宋柔、朱宏等,1993,基于语料库和规则库的人名识别法。《计算语言学研究与应用》北京:北京语言学院出版社,150—154页。
    孙茂松,1999,谈谈汉语分词语料库的一致性问题。《语言文字应用》第2期,87—90页。
    孙茂松、黄昌宁等,1995,中文姓名的自动辨识。《中文信息学报》第2期,16—27页。
    ——,1997,利用汉字二元语法关系解决汉语自动分词中的交集型歧义。《计算机研究与发展》第5期,332—339页。
    孙茂松、张维杰,1993,英语姓名译名的自动识别。《计算语言学研究与应用》,北京:北京语言学院出版社,144—149页。
    孙茂松、张磊,1997,人机共存,质量合一——谈谈制定信息处理用汉语词表的策略。《语言文字应用》第1期,79—86页。
    孙茂松、邹嘉彦,1995,汉语自动分词研究中的若干理论问题。《语言文字应用》第4期,40—46页。
    孙茂松、左正平,1998,汉语真实文本中的交集型切分歧义。《汉语计量与计算研究》香港:香港城市大学出版社,323—338页。
    ——,1999a,消解中文三字长交集型分词歧义的算法。 《清华大学学报》第5期,101—103页。
    孙茂松、左正平等,1999b, 高频最大交集型歧义切分字段在汉语自动分词中的作用。《中文信息学报》第1期,27—34页。
    王晓龙、王开铸等,1989,最少分词问题及其解法。《科学通报》第13期,1030—1032页。
    王永成、苏海菊等,1990,中文词的自动处理。《中文信息学报》第4期,1—10页。
    姚天顺、张桂平等,1990,基于规则的汉语自动分词系统。《中文信息学报》第1期,37—43页。
    徐秉铮、詹剑等,1993,基于神经网络的分词方法。《中文信息学报》第2期,36—44页。
    徐辉、何克抗等,1991,书面汉语自动分词专家系统的实现。《中文信息学报》第3期,38—47页。
    张俊盛、陈舜德等,1992,多语料库作法之中文姓名辨识。《中文信息学报》第3期,7—15页。
    张小衡、王玲玲,1997,中文机构名称的识别与分析。《中文信息学报》第4期,21—32页。

【作者简介】孙茂松,清华大学
    邹嘉彦,香港城市大学
    孙茂松,100084 北京.清华大学计算机系 Email:lkc-dcs@mail.tsinghua.edu.cn
    邹嘉彦,香港 香港城市大学 语言资讯科学研究中心
发表于 2003-10-26 22:24:45 | 显示全部楼层

上文很好!

谢谢水电工先生提供这麽好的资料,
俺索性把它帖出来了:)

还是水电工先生说得好,
“少寫些無聊文章,來寫程式吧,來解決問題”吧!
发表于 2003-10-30 22:13:09 | 显示全部楼层
我是不反对汉字简化的

如果大家说汉字简化了,就破坏了他原有的那种意味,什么六书,都体现不了了
这种观点是大错。虽然有一些字简化后,我们看不到他的本来面目了,会意也不会意了。
确实有这样的现象。但是,我们说汉字中有一些是象形的,无论是简体字还是繁体字,我都看不出象形来。倒是甲骨文和大篆中有些很像。要是我们为了强调汉字的那种意义,我们不如全写最古老的甲骨文得了。
任何事物时都要发展的。文字的发展,就是一个从繁到简的过程。我不是文字学家,但是我听说埃及文字就是因为没有发展,而逐渐没有人认识了。我们当然不希望汉字也这样。那么,我们就简化吧。

请注意我的观点,不反对汉字简化,坚决反对汉字拼音化。不反对白话文,坚决反对恢复文言文。
发表于 2003-10-31 10:52:57 | 显示全部楼层
一个语言学外行坚决支持楼上的观点!不赞成简化汉字的人是迂腐的;想把汉字拼音化,那无异于“败家”;想恢复“文言文”的人,真乃食古不化也。
嘿嘿,有关专家千万别生气。:))
发表于 2003-12-2 22:16:12 | 显示全部楼层
“但这些规范的可操作性都不太强(如国家标准中多次出现的关于“什么是词”的表述:“结合紧密、使用稳定”,就无法操作).....”
是的,大陸太多的論文,問題就出在這裡;太多規範=沒有規範;
為什麼不找有演算能力的專家來制定規範呢?
我們需要的是可操作定義(Operational),而不是一堆之乎者也的陳腔濫調。
发表于 2005-10-13 12:57:38 | 显示全部楼层
Artvine 于 2003-10-26 15:21 写道:
第一等人解決問題,三流人物製造問題─老毛。
一大堆論文言大志誇,一方面不敢題教政府改革,另一方面
卻沒能力解決問題。
目前大陸的繁簡程式沒一個用心的,新華社和人民鈤報的繁
體版,還把後面寫成后面,除 ...



miser Artvine 是解决问题第一等人,在一个用心程式中,"人民鈤報的繁
體版"隆重推出,闪亮登场!
发表于 2006-4-24 19:14:28 | 显示全部楼层

语言要接近祥林嫂,文字要交给阿Q。

语言要接近祥林嫂,文字要交给阿Q。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-3-29 20:12 , Processed in 0.082432 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表