“计算”和“语言”

疯狂滴石头 · 发表于 2007-12-7 00:32:33

刘挺：“计算”和“语言”

两位网友的评论（参见附录）提出了一个令人无法回避的严峻话题：“语言学究竟能为中文信息处理做点什么？”

在过去三年的“自然语言处理青年学者研讨会”上，三四十位青年学者，只有香港的邝蔼儿是语言学背景的，在今年四月的南宁“中文信息信息处理战略研讨会”上，二十多位专家中搞语言学的只有香港的邹嘉彦教授（邝蔼儿的老师）。计算语言学是典型的文理交叉的学科，何以“计算”独大，而“语言”式微呢？在此，我作为一个计算机背景的自然语言处理研究者，谈谈我对这个问题的粗浅思考，与大家共勉。

（1）研究普遍规律

计算机研究者关心的是能够覆盖大多数语言现象的通行规律，能够用规则描述出语言现象的规律最好，实在不行，用穷举的方式同样可以解决问题。而不少语言学研究者关心的往往是特例，比如对某个词的某个特殊用法的诠释。对特例的研究有时是有趣的，是能够展示文人学养的，但是和计算机研究者的需求南辕北辙。在“全国计算语言学联合学术会议论文集”上，往往开头的若干篇都是语言学研究者的论文，搞计算机的人一般不喜欢听，因为搞计算机的人看不出对个别语言现象的玩味到底有什么实际价值，因为很多个案在数百兆的语料库中也不会出现一次，是可以忽略不计的。

搞语言学的人随口说出几个语言上的特殊例句就能把计算机研究者开发了几年的系统难倒，但其实搞计算机的人是用在大规模语料上的整体准确率作为评价结果的，对于很多应用能够达到90%以上就认为很不错了。这种基本评价尺度的差别让双方不容易想到一处。

我们不能说对个案的研究就完全无用，如果是“解剖麻雀式”的，透过个别现象看到了语言的一些通行的本质，我觉得是很好的研究。次一等的，能够把某个词汇的各种用法“无遗漏地”穷举式描述出来，也是对自动处理有帮助的。倘若只是就事论事，缺乏归纳，又浮光掠影，没有全面具体的描写，恕我愚钝，实在看不出这样的研究对现实，对未来到底有什么用，而无用的研究是迟早要退出舞台的。

（2）站在机器的角度考虑问题

语言学有两大用处，一是用于教学（包括母语教学和外语教学），二是用于自然语言处理。汉语和以英语为代表的印欧语系的撞击让我们更好地认识了汉语的特质，而计算机形式语言与人类自然语言的撞击更是让我们能够站在机器的角度重新认识早已习以为常的语言，这是语言学发展的一次历史性机遇。

用于教学的语言学是将给人听的，你可以以具有基本常识的人为对象，只要把道理解释通就可以了。用于计算机处理的语言学是必须面向机器的，机器没有常识，没有情感，它只能够区别不同的符号，对符号进行排序等，在机器的眼里，“鲜花”和“牛粪”只是两个不同的符号而已，机器没有背景知识，既不会联想到香气，也不会联想到臭气。因此，如果语言学研究者想做计算机处理，就必须注意“符号化”，而不能停留在用自然语言对自然语言进行解释的阶段，在计算语言学领域工作的语言学研究者应该懂数学，懂计算机，懂得越多，就越能够和搞计算机的人“对上茬口”，而不会“各说各话”了。

（3）统计方法的弱点

两位网友多提到计算所的机器翻译系统从规则改为统计后，取得了很大的提高，因此感到规则方法的无效，语言学研究者的无用。但据我所知，也有反例，比如东芝中国研发中心的王海峰博士，他在东芝主持的机器翻译研究仍是以规则为基础的，他们一直有数名语言学背景的员工在机器翻译第一线工作，今年又新增两位从海外归来的语言学研究人员。东芝比较低调，但他们的翻译系统是非常出色的，在国际博览会上受到国际学者的充分肯定，在ACL和MTSummit上连续发表文章。现在的潮流是统计占有优势，因此做基于规则的方法不容易发表论文，但这并不意味着规则方法已经过时。规则是人的智慧的结晶，深刻而灵活，自有它存在的价值。

短期内评测的成绩不能够决定未来的方向，凡事走到一个极端的时候就会回归了，统计的方法有一些明显的弱点，举例而言，在10万字的语料中你看到了1000个不同的词，那么当语料扩大一倍，即达到20万字的时候，你可能看到了1200个词，语料增加100%，而新的语言现象可能只增加了20%，当语料庞大到一定程度，再翻倍增长已经很难，即使翻倍增长，新的语言现象可能已经降到只增加1%以下，油水越来越少了。语言学的作用就是对语言的处理从统计方法所利用的字词表层推向语法语义深层，每深入一层，就能够大幅度地对语言实例进行归纳，也就能够大幅度地较少对语料库规模和计算规模的无节制的依赖。台湾苏克毅老师是最早开始从事统计自然语言处理的国际知名学者，但他在演讲中却用一个生动的比喻指出盲目信仰统计方法的可笑之处，他认为停留在语言表层的统计方式方法是在爬树，尽管目前爬得很高，但机器翻译的目标是登月，完全依靠统计是无法实现机器翻译的目标的。

统计的方法还有一个要穴就是研究者在统计方法面前比较被动，用统计方法作出一套系统，输入一个句子进行测试，如果效果不佳，即使是开发者本人也无法解释其中的原因，因为所有的参数都是自动计算出来的，人可控的余地很小，只好更换或追加语料库，或者调整统计方法，即使如此能不能修正原先的错误也很难说。于是，就有人开始打补丁，也就是在统计方法做出结果后，再用一些针对性的规则把一些明显的错误修补一下，这只能说是一种权宜之计，如果换了统计方法，错误类型也会改变，补丁程序也要跟着换，非常麻烦。

（4）提出新的语言模型

苏克毅老师还有一个很精彩的比喻，他说语言模型的框架还是要人来定，语言模型中的参数由机器来算。比如人说语言是“圆”的，机器就按照“圆”的形状从语料库中算出半径来；如果人说语言是“三角”的，机器就按照“三角”的形状从语料库中算出三角形的各边边长。要机器自己从头分析语言的总体轮廓太慢了，而且容易走偏，因此语言的大体轮廓一定要由人给出。

语言是纷繁复杂的，即使是“圆”的也不可能是“正圆”，一定是椭圆，而且边不可能是光滑的，是要有毛刺的，这些毛刺，这些细碎的参数靠人来整理是无法做到的，可以由机器来完成。还有人认为做一个系统可以用数量不多而非常管用的规则（所谓“管用”包括覆盖率和正确性）作为基础，然后再用统计方法。无论怎样，我赞同语言学的价值在于对语言本质的深入把握，建立起更符合语言真实情况的模型来。目前的统计模型，比如N元语法是建立在大量简化假设的基础上的，与语言的本质相去甚远。对人类语言的形式描述处在婴儿状态，一切才刚刚开始。

（5）利用计算机工具研究语言

语言学研究者应该充分利用计算机研究者的工作成果，展开语料库语言学的研究。北京语言大学的宋柔老师做过一个从语料库中检索语言现象的软件，利用这个软件，语言学研究者能够快速地找到一个词或者多个词在语料库中出现的各种各样的真实现象。

有了计算机，以往摘录语言现象卡片的工作方式，通过个人语言经验内省编撰词典的方式已经过时。一个人的阅读量和记忆量无法和海量语料库系统相提并论。为什么人写的规则不如机器统计出来的效果好？原因就是一个人的语言经验太有限，无法全面地精密地把语言的规律总结出来。有研究表明，即使是最权威的《现代汉语词典》，其中对词条的解释都远远不够，比如《现汉》对某个词给出了10种解释，但是语料库中可以轻松地找出20种以上的不同解释。

人的优势在于思辨、归纳、推理，而不在于存储和记忆。单凭个人的语感，无论是怎样的天才都无法全面的把握整个语言现实，而我们又不能够指望把海量语料库扔给计算机，计算机就能够自学成才。唯一的道路就是语言学研究者利用计算机研究者开发的语言处理工作更有效地去观察语言现象，更全面而深刻地去把握语言的本质。

（6）建立自然语言处理的理论体系

有不少搞计算机的人去从事生物信息学，他们对我反映说生物学的门槛很高，他们无法离开生物学专家的指导而独立工作，因为计算机算出来的结果是否正确需要生物学家的鉴定。我们搞计算机应用的都是把计算技术和某个领域结合在一起，计算语言学，不妨仿造“生物信息学”，也可以叫做“语言信息学”吧，为什么没有形成计算机研究者对语言学研究者的依赖呢？没有形成瞎子背瘸子式的互补型合作呢？其中一个原因是，语言学的门槛太低，我认为语言学至今仍然是一门稚嫩的学科，没有完整的理论体系，更没有严密的数学基础，这样任何一个受过高等教育的人基本上都可以凭借自己掌握的基本语言学只是自己搞自然语言处理的研究了。

先贤们对语言进行形式描述的巨大努力推动了数理逻辑和形式语言的发展，而人类语言依旧无法描述。十年磨一剑，目标是劈开语言的巨石，然而语言巨石纹丝不动，剑走偏锋顺势砍倒了巨石周围的灌木。扫清周围的障碍也不错，让我们看清了语言这块巨石，认情了磨剑的徒劳，开始设计炸药。自然语言处理是“入门容易深造难”，由于没有系统的理论基础，任何人凭着自己的至少20多年的语言实践，找一些机器学习的算法就能够进入我们的领域，而且还能够取得不俗的战果，我们的地盘，计算机研究者和语言学研究者的联合家园“计算语言学”在没有任何樊篱的情况下，随时可以被邻人“侵入”。当然，可悲的是，闯入者也走不了太远，他们也很快会陷入这个缺乏理论基石的泥潭而无法自拔，这就是目前的现实。

（7）心理实验加计算模拟

要建立新的可计算的语言学框架，构造新的融规则与统计于一炉的语言模型，我们应该从何做起呢？我最近的兴趣落在“认知语言学”或者叫“心理语言学”上，我非常赞同用实验心理学的手段去探测人类对语言信息进行加工推理的过程，然后再用计算机去模拟验证。任何既有的语言学理论利用都应该在心理实验和计算模拟面前重新接受检验。这条路线一石两鸟，既有利于揭开语言学的面纱，有浓重的科学味道，又能够催生新型的语言处理软件系统，兼具工程技术的价值。

以往的语言学，常常是用自然语言解释自然语言的，太模糊，存在太多歧义，无法用计算机实现，也就无法验证，无法验证也就不能成为“实证科学”，就会陷入文人之间没有客观评价尺度的争论，让搞计算机的人在旁边看着，如堕五里雾中，无所适从。语言学的研究成果必须经计算机模拟实验，用真实的语料进行验证，而不能停留在类似文艺中的学术论战上，因为语言学不仅具有人文的背景，更有科学的内涵。

现在“科学家”这个词常常被滥用了，其实只有能够发现自然、社会与人类思维的既有规律的学者才应该称为“科学家”，而设计一座建筑，一种软件充其量只能称作工程专家。语言是思维的窗口，是自然的，也是社会的，透过语言我们触摸到人类思维的脉搏，而人类的思维是大自然最伟大的创造。有幸成为一名语言学研究者，有幸踏上一条通向科学家的道路，应该让人自豪与兴奋。比尔·盖茨在他著名的《未来之路》一书中描述了他读到MIT史蒂芬·平克教授的著作《语言本能》(The Language Instinct)时的兴奋心情，平克是继乔姆斯基后的国际语言学大家，一本关于语言学的著作能够登上《纽约时报》畅销书榜首，能够获得“软件国王”的青睐，这说明语言学是充满了魅力的，关键在于你用怎样的视角，怎样的手法去研究它。

计算机研究者和语言学研究者应该通力合作，语言学研究者不能认为计算机研究者只是编程的工匠而笑话他们没有学术思想，计算机研究者也不能把语言学研究者视为加工语料库的帮手。计算机研究者要学习语言学，尤其学习那些描述语言普遍规律的可以形式化的语言学；语言学研究者也应该坐下来好好学学计算机理论，尤其是人工智能理论。计算机研究者期待着从语言学新的理论和模型中获得灵感，语言学研究者也可以从计算机研究者开发的语料库分析工具中获得研究上的极大便利。

在通往语言理解的漫长道路上，我们发现身旁有一个与自己的装束、举止不同的行路人，你可能和他聊了几句，发现没有共同的话题，于是你们分别向前走。但是，在这座学术的密林里，他是你最近的伙伴，开始对话，开始了解对方，携手同行，携手披荆斩棘，“计算”和“语言”，一个都不能少。写到这里，我觉得有必要召开一次计算语言学领域，计算机学者和语言学专家的对话式论坛，一定很有意思。期待中。。。

[ 附录 ]

网友1：一个语言学研究生

我是一个语言学专业的研究生，现在也做一些中文信息处理的工作。刘老师提到当前语言学与计算语言学之间的鸿沟问题，我亦深有同感。这几年随着统计方法的风行，规则路线几乎完全被抛弃了。刘群老师在机器翻译领域里的变化是一个最典型的例子，刘老师几年前拿着以规则为主的机器翻译系统参加评测几乎得到了倒数第一，后来改用统计的方法却可以排在前几名，这样的结果自然让人对规则在信息处理中的作用产生大大的怀疑了。去年参加中文信息处理25周年纪念会议时一个很明显的感觉就是几乎没有见到任何语言学研究者的身影（在临近结束时才看到陆俭明老师），这是让我深感遗憾的。我一直希望语言学能对中文信息处理有所贡献，可事实上两者却日益背道而驰。

我常常为语言学在中文信息处理方面的无所作为而痛心，可惜人微言轻，连带着自己在系里也成了少数派。我常常想，语言学研究者在谈语言的用途时常常会提到语言教学和中文信息处理，可是到目前为止我还没有能够看到语言学的研究成果在这两个领域产生真正的影响。北大计算语言学研究所以词组本位理论为基础建立的语法信息词典和人民日报语料库，哈工大以依存语法理论为指导建立的句法树库是受到语言学影响的几个典型，据我所知有许多家研究机构已经购买了这些资源，但是对于它们对于实际应用的促进我仍然存在相当程度的怀疑。我一直试图在自己的研究中努力地为计算服务，可是努力了许久却感觉太难太难。在解决具体的问题比如自动分詞作詞性标注以及文本聚类时，总发现不知该如何应用语言学知识，尝试着写了一些规则效果反而变得更差。看来语言学知识的加入不是简单地加几条规则就能实现的了。

mengqing · 发表于 2007-12-7 11:48:22

莱特兄弟为什么能造出飞机？
有人给他们图纸么？答案是，没有。

别人能做的，只是制造各种各样的零件。
至于如何哪些零件有用，这些零件又该如何组装。只有莱特兄弟根据自己的学识去研究，才能获知。

做为一名建筑工程师，他一定要自己学会力学。难道他身边总要跟着一位力学专家么？如果有问题，可以去问。但，该问什么，是工程师自己选的，不是力学专家选的！

作为语言学研究者，他们永远都只会去研究自己觉得值得研究的东西。至于哪些有用，计算语言学研究者又该掌握哪些，又该去研究哪些，那是他们该做的事情。东西没研究出来，就怪自己所使用的别人的研究成果没用。事实上，是自己没选好，是自己该做的事情没做好。

能拯救你的，只有你自己！

		自动登录	找回密码
密码			注册

“计算”和“语言”

相关帖子