关于自然语言理解的讨论

xychy · 发表于 2004-3-20 14:47:00

前言
   下面发表我在其他网站上写的一些关于机器理解自然语言和自学习程序方面的讨论文章，并附有某些网友的观点和回复。在本栏目发表这些东西的理由是：stone_ts先生这样的高水平学者愿意在本栏目发表他的论文，这表示我们论坛已经有一定的吸引力。我们除了积极响应，发表评论和原创论文外，也尽力组织和鼓励更多自然语言处理爱好者和学者在这里发表作品和进行讨论。我的这些未经推敲，零碎而不成熟的即兴见解本来是难登大雅之堂的。只是希望能够起到抛砖引玉的作用。发表的帖子不成熟有问题才能吸引好事者和学者参与讨论。
   下面的讨论文章，是编程者和语言研究者的碰撞。前者认为，只要编一个简单的自学习程序，计算机就可以学会理解自然语言。后者认为解决像计算机理解自然语言这样世界级尖端课题，涉及到语言学、认知科学、逻辑学、语言心理学、数学和计算机科学等学科，需要各方面专家通力合作，才有可能。我认为国内自然语言处理，特别是中文理解的研究成果落后其他国家，主要原因就是各方面专家合作不够。发表这些东西也是希望引起学术界的注意，以便有助于我国登上自然语言处理这一世界高峰。
   请来到本坛的学者和网友大力支持！
   您可以在后边回帖，也可以另辟主题。

xychy · 发表于 2004-3-20 14:48:57

我曾经指出过，自学习系统难以教会机器解决各种智能问题。原因在于想利用简单的自学习程序教会机器思维是很困难的事。你必须首先制订语言理解所需要的根据语法进行语义推导的各种推理规则，其次还有教会机器组词造句的能力，这需要对语言各个动词（常用动词至少5000个，还不包括与动词相关的词的描写，那是十万数量级的次的描写问题）可能使用的标准句式和变换句式进行描写，这还不包括最麻烦的跟语境和语法有关的歧义问题，最后你还必须教会机器人的行为推理规则，这涉及心理学问题和决策推理的问题。决策涉及各种知识，单生活决策问题就够你伤脑筋的，何况其他。即使你不需要详细描写，你也必须建立规则框架，你能考虑周到吗？要教会机器具有理解语言的能力，你还是必须解决绕不开的语言形式化、语义推理、知识库等等问题，结果是你面临一个汪洋大海，茫然无绪，什么也做不了。
我不是泼冷水，自学习程序只能解决例如教机器做什么动作之类不涉及自主智能的问题（把做过的动作记录下来然后按记录的程序操作）。自主智能是要求机器自行推理、决策。自学习系统不能构造繁杂的上述规则，而只能解决简单的，如上面那些非智能问题。把自学习看作解决智能问题的法宝实在是走进了误区。在学生学习期间玩玩还可以，要拿它解决智能问题实在没什么用处。这就是wym君处境尴尬的原因，我没说错吧？

xychy · 发表于 2004-3-20 14:51:09

Ruiaijun君说：
   “只是有些事叫专家们给讨论糊涂了，有一篇专家的发言稿上竟然把理解作为思维的象征，瞎说。理解中有思维的成分，但它的分量不大。复杂一些得理解也不过是把理解过程分几个层次，可以模仿语文中的分析课文过程，机械得很。最难于实现的理解应当数理解陈景润的一加二了，也不是办不到的。真叫计算机想出个一加二来，就真办不到了。”
   我觉得ruiaijun君把“理解”理解得过于简单。我下面的观点也可能属于“瞎说”之列，讨论一下“理解”有助于我们更清楚地认识到，计算机理解自然语言并按照自然语言的意思工作不是编一个简单的学习程序就可以实现的。
我认为人理解事物是一个思维过程。人看到或听到一句或几句话，或是经历了某件事后，在脑子里必须进行综合、分析和推理，才能理解和得到认识（即认知）。这个过程就是思维过程。语言是思维的工具。人脑里存储的信息有图象，也有类似于语言符号表示的东西。它们是相互关联的。在想一件事时脑海里是图象，而对这件事进行分析推理时就是用语言符号。因此要想计算机具有类似人的智能，可靠的办法就是模拟人脑思维过程。用语言可以描述事件，把语言转化为计算机可以运算的符号，给予计算机由语言载体推导其意义的能力（可以使用计算机可以运算的语义逻辑），给计算机提供足够的进行推理的知识，计算机就不仅可以理解自然语言，也可以进行决策和解人工智能问题。所以最近十年国外已经把认知科学、语言学、逻辑学和信息处理结合起来进行研究。
   由此可见，要计算机具有智能首先必须让它具有理解自然语言的能力，知识库里必须有一整套推导语言意思的逻辑规则，要计算机决策（回答问题也是决策），还必须有决策所需要的知识和推理规则。不论是知识库，语义推理和逻辑规则都必须是计算机可以处理和运算的形式语言。
   要实现这样的目标，你首先必须是语言学家和逻辑学家，然后才是软件专家。还不要说必须具备认知科学和语言心理学知识。这就是全世界还没有智能计算机的真正原因。
   在《人工智能研究者俱乐部》网站上已经有好几位声称搞出了可以理解自然语言的自学习程序，而一旦要他演示一下看看就都噤若寒蝉了。说句不客气的话，这就叫不知道天有多高，地有多厚。这些仁兄可能汉语语法都没研究过呢。

xychy · 发表于 2004-3-20 14:55:07

（一）
   ruiaijun君的意思是，只需要编一个怎么教机器学习的简单程序就行，其他的交给语言学家和逻辑学家去教就行了。这就好比给电教室配备一套教学设备，能不能用，能不能教好学生，那就不关教学设备的事了。这未免想得太简单。就像你编了一个程序，教机器如何就一个陈述句提问时根据疑问词给词分类的程序，我就觉得玄而又悬。“玄”者，莫名其妙也，“悬”者危险也。请你示范一下，不用计算机，就用键盘说明一下：
   “我就觉得玄而又悬，“玄”者，莫名其妙也，“悬”者危险也”
   这个句子怎么提问，怎么得到各个词的词类。
或者，简单一点，请你给疑问词本身分类，用什么疑问词给词分什么类。
关于词的分类汉语界就讨论过多次，词有多少类就各家说法不同（少的9类，多的13类乃至15类），你觉得哪家的说法最合理？就是回答这样的问题，我想没有一个人敢说，自己的答案绝对正确。因为用不同的标准和手段给汉语划分词类结果就不一样。
   虽然上世纪60年代有过一个暂拟汉语语法体系，因为问题太多，似乎至今仍是悬案。你能够提供一个大家都满意的词分类系统，我就相信你也许能够搞出一个自主智能系统来。
               （二）
quote:
——————————————————————————————
此文由wilddog发表。
逻辑思维固然需要，但逻辑思维并不是说按3段式或数理逻辑中的步骤一步一步的走。
我不论读《红楼梦》还是其他数学数、编程的书，读的时候我从未想过要对其中的词进行分类，也没有想过要分析句子的结构和成分，我一样能读得很懂，能理解其内容。
单纯从语言学的角度来研究自然语言，我个人认为很难成功。
陈刚
——————————————————————————————————————
人和动物以及机器的区别就体现在这一点上。这里不想讨论人脑构造以及认知机制，读者可以查阅这方面的书籍。正因为机器跟人有本质上的区别，要么给机器装上人一样的脑，要么装一个模拟人脑功能的计算机。不用说，我们只能装计算机。要计算机模拟人脑功能，使它理解语言，不管语法，不理语义和逻辑，总之，让语言学和逻辑学靠边站，各位一定有什么妙法，不妨介绍介绍，也让我们开开眼界。我们洗耳恭听！
   我愿意花时间写帖子，说一些大家不爱听的话，完全是好意。用科学态度搞研究可以避免走弯路，浪费精力和时间。这就是我要说的最重要的话。愿不愿意听，跟我一点也不相干。

xychy · 发表于 2004-3-20 14:56:36

xychy：十分欢迎发表见解！
您说：“我认为人理解事物是一个思维过程。人看到或听到一句或几句话，或是经历了某件事后，在脑子里必须进行综合、分析和推理，才能理解和得到认识（即认知）。这个过程就是思维过程。语言是思维的工具。人脑里存储的信息有图象，也有类似于语言符号表示的东西。它们是相互关联的。在想一件事时脑海里是图象，而对这件事进行分析推理时就是用语言符号。”----到此我们没有什么矛盾。问题就在后面的因此。您接着说：“因此要想计算机具有类似人的智能，可靠的办法就是模拟人脑思维过程。用语言可以描述事件，把语言转化为计算机可以运算的符号，给予计算机由语言载体推导其意义的能力（可以使用计算机可以运算的语义逻辑），给计算机提供足够的进行推理的知识，计算机就不仅可以理解自然语言，也可以进行决策和解人工智能问题。所以最近十年国外已经把认知科学、语言学、逻辑学和信息处理结合起来进行研究。”----这里边您就给自己拴了个套，不知不觉拴的。人的理解是要实现一定目的的，你编一个理解自然语言的程序也要实现一个明确的目的，你可以确定一个非常艰巨的理解任务，比如让它很好地翻译两国语言小说，不再由人修饰改动。比如你让它读完“红楼梦”再写出几篇象样的论文来。比如你让它读完陈景润的论文，总结出陈先生的思路来。我设计的任务已经够离谱的了！但是你专门收集相关的知识，就会发现程序还是能编的。麻烦一些，耗时长一些。可是要抽象地编一个您说的那种程序，就不好办了，因为没有一个“人”能完成这样的理解，人所不能，岂能强加于电脑？但这不是说计算机不能完成复杂的理解，如果它能够学习，再难的任务又怎么能难倒它？
“ 由此可见，要计算机具有智能首先必须让它”----对不起，这两句话是抄您的，下面是我的，----通过学习获得您下面说的那些----。既然是学习，我们不妨让它从孩子学话开始，学习和人的交流，然后以这个学习为基础，向人类学会您所说的能力，如果需要高深的语言学、社会学、逻辑学、甚至古今中外一切知识，请那些专家来交它好了，因为我的计算机会学习了呀！
“要实现这样的目标，你首先必须”----我又抄您的了！下面是我的，----让计算机会学习语言，而且只要象孩子学交流一样学习就可以了。其余的事情由语言学家和逻辑学家教它就行了。而我们设计软件的又何必为它操心呢？软件专家们钻在套子里出不来，让那么多学问迷住眼睛，这才是全世界还没有智能计算机的真正原因。
至于谁有多高学问，已经不是“理解”这个题目要研究的，我们还是不说了吧！

xychy · 发表于 2004-3-20 14:58:11

xychy先生:欢迎您继续讨论！
我的基本想法是，很多人够用语言交流，不是因为他掌握了语法，而是因为他在交流实践中掌握了语言的结构。现在英语教学中使用的句型教学，就是一种不以语法为主的认识语言结构的方法。
现在就用我的一个简单的程序的过程分析您的语句。计算机的程序大概是这样，预先按疑问词准备好数据库，安排好相应的数据结构便于检索（我当时用汇编语言，数据结构可以想怎么设计就怎么设计），然后把这句话用键盘输进去。问它：“谁就觉得玄而又悬，“玄”者，莫名其妙也，“悬”者危险也”它回答：“我。”并把我字保存在“谁库”中。再问它：“你觉得怎样，‘悬’者，怎样也，‘悬’者，怎样也？”他回答原句，并把悬而又悬、莫名其妙、危险存入“怎样库”。以后再有语句输入，它在谁的位置上检索“谁库”，在怎样的位置上检索“怎样库”，就把相应的词分出来了。如果库中没有，就要求再学，如果检索出错就通知它再学。
当然这只是就问题回答问题。而且你的语句语法特征不是现代汉语，如果是通用句型，它不会要求你提问，而可以直接根据位置分词。如果数据库没有相应的词，它可能会分错，这时你要通知它学习。
如果你要它确定各个词的词类，还得要它学的细一些，比如把“谁库”中的代词与名词分开。而“怎样库”中保存的就是形容词，“干什么库”中保存的是动词。等等。
当然要求高一些的问题，程序会复杂一些，但思想是一致的，就是只用一种叫做“替代”的操作来实现语言理解。
您说：“关于词的分类汉语界就讨论过多次，词有多少类就各家说法不同（少的9类，多的13类乃至15类），你觉得哪家的说法最合理？就是回答这样的问题，我想没有一个人敢说，自己的答案绝对正确。因为用不同的标准和手段给汉语划分词类结果就不一样。虽然上世纪60年代有过一个暂拟汉语语法体系，因为问题太多，似乎至今仍是悬案。”------这里您又进入你为自己设置的圈套中了，事实是人们没有这些大语法家的结论已经痛快地交流了近万年，难道说没有他们的结论我们都要箝口不行？我们不会就此箝口，计算机也不会就此箝口。
“你能够提供一个大家都满意的词分类系统，我就相信你也许能够搞出一个自主智能系统来。”-------如果您非要把大语法家的重任交付给我，我也就无话可说了。

xychy · 发表于 2004-3-20 15:01:34

xychy 先生：多有得罪了。我知道您是好心，不然不会和我们讨论的。其实在网上讨论，就是为了能够随便说说，观点相同也好不同也好，碰撞一下能够激活思路，使自己想搞的工作更有起色，也能够用自己的思路帮助别人。争一争也是为了弄清问题，很有意义的。
为什么我提到信念，看来您已经清楚了。前一个帖子中我已经说了，语言学家都争论不休的问题，我又有什么办法，不要把语言学家的重任交给我。事情到此，杀人不过头点地，该住手时就住手吧！您又在提问，形容词和动词的意义都有怎么办？我就是回答了您，您还会问其它情况，光词类的数量语言学家都没有争论清楚，那么多问题怎么指望我来回答怎么办？
但是您再想想，这种问法对不对？我是不主张考虑语法和逻辑的，您凭什么追问我语法或逻辑的问题？我是认为不懂它们没关系的，从哪个角度可以推论出我一定是语法专家或逻辑大师？
所以我不是反对讨论，是反对您用专业知识吧讨论对象推向绝境，我越是用现有的语法知识跟您争论，越会漏洞百出，不管您的名气大小，毕竟是专业人员，这是场不平等的较量。因此只好是您研究您的学问，我编我的程序。而且真有些语法语义逻辑方面不清楚的地方，还真要想您请教。
但是，这种讨论丝毫不能让我们认识到，一定要把语法语义逻辑编入计算机程序中。xychy 先生：多有得罪了。我知道您是好心，不然不会和我们讨论的。其实在网上讨论，就是为了能够随便说说，观点相同也好不同也好，碰撞一下能够激活思路，使自己想搞的工作更有起色，也能够用自己的思路帮助别人。争一争也是为了弄清问题，很有意义的。
为什么我提到信念，看来您已经清楚了。前一个帖子中我已经说了，语言学家都争论不休的问题，我又有什么办法，不要把语言学家的重任交给我。事情到此，杀人不过头点地，该住手时就住手吧！您又在提问，形容词和动词的意义都有怎么办？我就是回答了您，您还会问其它情况，光词类的数量语言学家都没有争论清楚，那么多问题怎么指望我来回答怎么办？
但是您再想想，这种问法对不对？我是不主张考虑语法和逻辑的，您凭什么追问我语法或逻辑的问题？我是认为不懂它们没关系的，从哪个角度可以推论出我一定是语法专家或逻辑大师？
所以我不是反对讨论，是反对您用专业知识吧讨论对象推向绝境，我越是用现有的语法知识跟您争论，越会漏洞百出，不管您的名气大小，毕竟是专业人员，这是场不平等的较量。因此只好是您研究您的学问，我编我的程序。而且真有些语法语义逻辑方面不清楚的地方，还真要想您请教。
但是，这种讨论丝毫不能让我们认识到，一定要把语法语义逻辑编入计算机程序中。

xychy · 发表于 2004-3-20 15:03:42

我同意rgzn2010的观点。我花了几年时间研究语义逻辑，尝试用统一的集合逻辑表达式表示各种逻辑和推理规则。单单语义推导一小节我写了万多字，汉语量词逻辑写了近两万字。完成《语义逻辑》至少需要写30~40万字。我都怀疑自己能不能完成全部书稿。可以说语义逻辑是语言和事物理解和决策的规则。人其所以具有智能，就是因为具有语义逻辑推理的能力。计算机是依靠规则工作的。机器学习过程就是吸收知识和学习规则的过程。如果连规则都不清楚，你写出的学习程序管用吗？我认为用提问分出来的词什么用处都没有。举个最简单的例子：“幸福”是名词（例：什么是幸福？），也是形容词（例：我很幸福）。绝大多数动词可以做名词使用，但却不是名词。因此用提问分类是完全不可靠的，没有用处的。
我说这些只是想告诉大家，计算机理解自然语言是一个难度十分大的问题，需要各种专家合作，想一个人编出一个简单的程序就可以教会它像人一样会思考，那完全是异想天开。现在全世界至少有数以十万计的各方面顶尖专家研究这个问题。这个问题的研究历史也至少有30年了，如果从图灵的预言算起，也有九十年以上了。为什么还看不到成功？日本政府投入很大人力物力搞日英机器翻译，还说最快要到2020年才有可能搞成。
国内也有公司搞机器翻译，就是英汉翻译软件翻译出来的东西都不忍卒读，还有什么好说的？

xychy · 发表于 2004-3-20 15:06:35

quote:
——————————————————————————
此文由ruiaijun发表。
语法和语义还不一样。语义是语言的核，它应该简练地总结语句，没有那些因交流需要添加的一些词汇，运用它思维要简单。语法是人类对交流语言规律的总结，它能够帮助人学习语言，但是没有它人也能够掌握语言。我还是比较看重语义的。
语法和逻辑类似，思维是人类的一种能力，逻辑是对思维规律的总结，逻辑能够帮助人思维，但是不会逻辑的人也能够很好的思维。
————————————————————————————
"不会逻辑的人也能够很好的思维"。这话有问题。要说一般饮食起居还凑合。但思考复杂问题就容易糊涂。说出的话就容易产生歧义。深入的思考就很难继续。中国古代许多圣贤的学说,一两千年难有发展, 主要原因就是缺乏逻辑。诸如"道可道, 非常道"。"色即是空, 空即是色"。这样的表达方式不讲逻辑, 似是而非。听者往往似懂非懂, 倍感玄妙, "仰之弥高, 钻之弥深, 瞻之在前, 忽焉在后"。这种不讲逻辑, 只可意会, 不可言传的理论是很难不断发展的。所有的理论都要讲逻辑。所有有价值的思考都必须符合逻辑。抽象思维的精髓就是逻辑。计算机程序更是一步也不能离开逻辑。不论自然语言如何表达, 计算机都必须先将其转换成符合语法, 进而符合逻辑的形式。然后才能与已有的知识体系及其逻辑相匹配。匹配上了就理解了。计算机理解的原则必然或是能将自然语言转换成符合逻辑的形式, 或是无解。

xychy · 发表于 2004-3-20 15:08:31

关于人工智能的讨论热闹得很。有朋友把智能牵扯到灵魂善恶，似乎越扯越远了。
   基础研究要不要搞，答案肯定，也无庸置疑。但我主张千万别跟着洋人后边跑，给人牵着鼻子走，搞什么数学模式。
   我认为，人其所以有智能，是因为人脑具有信息处理、对外界或内在刺激作出反应和决策机能的生物学结构。而且有些机能是与生俱来的，例如，婴儿饿了、痛了或不舒服就哭，会用嘴吸奶，等等。婴儿呱呱坠地，就开始各种认知和学习过程。学习就是不断地补充自己的知识库；认知就是依据知识库对外部信息（包括肉体感知）的分析、推理和判断。除了肉体感知信息是本能反应之外，其他信息都是以语言作为载体的。因此只要用形式语言描写和构造知识库以及仿照人脑思维使用推理规则加以形式化描述，就可以使电脑具有类似人的智能。
   我们采用与普遍语法一致，同时又是计算机能够理解和运算的形式化语言实现知识库的构建和形式语言处理，这就是我们要达到的目标。此前我们进行纸上模拟是成功的，小型人机对话试验，就是要验证我们的方法实际是否可行。

		自动登录	找回密码
密码			注册

关于自然语言理解的讨论

相关帖子

（1）自学习程序不是万能的

（2）理解与思维

（3）语言学、逻辑学对机器理解自然语言是否重要？

（4）ruiaijun的回复（一）

（5）ruiaijun的回复（二）

（6）ruiaijun的回复（三）

（7）计算机理解自然语言是一个难度十分大的问题

（8）附：网友rgzn2010的观点

（9）关于认知