湘里妹子学术网

 找回密码
 注册
楼主: xychy

信息检索和自然语言理解不是一回事

[复制链接]
发表于 2004-4-4 18:25:25 | 显示全部楼层

?

寫了些東西,在今晨 :10:00Server掛掉
 楼主| 发表于 2004-4-5 18:15:41 | 显示全部楼层
这不奇怪,我也碰到几次,只好求助风雪里。
发表于 2004-4-7 11:31:44 | 显示全部楼层
我说的例句替换与xychy先生您理解的有所不同。例句替换的应答方式是在词与词已经建立关联的基础上,把关联得到的词语填入作为语法框架的例句之中。并没有必要一个例句只存储和这个例句有关的信息。这是我理解的ruiaijun先生的想法。
       现在说说我自己的思路。我在词语关联上采用了ruiaijun先生的思想,但我是通过对文句的拆分、解析得到词语,并对这些词语进行关联,得到应答所需的词语,再填入适当的语法框架中(在这一点上我和ruiaijun先生的想法有所不同)。同时,我认为ruiaijun先生的学习思想也是值得采纳的。在出现未记录关联的句子时,我们可以采用人为教授的方式(不是直接地修改数据库)为其添加新的关联。我们当然也可以用人为教授随时对句法库进行添加。我觉得这也正是ruiaijun先生想法的可取之处。
      不知道xychy前辈对我这种想法有何指教呢?
 楼主| 发表于 2004-4-8 00:12:54 | 显示全部楼层

答Robin和清江引君

Robin和清江引君:
       遵照二位的旨意,我去了一趟《俱乐部》。看到那位前辈老师不点名地把我骂成“做交易的”,似乎他跟我的争论坏了我的“生意”云云。我都不知道我在网上做过什么交易。我做人写文章坦坦荡荡,没什么不可告人的“交易”。如果是公开的交易,一定是对双方公平的交易。就好比专利发明人在他的专利公开前不愿透露内容一样,没在公开刊物上发表的东西不愿在网站上张贴那是不愿为他人作嫁衣。这是我的做法。应当无可厚非吧?但是回复网友的问题我并不回避提供学术创意。只要是对网友学术上有利的事,我愿意做。对于商业技术持保留态度这是任何人都会这么做的事,以商业技术做交易这也是通行的做法,不然为什么要保护专利?
      清江引君说被我赶走未免言过其实。我由于时间关系谢绝对已经做过答复的问题纠缠不休并不等于赶走网友。我巴不得网站兴旺,哪有赶走网友的道理?
我看到清江引君一些帖子的看法已经转到合理的方向了,我觉得欣慰。至于因此挨骂,我表示声援。
       Robin君说我对例句替代解释错了,我看了《俱乐部》的帖子也许我的解释不符合你的意思,但是对于我举的例子而言没有大的差别。
Robin君说:
      “例句替换的应答方式是在词与词已经建立关联的基础上,把关联得到的词语填入作为语法框架的例句之中。并没有必要一个例句只存储和这个例句有关的信息。”
      这里所说的关联究竟是什么关联语焉不详,如果要把词填入语法框架(还是离不开语法),必须对词作出标注,不然计算机怎么知道哪个词可以填入框架的哪个位置?这是通行的做法,没什么出奇的。那还“教”什么?
Robin君又说:
      “我在词语关联上采用了ruiaijun先生的思想,但我是通过对文句的拆分、解析得到词语,并对这些词语进行关联,得到应答所需的词语,再填入适当的语法框架中(在这一点上我和ruiaijun先生的想法有所不同)。”
      这一点Robin君聪明些,他“通过对文句的拆分、解析得到词语,并对这些词语进行关联”,这里“关联”应该是进行标注。解决了前边的疑问。
他说:“同时,我认为ruiaijun先生的学习思想也是值得采纳的。在出现未记录关联的句子时,我们可以采用人为教授的方式(不是直接地修改数据库)为其添加新的关联。我们当然也可以用人为教授随时对句法库进行添加。我觉得这也正是ruiaijun先生想法的可取之处。”
      这里发挥了学习的特长。但总离不开一句一句地教。
     小结:过程是对句子进行拆分、解析得到词语,并对这些词语进行标注。要拆分、解析多少句子?我看数量不可能太少,否则人工教的句子就多。这和我前一篇帖子分析的过程有什么大的差别?无非是一部分句子由人工拆分、解析过程代替了。这个拆分、解析过程要不要请语言学家?我看程序员总不比语言学家更合适吧?
发表于 2005-1-22 07:54:35 | 显示全部楼层
休息之余,逛了逛言语比特中的老贴(呵呵,在本论坛在下还是新手呢),发现这里有人讨论“自然语言理解”这个大题目,刚好手头也有些资料,于是聊性大发,姑妄言之,姑妄听之就好,呵呵呵呵。。。。
        第 1 楼 主要是xychy反驳ruiaijun的“我的自然语言理解是建立在信息提取的意义上的。自然语言携带着有用信息和多余信息,我认为自然语言理解就是要除去多余信息,提取有用信息,因此我常常把理解叫做信息提取。这是另一条路。好像也不太时髦”观点。---------偶和xychy一样,也不同意ruiaijun的观点,但是觉得xychy反驳了一大通,实在没有说到点子上,呵呵,且让我来试试。
(1)首先来明确一下信息的定义。shannon认为信息不同于消息,信息是消息对于主体有用程度的度量。例如一般而言“六月雪”这条消息相对于“十二月雪”这条消息而言,信息量要大,直观的理解“六月雪”几乎是不可能发生的,是小概率事件,事实上信息也是采用概率来度量的。在shannon的定义中我想强调的是信息在一定程度上是个主观概念,关键在于采用何种事件空间。以语言为例大致有语法信息,语义信息,语用信息等概念,这些概念的不同在于它们度量的事件空间不同;其中shannon的信息论属于语法信息,度量的是符号空间;其它的语义和语用信息也可以说是度量语义,语用空间的,但是语义和语用隐藏在符号之中,是不可直接观察的,他们的数学特性还不清楚。一句话,信息由于其主体特性的存在,是分层次的。另外,信息还有一个经典定义是kolmogorov从描述复杂性的角度给出的:对于随机串有很多种描述,其中最短描述的长度决定了信息量。简而言之,这个定义,这个定义强调随机串中不可压缩性的度量。还是以语言为例,信息的提取过程就是对于语言中句子的建立描述的过程,一般而言,我们最求一个精简的描述,反应在结果上就是起到了压缩的作用。
(2)现在回到我要批驳的ruiaijun的观点上来。ruiaijun君意识到可以“常常把理解叫做信息提取”,也就是意识到“理解”和“提取”都是对于语言对象的一种描述,但是他的结论是错误的,体现在(A)信息提取和理解都是一样,是目的不是手段,谈不上“另一条路”(B)同样因为信息提取和理解在本质上是相同的,都是要建立一种描述,所以根本就谈不上能够将理解建立在信息提取的基础上(C)信息提取从技术手段上看属于浅层句法分析,统计,规则,以及两者结合的系统在文献种均有记载;换句话说这些信息抽取的应用就是层次较浅的理解。(D)或者
(3)我觉得xychy没有说到点子上,原因在于ruiaijun犯的是循环定义的错误,是用等同的概念来定义自身,恰恰不是xychy君强调的两者的对立上,也不是xychy君强调的要采用语法逻辑的方法上(A)“信息提取法是用词库反向检索语句”这种说法是以偏概全,不能作为论据(B)“信息检索属于处理技术,而自然语言理解则属于人工智能”:信息检索中可以而且常常采用了AI中发展的一些技术,自然语言理解中也可以采用信息检索中常采用的一些技术(C)同意“谈不上理解”,但是信息提取特别是句子中的信息提取当然也可以采用语法技术,而且可以采用概率化了的语法技术,语法和信息提取并不对立。
发表于 2005-1-22 07:56:00 | 显示全部楼层

哇塞,花了我一个半小时,余下的改天聊

发表于 2005-1-22 15:28:41 | 显示全部楼层

回 第 3 楼

"可以实现内容分类比较。我有很多想法,就是没有钱实现。自己又不会编程。"-----呵呵,关于内容分类有什么想法不妨摆摆,你不会编程,我会啊,说不定能帮上忙呢
发表于 2005-1-22 17:22:00 | 显示全部楼层

回 第 10 楼

归纳一下贴主的观点先,理解不妥之处请指正:
(1)不主张采用机器学习的方式解决NLP问题,因为“句子是无限的”,在有限的学习和内存的条件下,机器学习无效。
(2)强调了语言的物质基础神经网络的作用,也注意到了类比的学习方法,并且通过纠正和不纠正的方法,可以建立“吃”和食物的关联,存储在神经网络中,表现为描述句法语义关系的生成规则。

下面愿意和朋友们就这两个问题谈谈。
(A)既然贴主不熟悉机器学习,我简单的介绍一下。机器学习是建立在归纳推理基础上的一种建模思想,强调从环境中归纳出知识,进而可以推理到问题域的整个空间上去。以语言为例,不管用于学习的语料库有多大,在现实可操作的意义下都必定是有限的,是在有限基础上的归纳;单单有归纳还仅仅停留在观察事实的重复上,是不够的,还需要从有限走向无限,途径就是推理,机器学习算法性能的体现在它的推广能力上。贴主在(1)中的担心是没有必要的。
(B)文献中的术语一般称幼儿的语言学习过程为语言习得。这是个比较活跃的方向,最出名的一个open问题就是Chomsky的“stimulus poverty”问题:幼儿所能学习的语言都是简单的语言,但是如何解释幼儿能够理解他从来没有听见过的复杂的句子呢?(2)中的类比推理似乎可以在一定程度上解释这个问题,但是实际的复杂性要超出我们的想像:类比是依赖于相似性的,而相似性必定是某种现象规律的归纳,是建立在模式基础上的,或者说是概念语义习得的基础上的。不幸的是概念习得同样面临刺激不足的问题。从计算的角度来看,目前的焦点在于提出合理的模型来模拟这么一个过程,我所接触的资料中有神经网络模型,也有符号动力系统,但是效果均不佳。
发表于 2005-1-22 20:06:03 | 显示全部楼层

诸君言论如滔滔江水!甘拜下风!

发表于 2005-1-22 20:21:27 | 显示全部楼层
小虾 于 2005-1-22 15:28 写道:
-----呵呵,关于内容分类有什么想法不妨摆摆,你不会编程,我会啊,说不定能帮上忙呢

小虾兄真的会编程?
那好哇,
那就麻烦你看能不能编个程
先帮助湘里妹子学术论坛解决用国际音标标注方言的问题好吧:ninja:
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-3 13:32 , Processed in 0.063309 second(s), 12 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表