湘里妹子学术网

 找回密码
 注册
查看: 17570|回复: 33

信息检索和自然语言理解不是一回事

[复制链接]
发表于 2004-3-29 17:46:58 | 显示全部楼层 |阅读模式
ruiaijun君说:
      “我的自然语言理解是建立在信息提取的意义上的。自然语言携带着有用信息和多余信息,我认为自然语言理解就是要除去多余信息,提取有用信息,因此我常常把理解叫做信息提取。这是另一条路。好像也不太时髦!
      这片老帖子是典型的智能型信息提取的例子。几秒钟看几百个字,显然对人脑来说是较高的处理速度,把这种理解编人计算机中显然比用语义语法逻辑等方式速度要快,这就是我的看法。
      在计算机上,信息提取法是用词库反向检索语句,因此根本不用费事去分词,也不用考虑词汇的位置。如果是专业交流,可以采用有目的的反向检索(用目的压缩词量),检索会更快。在复杂的多学科交流中,可以采用分学科词库,交替检索,每个词库都不要很大,这与wychy先生的语义域不知有没有关系?上下文的关系用来确定语言交流的范围,用于按范围取库。用不着的词汇库就保存在硬盘上,不用读到内存中。占据内存也一定会很小。”(引自《人工智能研究者俱乐部》《自然语言》栏目)
      我曾经说过:
      “我认为人理解事物是一个思维过程。人看到或听到一句或几句话,或是经历了某件事后,在脑子里必须进行综合、分析和推理,才能理解和得到认识(即认知)。这个过程就是思维过程。语言是思维的工具。人脑里存储的信息有图象,也有类似于语言符号表示的东西。它们是相互关联的。在想一件事时脑海里是图象,而对这件事进行分析推理时就是用语言符号。”
      而ruiaijun君说,“自然语言理解是建立在信息提取的意义上的”。
      就是说,我们之间对“理解”的理解南辕北辙。争论也就毫无意义。他的方法是“在计算机上,信息提取法是用词库反向检索语句”。这是信息检索,跟自然语言理解不是一码事。信息检索属于处理技术,而自然语言理解则属于人工智能,不能混起来谈。     
      著名自然语言处理专家黄昌宁认为统计法是自然语言处理的方向,也只是说,用于信息检索速度快,效率高。最近一次人工智能学会年会他就没参加,以前好象也没参加过,他似乎也没有担任人工智能学会的任何职务(他给我的名片上就没有任何学会职务名称)。好象也没人称他为人工智能专家。
      教计算机加法就和加法运算程序一样不需要语法我相信。如果要教计算机解四则应用题,那就非用语法和推理不可。我的方法在书面演算时可以解带羊、狼和菜过河和解四则应用问题。而信息检索的方法则不可能办到。我有一篇《计算机解人工智能问题示例》(尚未发表),哪位编程高手承诺把它变成演示程序,我可以发去,并详细说明实现技术,作为合作成果。
      ruiaijun君的帖子让我恍然大悟:为什么他把他的方法作为信念看待。由词汇库检索句子用数据库就行。台湾图书馆就是采用统计关键词出现频度确定关键词实现多语言检索的。何必搞什么机器学习?教计算机用疑问词给词分类就是以语法为基础,虽然这种分类不可靠,我也曾指出过。这正好说明,离开语法谈不上理解。
由此我们也看出,做学问不可以急功近利,也不能异想天开,把问题看得太简单。凡做学问,就必须老老实实多看点书,尤其不要以为做学问的会说汉语就可以不学习汉语语法,不必学习逻辑。有人主张大学把逻辑学作为必修课也不是没有道理的,因为现在的大学毕业生不少说话不清不楚,写文章错漏百出。
发表于 2004-4-3 01:51:12 | 显示全部楼层

Part1

這個討論看了幾天,不知道該如何回應。而這個範圍卻是我感興趣的。

首先要說,我對某些名詞是很陌生的,因為處理的多是程式,不涉及太多
的學術論辯。所以若有定義上的疑義,歡迎斧正!

於此,我想把人工智能稱為AI,搜尋技術稱為SE,上面討論的理解改為認知;
主要是採取認知心理學的觀念,目前要求電腦理解似乎太沉重了。我們只假
設電腦可以接受→消化→反應就好了。那AI技術只是在消化的階段。理解有
主觀的判斷,認知就程式來說較為中性。

原先我是不會寫程式的,是因為敝網站資料龐雜,直到有天臺灣中研院的朋
友,抱怨我的網站沒有搜尋功能。所以我用了8個月,研究評估了各國350
種Search Engines;在過程中才反推學會了各式程式語言,一直到四年前的
某個夏日午後,才在一個偶然的機會破解了GAIS(印第安那大學吳昇的1998
年數學大獎作品)。這是我在程式寫作路途的第一個喜悅,為此我醉了三天。
那有人會問,那為什麼不去買還是請人寫呢?那我告訴您,當時我才發現,
SE是一個網站最昂貴的配備(直到現在);另一方面也同時巴結臺北SE的前三
名高手。可是我發現他們多半被既有的程式基礎思維所限制,所以只好自己
去寫出來(所以說寫程式是被逼出來是真的);其中支持我信念的是一個問題
:為什麼要用表格(Table)計算?微軟一切的設計都是以ID/Value(形式上即為
Table)為試算基礎,只是我要處理的是中文歷史資料,我憎恨Tables。

GAIS運算速度是0.00001秒搜尋20G,Index壓縮比約50%,是當時世界上最
快的SE,它可以掙脫Table的限制;從此開啟我的第二段速度之旅。當時還
沒想到NLP或AI的問題,只是自豪於自己大概是世上SE的前三名了。
由於GAIS是全文(Full-text SE),因此在操作過程中不免思考到多國語,以及
SE的哲學問題。搜尋的意義是什麼?為什麼要全文?怎樣才叫全文?如何
讓使用者快速精確的找到他要的資料?

到了兩年前的春節,我被GOOGLE嚇到了,它顛覆了我原來對SE的思維(GAIS
可以算出所有Codes行列數,可是GOOGLE的Cache Preview卻是以視覺(
Highlight)取得使用者的親近性);這個衝擊讓我失落了兩個月,直到我跟奧
地利農業部的資訊小組(HSE)在半夜取得聯繫,用了一個月合作並解決了中
日文版以及其它36國語文的問題,並思考中文全文標色抓取的問題(這已經牽
涉到NLP的某些領域,只是名詞不同)。才確定超越了GOOGLE,才能安心睡覺
(範例在此BBS的繁簡轉換與關鍵字標示POST)。此中我已發現NLP與圖書館學
中的Mark問題,另外順道觀察了兩岸SE產業的特性(目前百度的設計是被我罵
出來的,還是不行,而GOOGLE已採用UTF-8多國語並列),然後進入了我的符
碼(Codes)之旅。

在2001年底,由於意外的心臟先天性瓣膜缺損,前前後後在醫院經歷死亡的
三個月,做過幾次開心手術,在病床上,我手邊拿的還是一份繁簡字符的程
式,在入院前,我多麼希望把它作好,把校正精確度提高。在出院的一星期
,解決了繁簡轉換的Replace問題。在情歌與感謝的情況下,我邁向了第三個
Codes的旅程。

...........待續
 楼主| 发表于 2004-4-3 03:35:38 | 显示全部楼层
水电君真是天才!
我是够狂妄的了,佩服的人不多,你是我很佩服的人之一。我是60年代末开始看机器翻译方面的外文资料的。此前从事多种外文翻译(自学了七种以上外文,翻译较多的也有六种,可是我没有一种会说)。可以说青春年华都耗在NLP上。80年代初到一家生产学生电脑的厂家学BASIC编程,他们给我一台自己鼓捣。大约半个月就给他们编了一个简单的财务软件,得了几百元还大大的感谢了厂长一番。我觉得搞程序是浪费青春,拿了钱就走人。就是因为认识错误,至今还觉得非常遗憾。
其实SE跟AI结合可以作到随心所欲,要什么可以来什么,不会来垃圾。还
可以实现内容分类比较。我有很多想法,就是没有钱实现。自己又不会编程。呵呵,不说也罢。
发表于 2004-4-3 11:23:10 | 显示全部楼层

Part1-1

請xychy先生莫謬讚。
本來只是想以一個外行切入的路途,來反省自己這幾年來對程式作品觀
念演進的業餘心理過程;一方面是朋友希望我把一些技術上的經驗寫成
手冊,可是礙於時間不足,且技術資料能看懂的人不多、另一方面也是
野人獻曝,期待鼓勵一種業餘外行的途徑,也是可以加入AI/NLP/SE的
工作領域的(如百度的老板是生物系的);因此不期待觀念能被學院人士
理解,只希望用簡單的生活語言,陪伴另一些在創作過程中感到寂寞的
朋友。

P.S.
只是把這段文字拿給一位博士班的女生看,還是跟我說:一竅不通。令我心碎不已。

Part1中提出的第一個技術問題是Table試算觀念↓
(嚴格來說Table不適合作全文,微軟的Indexer及各OFFICE軟體皆無法作
到全文搜尋,即是一例)
牽涉到程式語言的選取、程式類型的不同佈置、資料庫的型態與效率控
制(如大陸學者偏好ACCESS,卻很少人研究利用簡單的CVS試算表)

Part1中提出的第二個觀念問題是近似領域中相同名詞的不同討論↓
如去年底GOOGLE開始使用的搜尋分詞方法,在SE及NLP領域中各要以什
麼態度來討論呢?

......待續.....
发表于 2004-4-3 12:25:05 | 显示全部楼层
不要断章取义嘛
第一句是“一窍不通”,
还有第二句“叹为观止”呢 !
为什么不讲讲夸你的话 :)
期待您的“......待續.....”
发表于 2004-4-3 14:56:57 | 显示全部楼层
令我心碎不已
是我的伏筆啦↑對AI來說,這是個難解的歧異句。
訂正↓
上文中應作CSV試算表
這輩子從沒討過女生歡心
作人堅持失敗
失敗的麵→Spider man
发表于 2004-4-3 23:30:17 | 显示全部楼层
xychy先生差矣。ruiaijun先生一直坚持的是例句替换的思想。所谓例句,实际上就是语法结构的另一种表现方式而已。这与采用语法组句的思想在实质上是相同的,只是ruiaijun先生似乎不太喜欢“语法”这个词罢了。归纳语法当然更为系统化,但例句替换也许会更灵活一些吧?
这只是我的一些不成熟的见解,还望各位批评指正。
 楼主| 发表于 2004-4-4 01:42:40 | 显示全部楼层
Robin君说:
“xychy先生差矣。ruiaijun先生一直坚持的是例句替换的思想。所谓例句,实际上就是语法结构的另一种表现方式而已。这与采用语法组句的思想在实质上是相同的,只是ruiaijun先生似乎不太喜欢“语法”这个词罢了。归纳语法当然更为系统化,但例句替换也许会更灵活一些吧?
这只是我的一些不成熟的见解,还望各位批评指正。”
      我并没有看到ruiaijun先生说到例句替换。
我倒是要讨教:例句替换怎么比归纳语法更灵活?
      大凡反驳对方观点的方法,一是揭露对方的漏洞,攻其一点,不及其余;一是列举自己主张的理据,以支持自己观点或方法上的优点。只说优点,而不说理据,别人怎么会相信?
      以理服人是讨论的基本原则。
      我猜想,你也许并没看我其他的帖子。我每篇帖子都采用了上述辩论方法。
      你能够用具体的例证和理由指出我论点的毛病,我会心悦诚服的。我不是那种动不动恼羞成怒的人。
发表于 2004-4-4 02:11:47 | 显示全部楼层

..

如果在SE的術語,未知討論所指的“例句替换”是不是類似Strings Replace
的意思?在SE裏,Search and Replace是一個很重要的觀念與方法。
其實我覺得以上討論要分為2個Levels來說↓
A.Search and Replace成What?之後取代為什麼東西呢?
如;
繁簡字詞轉換→轉換後有系統性(固定)→Search and Replace沒問題。
多國語“翻譯”→轉換後沒有系統性(不固定)→Search and Replace有問題。
→因之詞性分析學派茁生→基本理論(略)
(抽離的訊息無法重新編織成正確原始訊息,在S→M→C→R→E中必有BIOS與
Delta)
B.也就是說就SE與NLP兩個領域來說,其問題是有交集的。只是我們在↓
(1)認識論與方法論前題未句通清楚、
(2)方法論適用的層次沒分清楚←前後端作業如何適用的問題

“自然语言理解就是要除去多余信息,提取有用信息”←我反對
是要處理所有Codes
 楼主| 发表于 2004-4-4 13:38:20 | 显示全部楼层

幼儿习得与机器习得

幼儿习得与机器习得
Robin君没有对例句替换作出解释,也没有站出来说明“归纳语法当然更为系统化,但例句替换也许会更灵活一些吧?”的理由。我没法替他说明例句替换究竟怎么替。
      因为我不主张采用机器学习的方式解决NLP问题,我认为那会劳而无功(下面还有详细讨论),所以我对机器学习没有做过深入研究。如果把机器学习比做教幼儿说话(实际上关于幼儿习得已是一个热门研究课题。这种研究不仅对儿童教育有重大意义,而且对计算机理解自然语言研究也有借鉴作用),那么我们还是先描述幼儿学语言的过程吧。
      婴儿出世后有些行为是生存本能,如:吃奶,饿了或哪里不舒服会哭等等。他也开始利用视觉和听觉认识事物。这时事物在脑子里是以图象和声音信息存储的。在发育到一定阶段时(例如,八九个月以上),他的神经网络增生扩大到足以把语音和事物联系起来认识,他就开始学语言。最初父母会教小孩叫妈妈、爸爸。因为有活生生的爸爸妈妈形象的联系,他很容易就学会。他看到大人吃东西,例如苹果,他不会说,只能以伸手雀跃的动作来表示。当大人拿苹果说出“苹果”的声音,他才把这个声音跟苹果联系起来。他可能只发出类似“果”的声音,说“果果”。当大人教他说“苹果”,他才会说“苹果”。他看到别人吃东西的动作同时说出“吃”的声音,他才能学会说“吃”。看到大人吃其他东西都说吃什么什么,他通过类比才学会“吃”可以跟食物连用的规则。他也可能说错,例如本来想吃碗里的肉,而说“吃碗”,如果有大人纠正,他会知道“碗”不能跟不能吃的东西连用。如果不纠正,他经过观察,大人不这么说,不刺激神经网络“吃”跟“碗”的直接联系,他以后也不会这么说。可以假定,在神经网络里,“吃”跟存储在脑细胞里的食物类事物联系较强,说“吃”就会激活这类事物名词。这就是人自动建立的语法规则。
      机器没有人的生物功能,我们采用例句替换的办法教机器学语言(机器习得的一种),采用最简单的程序,以“吃”为例,例句是“我吃什么什么”,必须把每个食物名词都替换“什么什么”一遍,并存储在数据库里,然后用可以替换“我”的词跟所有能够替换“什么什么”的名词组合出句子,都存在数据库里。因为句子是无限的,请问Robin君,要教到什么时候?内存要多大?
      我的方法只需要带描述标记的词表,一个动词“吃”的句法语义关系表达式,和一条生成规则。大家比较一下,哪种方法最省?最简便可行?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2025-5-4 02:03 , Processed in 0.300926 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表