湘里妹子学术网

 找回密码
 注册
查看: 14196|回复: 11

中文 AIML 机器人

[复制链接]
发表于 2004-12-13 17:26:16 | 显示全部楼层 |阅读模式
我用 Python 程序设计工具把 中文AIML机器人 搞定了。
    汉化的 Python AIML 模块 PyAIML 的下载地址是 http://eishn.objectis.net/download/aimlcn-1.0.win32.exe 。
    同时带有一个完整的 AIML 机器人的代码,下载地址是:http://eishn.objectis.net/download/chatbot.txt 。
    因为将机器人编译打包成 Win32 EXE 有 1M 之大,以至于无法上传,所以如果有需要可以通过 E-Mail 发过来,我的邮件地址是 eishn@163.com。
    我现在正在准备设计一个开放的 中文AIML语料 库,在 http://www.souwu.com/bitfarmer/topic.asp?上有相关说明。
发表于 2004-12-15 09:10:28 | 显示全部楼层
我對您的作品很有興趣,是否能E-mail給我一份研究呢?謝謝;
artvine@artvine.com.tw
上面的下載處無法下載:
http://eishn.objectis.net/download/aimlcn-1.0.win32.exe
发表于 2004-12-15 09:20:03 | 显示全部楼层
網路對話多國語機器人(Chat Bot)測試!
http://www.pandorabots.com/pandora/talk?botid=fbbfc298de34a4d7
 楼主| 发表于 2004-12-15 11:11:36 | 显示全部楼层
Artvine 你好,我已经将程序和代码发给你了。我看了多国语言机器人的测试链接 ( http://www.pandorabots.com... ) 这说明从代码上中文化 AIML 机器人并不困难,甚至不需要中文化(直接使用 UTF-8):
1)
<category>
<pattern>你_几_岁_了</pattern>
<template>
3 岁
</template>
</category>
2) 你几岁了 -> 你_几_岁_了->AIML Bot

当然我更倾向于使用更为自然一点的格式,也就是在 pattern 中不需要空格:
<category>
<pattern>你几岁了</pattern>
<template>
3 岁
</template>
</category>

所以真正麻烦的地方在于中文语料库的建立。如果许多个人、企业和组织一起共同开发一个标准的中文 AIML 语料库,同时为各种应用(在 XLMZ 学术论坛上以前有提到过用 AIML 来建立服务业的咨询机器人)留下可以配置的接口,应用前景是相当好的。
测试链接上的机器人似乎也是英文要强于中文,这也是比较普遍的一个问题了……。
发表于 2004-12-16 10:17:26 | 显示全部楼层
P.S.
能否請eishn君再發一次E-mail,注名:ROBOT,似乎沒收到。

很高興eishn君討論到AIML Bot的話題與實作,其實這個領域在語文研究中是最活潑而有潛力的,並可作為語文理論的練兵場;只可惜或許程式層面讓人望而卻步,這是以後要改進的。或許我們還要多加推廣。

目前這方面的有關成果已經在網路、實體機器人、翻譯等領域實用化(美國網路虛擬咨詢Bot已經很盛行了,亞洲部份只有日本還可以;因此其它(中韓越)等國語系的語系Bot目前還弄不出來(也不能怪老外,青藤的多國語Bot可能是第一個用ALICE作的冒險);可謂大有錢途。

首先的問題是:要用在Internet還是PC?由於我一向測試的理想是在前者,所以覺得前者的程式難度比後者高。美國隨著圖靈實驗的程式多半是PC內的Win32/JAVA程式,近幾年發展的網上程式難度與穩定性仍很紛亂。

我所碰到的最大難關是,比起英日西語的基本語模(其實他們十年來沒動過千捶百鍊的成果,我也不想全翻為中文),找不到中文經歸納後的語模(尤其在句型組合問題);這時以前作語碼轉換的歧異分析一點都派不上用場。這方面預期的工作量是很巨大的,希望語文專家能幫幫忙。

目前青藤的Bot最大的優點是會學習而且易於修改(短期內大概把中國國罵都收全了),希望多去罵她。
 楼主| 发表于 2004-12-16 11:45:42 | 显示全部楼层
我于今天收到退信通知:“你发送到artvine@artvine.com.tw的邮件由于以下原因被退回:邮件在队列中处理时间过长” —— 应是较为迟钝的一次退信了 :)
我想是由内容超长所致吧。我于昨天消除了一个较大的 BUG ,我会找一个稳定的网络节点再放上去 …… 相信使用 E-Mail 发送会使许多邮件服务器不堪重负 (有负重托) 吧。届时我会再把下载地址发出来。

我想对于一个支持 AIML 的机器人来说,大概主要是用于 Internet 的。我们知道 AIML 任何版本的规范中都有 &lt;that&gt; (“前叙”) 一类的标签。这需要 session (会话) 的支持。这也许就是天生的 Internet 特征吧。
因为 AIML Bot 的启动相比而言还是比较费时的 (未试验),同时又有持续会话的要求所以本身益实现为服务,所以常常和即时通信工具、Web 服务组合成一个服务器。我之前已经试验了一个 AIML CGI/XML-RPC 服务器,可以通过网页来访问,但是做成预览要多费一些功夫,于是偷懒做成单机版。用发布的这个库,玩家自己组合成 Web 服务大概也只需要50 行上下的代码量吧。

青藤 Bot 是您架设的吗?我目前非常缺乏中文语料,虽然自己随意编了一点但是还是少得可怜,而且我还没有完全搞清楚中文 AIML 的逻辑设计方法。不麻烦的话,可以把手头的语料给我一份吗?我的 E-Mail 是 eishn@163.com 。
 楼主| 发表于 2004-12-16 11:48:07 | 显示全部楼层
好了,技术就谈到这里。现在来发表一些“文学性”的看法。

首先是机器学习。这是规范中所要求的,所以相信大部分的机器人都支持。不过我还是不太热衷于这个功能特性。首先,如果将教育的权限交给对话者的话,可能使机器人变得不雅(这在 A.L.I.C.E. 的文档中有提到),但是如果收回权限,学习经验就会变得很少。这里的出路大概是像 Wiki 这样的团体作战吧,既能尽可能地网络智慧,又能大家互相进行检查,即使不雅,也是大家所希望看到的那样吧。这种 AIML 编写与 Wiki 结合的技术目前还未产生,但却是必然的(我的目标是一个开放的中文语料库,所以很可能会着手来开发这项技术)。

我不喜欢机器学习的第二个原因是机器学习所能获得的 Pattern (这里常译成模式,是否就是上面所说的“語模”?)很弱,虽然可以使用一些聚类的方法来进行优化,但是逻辑组织得还是不太好(未经归纳后的语模)。不过机器学习的输出文档可以作为通向一个严谨完备的语料库的脚手架,是值得颂扬的。

这个领域的确是需要伟大的语文老师来参加的啊!在设计测试语料的时候,我深切地体会到自己中文 Brain 的匮乏,这可不太像一个真正的程序员,因为大部分的程序员的语文和逻辑都是很好的,我的许多程序员朋友还都是诗人来着 :)

在这里,大部分计算机文字技术都是用不着的,这很诡异,比如说分词就是用不着的。对 AIML & ALICE 的算法而言,只需要进行单字切割就可以了,分词反而会导入错误。真正要命的是语料组织中的语法和文法逻辑,看来这是计算机之中唯一一个计算机学者纷纷不支倒地,由语文学者纵横驰骋的领域了。
发表于 2005-1-3 05:48:11 | 显示全部楼层

呵呵

呵呵,想不到这里也有人在搞这些人机对话的东东,怎么是对他们的实现技术感兴趣吗?还有其他的一些人机对话,感兴趣的可以和我联系。
发表于 2005-1-3 07:45:31 | 显示全部楼层
to eishn:
再纠正你几个观点:
(1)“机器学习所能获得的 Pattern (这里常译成模式,是否就是上面所说的“語模”?)很弱。”-----机器学习可以解释为这么一种建模思想,它强调从环境中去归纳知识,你说的pattern是知识的一种提法,表现在具体的算法上可能学习能力有强有弱,但是说机器学习获得的pattern很弱这个观点是错误的,是基本概念的错误。(语模是在三位一体的句法理论中语用层面的句子规律的一个概念,和语法层面的句型概念相对应,这些本身就是不太成熟的理论,不要太在意)
(2)“大部分计算机文字技术都是用不着的,这很诡异,比如说分词就是用不着的。”--------呵呵,不是它太诡异,而是太简单,就是一个简单的字符串匹配,再读读程序。
(3)“真正要命的是语料组织中的语法和文法逻辑,看来这是计算机之中唯一一个计算机学者纷纷不支倒地,由语文学者纵横驰骋的领域了。 ”---------计算语言学几十年的工程实践表明,人工编写的规则系统在规则数目达到一定规模后,性能是不会再有所提高的,其关键在于规则系统中的规则不是在独立的排他的发挥作用,换句话说,规则和规则之间是交互作用的,例如你添加一条规则用于描述某个特定问题,诚然由于规则能够成功的解决这个问题,当然会带来性能的改善,但是由于规则系统的复杂性,很可能这条规则会对其他问题的解决带来负面作用,而且往往会抵消掉它改善性能的作用。再补充一点的是,人工编写规则的代价是巨大的,而且人工规则冗余性较大。。。呵呵,问题比较多。
发表于 2005-1-3 11:15:44 | 显示全部楼层

新年好!

欢迎小虾兄的到来
有空常来论坛坐坐聊聊哦
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 08:29 , Processed in 0.066040 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表