湘里妹子学术网

 找回密码
 注册
查看: 2250|回复: 0

关于自然语言处理

[复制链接]
发表于 2004-3-20 01:22:29 | 显示全部楼层 |阅读模式
Stone_ts君在本栏发表了几篇原创作品。为了活跃学术气氛,也为了讨论方便,下面转发我在其他地方发表的文章。讨论帖子附上所涉及的帖子。
                        (原创)自然语言处理智能系统与智能互联网
        转贴者按:本文写于前年,去年发表时只做了少许修改。近半年来我们的研究有了新的进展,特别是解决了知识库自动生成的问题。就是利用已经建立的智能处理平台和包括大约3000个动词的基本知识库,就可以利用专门的程序从大规模语料库生成扩展的知识库。该方法还需要验证,一旦取得成果,我们将尽可能快地在本坛发表。
                                    
                  2003/10/11 01:48:19 发表於《人工智能研究者俱乐部》
在计算机出现之前,图灵就曾预言,计算机可以具有智能,但是至今还没有出现这样的计算机。其主要原因在于,要求计算机模拟人的智能,就必须弄明白人脑思维、认知的奥秘。这涉及认知科学、逻辑学、语言学、心理学、数学和计算机科学等。由于当前学科分界过细,各个学科研究各自为政,甚至同一学科研究也各家自成一派,缺乏统一和协调。就我国而言,也存在同样的问题。一方面跨学科研究方面创新人才匮乏,另一方面不少研究人员只跟着国外学者后边跑,缺乏创新精神。我去年参加在北大举行的中日计算语言学专家研讨会,更加发觉这方面的研究问题严重。例如,我们参观某研究所的语音识别软件演示时,博导王永成教授对着话筒念报纸,而演示电脑竟毫无反应。我不知道该所是否申请过语音识别方面的基金资助,但至少说明我国汉语语音识别的水平有限。国内英汉和汉英机器翻译软件不少,但准确率有限,应用不广,人机对话只用于特定场合,远没有达到具有智能的程度。我们历经10余年的研究,解决了使计算机具有智能的主要难题。我们的主要成果简述如下:
1)通过认知、思维与语言关系的研究得知,认知过程就是以语言作为工具进行对事物综合分析,利用知识进行类比、判断、推理的思维过程。对语言结构的研究得出任何语言都是由载体链、语义链、逻辑链和语用链组成的树状网络结构。语言理解也是是利用知识进行语义推导的认知过程,应当看作以语法作为推理规则的逻辑推理过程。语言是逻辑表达式的载体形式,可以用相关成分句法语义关系表达式表示,句法语义关系表达式可以转换为逻辑表达式。任何语言意思相同或近似的语句都可以用相同的逻辑表达式表示。逻辑表达式按照不同语言的不同规则又可以转换为不同语言的载体形式。制定一种跟自然语言普遍语法一致的逻辑表达式表述规则,亦即制订一种跟自然语言普遍语法一致的逻辑语法,就可以利用逻辑表达式进行推理。我们把这种逻辑表达式叫做集合逻辑表达式。这是一种各种语言通用的形式语言或中介语,也是计算机可以理解的程序语言。用这种中介语描写知识库并制订完善的逻辑推理规则,各种语言与中介语的相互转换规则,计算机就可以理解自然语言,实现各种语言的机器翻译,也可以思考和解决问题,实现以知识库为依据的人机对话,根据对方的意思提供信息和进行决策,乃至自动编程。(详见《自然语言语义逻辑与计算机处理》,第一章)
2)根据以上理论,我们拟订了建立知识网络的方法。知识网络由概念网络、语义网络和联想网络组成。概念网络全面描写体词所表示的事物。例如,一个名词词项的知识库,至少必须包括下列内容:载体(读音、多义、近义、组合、功能、等)、属性(义素或外部特征、构造或组织、来源或用途等)和匹配域(可以搭配的量词、形容词、动词)。载体信息中,读音不只是标注读音,为了语音识别的需要,还应当列出该读音可能的误读音,即词音域,每个误读音包含多个误读词,组成音词域。由一个句子的词音串,每个词音的词音域可以根据词的匹配域、句法语义关系表达式等,识别整个句子。(详见《语义域论》)
语义网络是指动词与对象词项的句法语义和逻辑关系构成的网络。每个动词义项的描写应包括下列内容:载体(读音、多义、近义、组合、功能、等)、义素特征、句法语义关系、逻辑关系和匹配域(各个相关成分可以搭配的词语集合)。句法语义关系和逻辑关系除句法语义关系表达式和集合逻辑表达式外,还分别列出必要的推理规则。近义词集中释义以节约空间。语义网络的描写可以达到如下目的:1)由单音节动词可以查到以该字起始的派生词、词组和变化形式,可以用于切词和查索以该字起始的词和词组。2)通过与动词的相关成分句法语义关系表达式的比较,可以确定义项,分辨歧义,通过句法语义关系表达式对语义关系不同的成分要求的匹配域、分布特征、句式等不同,通过语词与匹配域的集合运算可以确定语词在句子中的功能和语义格,实现语义推导,推导出省略词语和全句意思,以及指代词之所指,分辨句子的层次,找到相应的集合逻辑表达式。3)利用集合逻辑表达式和相应的推理规则进行逻辑推理。例如,对于含有移位动词的句子,可以通过集合逻辑表达式和推理规则可以推出原始位置、目的地位置、移动距离、速度等等。
联想网络是指词语之间联想关系构成的网络。联想关系包括:1)名词词汇域的同位、上位与下位元素之间的联想关系;2)匹配集合与相关词项之间的联想关系;3)相关成分之间的句法语义关系和逻辑关系构成的联想关系。为了说明这些关系,可以在词语后附上联想词语的检索地址。联想网络的描写可以达到下述目的:1)快速进行语义推导;2)文字快速智能输入;3)在信息查询、写作或推理决策过程中快速提供准确的信息、词语或内容。
3)我们在《语义域论》一文中提出了用来进行连续语音识别和计算机处理的初步的语义域体系。用一系列集合逻辑表达式论证并举例说明了如下识别过程:由可能发生读音错误的一串主-述-宾句子每个词音的词音域,从各词音域找出与其功能相应的体词和动词集合,再由各动词的语义作用域和主语述语与宾语的匹配域与这些集合的交集运算,得到符合合法句子条件的一些句子。最后由上下文的语义和逻辑关系词判断出正确的句子。这样,就解决了连续语音识别的关键问题,为口语翻译扫清了障碍。
4)我们提出的汉语字偶切词法可以利用上述知识库快速准确地完成汉语切词标注变换成句法语义关系表达式,再变换成集合逻辑表达式。其他语言只需要对各类词进行语法、句法语义关系、匹配关系和逻辑关系描写(公用概念网络的释义部分),制订相应的语言载体和集合逻辑表达式的相互转换规则,就可以实现多对多翻译。由集合逻辑表达式生成任何自然语言都是采用照谱填词式。集合逻辑表达式相当于一个逻辑框架,只需要根据逻辑谓词跟相关词项的关系选择合适的目标语的动词或形容词或其词组,按照它们的匹配域填上合适的概念词和其他词的匹配形式(例如英语的人称、时态的匹配形式),按语序规则组合即成。(见《汉语字切词与标注》)
5)在我们不久即可完成的《自然语言语义逻辑与计算机处理》一书里,我们对汉语动词进行了语义和逻辑分类,描述了不同逻辑类的动词包含的不同逻辑和推理规则和语句的语义推导规则,用于知识库描写,就使得计算机不仅能理解句子,而且具有逻辑推理能力。不仅能理解对方所说话语的意思,还能推测对方言外之意,弦外之音和最终意图。只要补充知识库必要的知识,可以用自然语言使计算机按照人们的意图工作,也就是使计算机具有类似人脑的智慧。
6)集合逻辑表达式采用我们设计的与自然语言普遍语法一致的程序语言,我们命名为希奇语言。这种程序语言有一定数量的程序控制用的专用谓词,可以采用构造集合逻辑表达式同样的方式构造程序命令。只要编写一个希奇语言解释程序和系统核心程序,用这种语言可以构造出自然语言智能处理系统。
7)可以用希奇程序语言设计一种对话填表式编程工具用于补充知识库,使不懂编程的专家可以利用系统编制自己的应用智能软件,例如:各种专家系统、决策系统、人机对话咨询服务系统、解题软件等等。因为是一种开放式系统,系统的翻译系统等等可以借助各方力量不断完善。
8)我们进行了计算机理解汉语描述的人工智能问题和四则应用题并进行解题的模拟试验,证明我们的方法是成功的(见《计算机解智能问题的模拟示例》)。上述成果已为建立自然语言处理智能系统奠定了基础。这个系统具有如下功能:可以用最简便快捷的方法从互联网上准确查到所需要的资料,得到的资料是自己能理解的文字。可以在网上或是打电话时用不同语言或文字进行交流,还能解答自己的疑难问题,按自己的要求办事,例如,帮助学习,自动证题,帮助决策,自由的人机对话乃至编写程序,等等。
智能互联网就是在有线和无线网络服务器上安装大型智能系统,服务器之间和服务器与终端之间可以用
我们认为:人脑认知活动主要是利用知识网络进行一系列判断推理的过程,也是人脑具有智慧的奥秘所在;计算机完全可以模拟这个过程。我提出的方法是用集合逻辑表达式描写知识网络,并用来进行判断和推理。我提出的语义逻辑语法与普遍语法和程序语言语法一致,不同语言只要意思基本一致,就可以转换为同样的集合逻辑表达式,利用不同的转换规则可以再转换为不同语言的载体形式。就是说,集合逻辑表达式是一种可以表示语义和逻辑的形式语言,由于集合逻辑表达式也可以表示计算机操作,又是一种程序语言,用来模拟人脑智能当是理想之选。自然语言语义推导(包括汉语切词和标注、语义格的识别、歧义辨析、省缺成分推断、代词之所指的确定、语意判断,乃至对方意图或弦外之音的判断)、未登录词的识别、语音识别、等都可采用集合逻辑算法。
例如:“鸡吃了,鱼也吃了,还有什么可吃?”里,“鸡”和“鱼”既可能是施事主语,也可能是受事主语,它们属于“吃”的施事匹配域(人和动物),也属于受事匹配域(可食物),将它们的类属集合(动物,可食物)跟这两个匹配域进行交集运算都返回非空集合。因而这句话有歧义。歧义可以用如下两个集合逻辑表达式表示:
a (鸡)∈(┓Э),(鱼)∈(┓Э),(〈┓(鸡,鱼)〉?Э)∈(可吃的)
b (鸡)∈(吃()),(鱼)∈(吃()),Э(〈┓(鸡,鱼)〉?)∈(可吃的)
表达式a 是把“鸡”“鱼”作为受事描写的。┓Э是┓ЭAnyAd(不在任何地方,即被吃掉)的简写。表达式的逻辑意义是:鸡和鱼属于已不存在的东西,存在除鸡鱼以外的什么东西属于可吃的?前两个分句把“鸡”“鱼”归于不存在的事物集合,主句的问题涉及“鸡”“鱼”以外的集合,前后句在逻辑上是关联的。表达式b是把“鸡”“鱼”作为施事描写的。前两个分句的逻辑意义是:鸡属于吃了某东西的集合,鱼属于吃了某东西的集合,跟主句“可吃的”集合不存在逻辑关系,没有关联(此处省略逻辑推理)。显然表达式a才是正确的描述。
在分析文件或话语时可以建立情境记录,对于分辨歧义,确定代词之所指更为有效。例如,该句的情境记录如下:
1、Ad()(表示某处所);
2、Ad()(鸡(类属(动物,可食物)))┓Э;(鸡)∈(吃())
3、Ad()(鱼(类属(动物,可食物)))┓Э;(鱼)∈(吃())
4、Ad()Э(〈┓(鸡,鱼)〉?)∈(可吃的)Э
因为记录4与2和3左边表达式匹配,故得最终记录:
5、Ad()(鸡)┓Э,Ad()(鱼)┓Э,Ad()Э(〈┓(鸡,鱼)〉?)∈(可吃的)
有一个文本更新语义学采用卡片记录确定代词之所指的例子(见邹崇理:〈逻辑、语言和信息〉,第295页):A woman catches a cat。It scratches her。我们用集合逻辑算法确定代词之所指。
查机器词典得到词的特征:
A woman(NP,性数(F,S)人称(Per3),类属(human)) catches(V,Per3,S) a cat(NP,性数(Neu,S),类属(animal))。It(NP,性数(Neu,S)) scratches her(NP,性数(F,S))
1、取It(性数(Neu,S))跟所有NP(woman ,cat)的特征集合进行交集运算,跟cat特征集合的性数相符,故It=cat。
2、取her(性数(F,S))进行同样的交集运算,得出跟woman的性数相符,故her=woman。
3、用(human)和(animal)分别跟catch各义项的匹配域进行交集运算,得出catch义项中take and hold(捕捉,捉住)的施事和受事匹配域都是(human,animal),故选定该义项。(此处省去由交集运算确定语义格的过程)。
4、cat的类属为animal,woman的类属为human可用同样的方法选定scratch的义项为tear or dig with the nails or claws(用指甲或爪子撕抓)。
由以上简单介绍可以看出我们的方法是最简便的。我们制订了一个自然语言处理智能系统与智能互联网及其相关产品的研发计划。
计算机和互联网智能化是各国全力攀登的IT最高峰。谁抢先登顶,谁就取得了IT业的优势。上述计划包含的产品几乎覆盖了IT业各个领域,经济和社会价值难以估量。首先要攻克的项目是,开发自然语言处理智能系统。其中包括:编写希奇语言解释程序,以该程序为基础编写系统核心程序,用希奇语言编写系统控制程序,词典和知识库、工具和智能库等系统基本模块。工具和智能库主要包括智能检索、汉语语义推导、其他语言语义推导、语言载体向集合逻辑表达式和作相反转换的程序,专家系统和数据处理系统生成程序,等等。词典和知识库的编写可以利用现有机器词典修改和补充,需要对所有汉语动词进行句法语义关系表达式和集合逻辑表达式以及推理规则描写,工作量很大。因此,该项目最好由政府组织多方面机构合作,才有可能在三到四年内完成。但是,要政府组织这样的开发是很难办到的,我希望有雄心壮志,有高超编程能力的年轻朋友组织起来,共同努力攀登这一IT高峰。只要有足够的人力,三个月内可以完成计算机解四则应用题的智能软件。不论多难的题目,计算机都可以描述解题过程并列出计算结果。有了这个产品就表示我们的方法是成功的,就可以吸引投资。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-21 17:04 , Processed in 0.062369 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表