湘里妹子学术网

 找回密码
 注册
查看: 3236|回复: 1

汉语智能拼音文字及其应用

[复制链接]
发表于 2003-11-28 18:36:08 | 显示全部楼层 |阅读模式
作者:纳兰春寒
来源:人工智能研究者俱乐部



一、语言、文字和思维

       从契丹文、西夏文和我国几个少数民族文字以及日本等过文字产生的过程来看,我们很容易得出这样的结论:文字是用来记录语言(语音)的;文字由语言产生,随着语言的变化而变化。在大多数情况下,成熟的文字产生以前,成熟的语言就已经存在了。党项王元昊颁布西夏文以前,党项人就有成熟的语言。而在我们现在使用的现代汉语使用以前,白话就已经在民间存在好几百年了。而另一方面我们可以看到,文字有时也会对语言产生影响。武则天创造了“?BR>住闭飧鲎肿魑?约旱拿?郑?谑潜阌辛恕懊髁痢闭飧鲇镆搴汀癦HAO”这个音之间的联系。汉字对日语外来词的使用是字产生语言的最广泛的例证。如:“干部”,“旅行社”等。那么语言和文字之间的关系究竟是什么样的呢?

实际上我们没有找到问题的根本。无论语言还是文字,都只是人类思维(即语义)的外在表现形式。语言(语音)和文字(词形)之间没有直接的联系。语言和文字的变化反映了人们思维的变化。新词汇(包括语音和词形)的产生反映了新语义的产生。武则天所以创造一个“?BR>住弊质且蛭?谒?蠢疵挥幸桓龅笔币延械暮鹤挚梢源?碜约褐粮呶奚系牡匚弧?
人类思维的表现形式不是只有语言和文字,另外还有肢体语言、旗语等。只不过语言最方便交流,文字最方便保存。或许在未来,人们能找到比语言文字更好的语义表达形式。


二、汉语的特点
英语的特点是词语有格、数、级、时态等形式的变化。日语的特点是有很多助词并且谓语经常在句末。汉语也有自己的特点。
第一、在构词上,实词基本是由语素加上语素构成的。这种灵活的构词方法使汉语实词在词汇容量上没有上限;使汉语词库变得不那么确定,新词随时都会出现。只能找到包含常用词的词典,而找不到包含所有词的词典。

第二、在词义和词性上,虽然词由词素构成,但词的词义和词性跟词素的关系不是很密切。比如:“烈火”“文火”“九味真火”都是名词,而“红火”却是形容词。“黄牛”“奶牛”是牛,而“蜗牛”却不是牛。一个词一旦组成就有了它独立和明确的含义,不再受组成它的词素的影响。所以在汉语拼音文字里词一定要被明确表现出来,而词素(写成汉字就是单个的字)却不必明确表现。

第三、在句子中每个词的词形、发音固定不变。汉语没有格、数、级、时态等形式的变化。名词没有数的变化。通常用数量词,形容词中的“众”“群”等词,和词缀“们”与名词搭配表示复数。如,“几只老鼠”“众鼠”“群鼠”“老鼠们”(“老鼠们”和“老鼠”之间的差别不只是词形的差别,而且词义也发生了变化,应当看作是两个词)。动词没有时态的变化。英语中动词的时态变化,汉语中用副词、助词加上动词表示。如,“我吃饭呢”“我正在吃饭”“我准备吃饭”“我吃过饭了”“我刚才吃的饭”“我早上已经吃了饭了”“在那个时候我正准备吃饭”。形容词和副词没有比较级和最高级。用程度副词修饰形容词和副词表示程度的高低深浅。

第四、虚词在句子中使用频率很高,功能也很强。虚词中的介词连词助词虽然不表示明确的含义,却明确地表现了词和词、句和句的关系,使句子和句意的表达更加准确。代词指代一定事物,可独立充当句子成分。数词和量词表示数量。叹词表示感叹语气。象声词表示声音。虚词不是由词毓钩傻模??氖?恳彩怯邢薜摹?

第五、独立的实词和实词结构可以充当句子成分。虚词(除代词外)一般不能独立充当语法成分。这里所说的实词结构包括词组、成语、歇后语、介词结构、所有结构、修饰结构等。

第六、句子由主语、谓语、状语、宾语、补语构成。主语是句子的施动者(在被动句里是被动者),是句子的描述对象。谓语表示主语的动作、发展变化和其他状况。状语表示时间、地点。修饰谓语动词的副词不被当成状语。它的功能是和动词构成实词结构一起充当谓语。宾语是谓语动词的动作对象。补语是对句子做的补充说明。通常所讲的定语不被当成独立的语法成分,而被当成修饰结构的组成部分。

汉语拼音文字是用来表达汉语语义的,它必须恰当反映汉语的特点。只要能达到正确表达汉语语义的要求,汉语拼音文字甚至可以创造一些不发音的词汇和符号。

三、汉语智能拼音文字的产生
世界上最早产生的几种文字都是象形文字。但一直到今天还在使用的只有汉字。大多数民族到最后都放弃了象形文字,而选用拼音文字。
人们使用语音交流的频率远远高于文字和其他方式,而且人类思维也依靠语言。人们使用语音进行抽象、概括、判断;人们使用语言表达情感。这使语言和语义高度统一,几乎无法区分。也使文字在和语言的对决中始终处于被动地位。我们通常会认为文字是用来记录语言的。实际上文字记录的只是语言所要表达的语意。因此汉语拼音文字也不是记录汉字发音的,而是为了表达我们的思维设计的。

对于每个学习汉语的人来讲,最大的困难都在于认知汉字。汉字的字形和读音联系不大,难记。汉字的笔画繁杂,难写。我的几个外国朋友可以用汉语拼音和我聊天,却认不了几个汉字。我们在上小学的时候,对不认识的汉字,只要能读出拼音就能弄明白词义。有人在美国做过实验,通过学习拼音,外国人很快就能读说汉语。可以想象一旦成熟的拼音文字推出,汉字的障碍被扫除,学习汉语将成为轻松的事情,汉语在世界也将得到广泛应用。

什么样的汉语拼音文字才能满足我们的需要呢?几十年来人们提出了各种各样的方案。目前被认为是主流的方案采用了“现代汉语拼音+异拼+正词法”的模式。我认为不妥。以现代汉语拼音为基础我不反对。我也采用。关键在于分化同音词的问题上,我主张从词义的角度(而不是异拼+
正词法)出发去解决问题。在这个问题上人们容易犯这样几个方面错误:⒈为汉字编码。汉语拼音文字表达的对象是语意,不是汉字。当我们在使用汉语拼音文字时,汉字就再也没有在我们的脑子里出现的必要了。⒉为汉语语音编码。从表达语意的角度看,汉语拼音文字标不标调不是首要问题,首先应该解决的是如何明确表达词义的问题。为了准确表达词义,我设计了大量表示词义和词类的词缀。后缀通常都要标,而四个表示声调的前缀只在必要是才标。⒊随意简写。哪些词简写,应当根据表情达意的需要决定。对实词的简写,很容易造成混乱。⒋使用数字标调。数字有专门的用途,用数字标调是违反惯例的,同样会造成混乱。⒌对现代汉语拼音大动手脚。现代汉语拼音已经被广泛采用和学习。过多改动必然增加人们的学习负担,造成混乱。

从有利于汉语表情达意的需要出发,我设计了汉语智能拼音文字。汉语智能拼音文字首先将词分为实词和虚词。实词由拼音加上前后缀构成。前缀表声调,后缀表词义和词类。虚词有虚词表加以规定。虚词一般由汉语拼音去掉元音产生,虚词的构成字母不多于四个。在书写时,数量词连写,词和词之间留空格,关系亲密的词有时可以用“—”连接。在句子中,主语前加z
',谓语加w',宾语加b',状语加k',补语加c'。

四、汉语智能拼音文字的特点
随手写一段拼音,人脑就能够理解。而计算机却不能将它正确地转写为汉字。因为计算机不懂词和词之间的逻辑关系和搭配关系。汉语智能拼音文字的设计是计算机能够在一定程度上了解这种词和词之间的关系。例如:y
-klz(一棵) tudingmg(图钉)将被计算机认定为搭配错误。因为量词词尾-lz是和名词词缀-mz搭配使用的,两者都表示与植物有关的。同样,在介词和名词之间,助词和名词、动词、形容词之间也有一定的搭配关系。这种搭配关系在词形上就得到了明确的表示。计算机只要对几个相关词的词形进行计算,就能了解这种关系。用汉语智能拼音文字书写的句子,计算机比较容易判断出句子中的错误。值得一提的是这种判断不借助词库,只需对词形进行计算就可以完成。直接将一段汉语拼音转写成汉字计算机很难作到准确无误。但如果先将汉语拼音转写成汉语智能拼音文字,再由汉语智能拼音文字转写成汉字就简单了。关键在将汉语拼音转写成汉语智能拼音文字这里:程序能够根据汉语智能拼音文字的词之间的搭配关系,通过对同音词词性和词义的计算选择出最合适的词。这是简单的人工智能。智能化是汉语智能拼音文字的最大特点。汉语智能拼音文字使计算机可以进行简单的思维。像人脑用汉语语音进行思维一样,计算机用汉语智能拼音文字进行思维。

(技术上的部分机密已经在这里被暴露了。实在无法再做更详细的描述。)

五、汉语智能拼音文字的应用
汉语智能拼音文字使计算机能够写出正确率更高的句子。计算机对汉语智能拼音文字语法错误的判断过程就是一个简单的思维过程。由此我们可以设计出一个具有简单智能的软件。

⒈汉字无编码整句输入软件软件。如果键盘上输入的是汉语智能拼音文字,那么可以直接得到没有语法错误的句子。汉语智能拼音文字几乎没有重码,汉语智能拼音文字的词总是对应特定的一个汉文字的词。如果输入不标调的现代汉语拼音,软件启动智能模块,通过拼音——拼音文字——汉字的转换过程将拼音转写成适当的汉字。软件同样支持现代汉语拼音和汉语智能拼音文字的混合输入。这种输入法是理想的汉字无编码输入。汉语智能拼音文字不是一种汉字编码,它和人类思维的关系是直接的。由于不使用编码,使用者几乎可以不进行任何学习。与现在市场上能见到的各种输入法软件相比,这种智能整句输入软件将会被广泛使用。

⒉汉文字校对软件。按照汉字——汉语智能拼音文字——汉字的步骤处理,通过对汉语智能拼音文字的校对得到正确的句子。
⒊智能翻译软件。按照外文——汉语智能拼音文字——汉字的步骤处理,得到正确率较高的句子。在计算机进行翻译时,一个外文单词经常会有几个不同的汉语意思。目前的翻译软件一般选用使用频率较高的词(语意),而不是根据正确表情达意的需要选择词。这样翻译出的句子仍然看不懂。我们的软件在遇到这种情况时用外文单词对应的几个词(语意)分别和上下文的词进行组合搭配,根据汉语智能拼音文字的规则进行计算,最后选用可能性最大的词。

⒋汉语语音输入软件。按照语音——现代汉语拼音——汉语智能拼音文字-汉字的步骤处理。由于从现代汉语拼音到汉字的处理在前面的软件中已经描述了,这里只说明从语音到现代汉语拼音的处理过程。由于只需将语音识读成不标调的现代汉语拼音,使问题变得简单了许多。



纳兰春寒
029-7482260 8083084
p11009160@hotmail.com
p32320@cmmail.com
apoo27@sohu.com


http://sh.netsh.com/cgi-bbs/search.cgi?terms=纳兰春寒&bookname=1951&choice=new
发表于 2003-11-28 19:26:30 | 显示全部楼层

多此一举

早期推广拼音文字最终寿终正寝说明脱离汉语语音与文字不可分割的特点失败是无疑的。作者设计的这个人工文字谁愿意用呢?谁可以拼得准确?也许只有作者自己。因为多功能词有的是,在不同语境或句式下词的功能会变。我敢肯定作者也不见的拼得准,且不说作者根本无法预测语言发展。发生变化怎么办?
作者所提出的智能拼音的种种优点完全可以在不改变拼音方式的条件下实现,何必多词一举?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-4 06:05 , Processed in 0.075360 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表