湘里妹子学术网

 找回密码
 注册
查看: 3204|回复: 0

罗海清: EPC汉语走出汉语词的困境

[复制链接]
发表于 2005-10-5 17:40:08 | 显示全部楼层 |阅读模式
来源:罗海清个人网页《语言现代化之路》http://luohaiqing.bokee.com/3049252.html
2005-10-5


                               一, 什么是EPC汉语?

    EPC汉语用拼音词(PC)加上意标(E), 构成多层面立体结构的汉语句子
, 然后通过情报语言学的主题词思想, 找出全句最核心最关键的词语移到
句首, 于是, 这样的句子就变成了知识表达式; 我们将成千上万个这样的
句子组织成句典, 并将它们所表达的知识, 或对应的外语句子标记在后面
, 那么, 任何一句汉语意思, 只要按字母或数字序, 从它的主题词切入,
并顺着EPC结构逐层深入,  即可查到它蕴涵的知识, 或任一种与之相对应
的外国语句子. EPC汉语的定位,  从知识管理工程来看, 它是知识表达与
获取的一种方法; 从语言学角度来看, 它是应用语言学的一部分; 从汉语
自然语言角度来看, EPC不可能是供一般人使用的汉语拼音文字.

    这里, 我们举个汉语翻译成英语的例子.

    用汉字表达的   请打对方付费的叫人电话给张先生
    汉语句子:

    多层立体结构:  7请3打8电话23叫8人21对方3付8费7的3给8张先生
                  (请打-->电话<--(叫人的-对方付费的)-->给张先生)
          主题词:  打电话
    第一修饰层面:  叫人(的)    立体结构: 23叫8人
    第二修饰层面:  对方付费的  立体结构: 21对方3付8费7的

    主题词切入的   3打8电话23叫8人21对方3付8费7的7给8张先生17请
    知识表达式:

    机器自动将汉   3dc8djthud23gjr8rn21dulfaa3fx8fel7de7gek8Vaa
    字译成PC:      hjmxee17kik

    检索到的知识:  □Please make it a collect call, and a person
    英语句子翻译     al call to Mr. Zhang.


                 二, 如何给每个拼音词(PC)带上意标(E)?

    拼音词(PC)平均由4-5个字母组成, 如, famel(翻译), vixj(知识);
一个句子里往往包含许多个词, 词与词之间必须用空格隔开, 例如,
        uq vk nef xo eidjs Iiun (我只能说一点英文).
意标(E)就标在每个词前面的空格中, 如上句,
       1uq7vk3nef3xo7eidjs8Iiun.
    由此可知, 意标是由数字标识的. 0-9一共10个数字,  它们怎样标识
词在句中的语法语意关系呢? 我们可以用10个汉字来概括,
        21 - 偏正  43 - 似谓  65 - 因果  78 - 状宾  90 - 时空
    首先, 我们对汉字的基本意思作出说明.
    1, 偏正(21), 汉语的偏正结构, 1 - 中心词, 2 - 修饰词, 例如,
        1xu2him(书<--新), 1wb2eibei(茶<--一杯), 1hijlk2nkde(行李
        <--你的);
    2, 似谓(43), 都是谓词, 3 - 肯定描述, 4 - 不肯定也不否定, 如,
        3hkhym(喜欢), 3qvqq(游泳), 3topel(同意),
        4haqhjd(好像), 4katlaj(看来), 4slhu(似乎);
    3, 因果(65), 标识汉语的因果句-目的句-假设句-条件句等, 例如,
        6imul(因为), 5sqyek(所以), 6qviv(由于), 5imep(因而),
        6gicrv(假如), 6glran(既然), 5kggjt(可见), 5ekbjt(以便);
    4, 状宾(78), 句子中的状语和宾语成分, 7 - 状语, 8 - 宾语, 如,
        7zsjd3pim(怎样-->拼), 7xjfm3hqxll(十分-->秀丽), 7vm3haq(
        真-->好), 3dc8djthud(打-->电话), 3djs8cal(点-->菜), 3zr8
        djtwe(坐-->电车);
    5, 时空(90), 事情发生的时间地点, 9 - 时间, 0 - 空间, 例如,
        9xlgl(世纪), 9zaqwn(早晨), 9kqugl(秋季), 9badys(傍晚),
        0Voogp(中国), 0doofaa(东方), 0ndlk(那里), 0hakat(海岸).

    其次, 我们要讲述这些字的扩大意思.

    1, 意标1除了表示偏正结构中的中心词外, 它在句中还表示主语, 例
如, 1ddge3kaiwe(大哥-->开车), 1dldl3dvxu(弟弟-->读书), 1xuj3zr8
gycgar(谁-->做-->广告); 其次, 意标1在修饰词2后, 即21, 表示该修饰
词又是中心词, 应跟后面的修饰词2结合成合成词, 例如,
        1lklut21bjtvehfc2zlran(1理论<--21辩证法<--2自然),
不能读成: 理论<--辩证法<--自然, 而应读成: 理论<--(辩证法<--自然),
以显示"自然辩证法"是个合成词;  第三, 意标1在知识标达式里表示自然
语句的开头, 如第一节例句中的17请, 由于"打电话"前移到句首作主题词
, 自然语句的开头就要从"17请"开始往后读, 后面没有字了, 就返回到句
首继续读; 如果自然语句开头已有意标1, 那就不应再标开头1了.

    2, 意标2可连续多层修饰前面的中心词, 例如,
        3deegl7zal0xad2mijdam2hoxbw21bamclde2vhljd
        (登记在...上<--名单<--后补<--(班机的<--这辆))
这里有3个层次修饰"登记上", 而且最内层的修饰跟中心词的关系最密切,
而最外层的修饰跟中心词的关系最远; 中间各层则由内向外关系依次疏远
, 而由外向内关系依次紧密. 意标2的这种多层面向心修饰的特点, 使EPC
汉语的句子检索成为可能. 例如, "参观中国湖南长沙岳麓山风景区"的检
索, 从主题词"风景区"切入, 如果按汉语自然语言的语序: 中国 - 湖南
- 长沙 - 岳麓山, 首先检到"中国", 则与"风景区"相距甚远,  几无检索
价值; 如果按EPC汉语的语序, 意标2向心的修饰如,
        风景区<--岳麓山<--长沙<--湖南<--中国,
首先是"岳麓山", 这样一下就可打中目标 -- 岳麓山风景区.

    3, 意标3标识的谓词, 主要是动词和形容词, 但也可以是其他任何词
类, 例如,
        9zptjm3hiikiysl(昨天-->星期四).
        1ta3erxjsul(他-->二十岁).
        1mekrn3sambs(每人-->三本).
        1nk3hoxljspj(你-->厚脸皮).
   另外, 意标3除了在主句中作谓词外, 还可以在任一修饰层面形成立体
结构, 即由它带动多个子成分的结构, 例如,
        1rn23bl7ve8jsgii3xo8hiahud7de2vhgh.
        (1人<--23闭7着8眼睛3说瞎话7的<--2这个),
这里, 对"人"的修饰用了两个层面, 第一层面是由谓词3组成的立体结构,
第二层面则是单个词"这个".
   意标3在多层面形成立体结构的功能, 对汉语句子检索起着决定性作用
因为主题词切入和多层面修饰, 对汉语句子的检索深度仍是有限的, 只
有按字母数字序, 进入多层面立体结构里搜索比较, 才能将句子细微末节
的意思都检出来, 也就是真正达到句子检索的目的.
    我们再举个例子来说明这个问题,
        当我吃甜的东西时我牙齿会痛.
    如果按汉语自然语言这样的语序, 当什么时候的"当"和"时"隔这么远
, 把子句"我吃甜的东西"封闭起来, 我们无论如何也不能通过字母数字序
, 进到句子里面将这句话的意思检出来.  如果用EPC汉语多层面立体结构
写出来, 例如,
____________________________________________________________
        1ibwk2uq3hul3tor17daa9xj21uq3wi8doohi2tjnde
        我牙齿会痛
                         当
                             时<--我吃甜的东西
____________________________________________________________
    这样, 我们依字母数字序, 即可将句子深层的意思检出来了.

    4, 意标4-6-8必须放在一起讲. 因为似谓(43)中的意标4, 实际上是
用于比喻句, 跟意标6用于因果句-目的句-假设句-条件句等, 都属语意层
面. 而意标8是作为语法平面的宾语,  因此先要将汉字"宾"的概念延伸为
语意关系的"涉事", 这样, 4和6标识的词,  都可以通过涉事8展开为一个
句子. 例如,
        4haqhjd81gjq3die5dyt7le1.
        4好像-->8(脚-跌-断-了)
        6rvgq81nk3jr9ljctjm7gqx3sor5laj.
        6如果-->8(你-要-两天-就-送-来)

    5, 意标5与意标8相反. 意标8的概念是从语法层面的宾语, 延伸到语
意层面的涉事; 意标5则是要从语意平面的因果关系,  回到语法平面的述
补关系, 即当谓词的结果补语用. 例如,
        3vac5dd(长-->大), 3bjt5hjq(变-->小), 3xo5kiiww(说-->清楚
        ), 3hof5hul(学-->会), 3zr5yn(做-->完), 3paq5hujlaj(跑-->
        回来).

    6, 意标7的状语概念, 要延伸到语意平面的各种依附关系, 简称为依
事. 实际上, 意标7的标识, 完全不必考虑语意是如何去依附的,  我们只
要将汉语中所有虚词: 副词-介词-连词-助词-语气词, 以及有声词: 拟声
词和感叹词, 统统都用意标7标识就行了.  因为这些词一是数量少, 二是
非句子的主要意思, 并不影响汉语句子的检索; 同样也不影响机器对汉语
的理解, 我们只需把所有意标7的词列个小表,  即可对汉语句子的意思进
行极细微的分析了. 因为意标7囊括一切虚词小词, 使得EPC能够处理极复
杂的汉语材料, 从而进到实用程度.
    另外,  意标7的功能也是很大的, 它可以带宾语8甚至可延伸到涉事.
例如,
        1xu7bel8Hjqmij3kjc5zow7le.
        (书-->被-->8小明-->抢走了)
        7atvar8glhud2ixdil7de3vjhij.
        (按照-->8计划<--预定的-->执行)

    7, 意标9-0标识的时空, 是个永恒的概念, 比较容易掌握. 任何事物
的发生都离不开一定时间和空间, 因此, 我们应尽量将时空词标识出来,
以便机器对汉语的理解; 但是, 它们的标识受到一定限制, 那就是句中数
的表示会跟意标0-9的数字相混淆; 当一串数字存在的时候,  我们必须把
开头和末尾的两个数字去掉, 用作前后两个词的意标, 中间剩下的数字才
是实际的数词. 在这种情况下, 我们不能再在第一个意标后标识9(时间)
和0(空间)了, 因为它们会跟数字搅在一起. 例如,
        1uq3jr98djsvoo3laj.
        (我-要-98点钟-来)
                8
        1uq3hjc3bjtgee8ixoe2bamgiyde2103cl25oh17rl.
        (我-想-变更-8预约<--班机的<--2103次<--25月17日)
                                      103      5

                 三, EPC如何走出汉语词的困境?

    已如上述, EPC是带意标的拼音词. 其中PC又称高浓汉语信息, 由2-3
个字母表达汉语1270个带调音节, 平均2.3个字母,  其构成原理请参见笔
者<高浓汉语信息>探秘一文. 带调的汉语拼音词, 同音异义现象并不严重
, 约占总词汇量的11.2%, 这是从文字改革出版社1964年出版的<汉语拼音
词汇>进行的统计. 但是语言文字总是在具体的语言环境中使用,  因此,
同音异义词的比例并不高, 至少不比别的拼音文字高多少; 但由于历史的
原因, 同音异义的单音节词却令我们棘手.
    上个世纪80年代初, 为了让PC在电脑里显示汉字, 笔者成功地将汉字
切分成AP(形声)两部分, 从而比较彻底地解决了汉字输入问题. 例如"罗"
这个字, P - lp(luo2), A - c(草头), d(动物), g(金旁), v(竹头), w(
虫旁), z(走旁)等, 这样, lp的同音异义字(词)就基本得以区分:
                   clp(萝)
                   dlp(骡)
                   glp(锣)
                   vlp(箩)
                   wlp(螺)
                   zlp(逻)
                   ... ...
    可是, 字是有了, 但汉语词到哪里去了? 为了解决词的问题, 规定单
音节词才加A, 双音节以上词直接用纯音PC表示, 例如,
        lta vhf nta kgnef pdx mloh kixle.
            (他和她可能度蜜月去了)
其中, kgnef(可能) mloh(蜜月) kixle(去了) 就是纯音词, lta(他) nta
(她) pdx(度) 则是AP形声字了.
    看起来这种中文信息处理方法不错, 可实际应用时, 单音节词虽不算
多, 但使用频度极高, 因此, 汉字形对拼音的影响仍很大, 无论输入书写
和阅读都不甚方便. 后来, 干脆对1270个带调音节, 都用来代表一个最常
用的汉字, 这样, 在处理现代汉语资料时, 纯音词的输入书写占到整个资
料的90%以上. 对此, 笔者已十分满足, 将这种处理方法称作PPA, 并作为
电子计算机汉语, 申请到发明专利权, 并获得中国专利局颁发的专利证书
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-30 11:30 , Processed in 0.102959 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表