湘里妹子学术网

 找回密码
 注册
查看: 12624|回复: 12

[分享] 青藤書屋的漢語分詞標注、眉注、音標與英文詞意對應程式測試

[复制链接]
发表于 2003-10-28 21:57:32 | 显示全部楼层 |阅读模式
漢語分詞標注、眉注、音標與英文詞意對應程式測試
   
    http://artvine.com.tw/artvineword0gb.htm
  
    http://artvine.com.tw/artvineword0big5.htm
发表于 2003-10-30 17:20:04 | 显示全部楼层

現狀和設想─試論中文信息處理與現代漢語研究

現狀和設想─試論中文信息處理與現代漢語研究
http://artvine.com.tw/cgi-bin/bo ... w_post&post=375
发表于 2003-10-30 17:34:42 | 显示全部楼层

现状和设想─试论中文信息处理与现代汉语研究

许嘉璐 撰
《中国语文》2000年第6期(总第279期)
---------------


一 信息处理的必然前景

中文信息处理,就是利用计算机对汉语信息(包括书面的和
口头的)进行处理。既然是凭借计算机对信息进行处理,当
然应该是自动化的。例如,成篇的文章或整本的书输入计算
机,对其中所需要的信息进行统计;自动分类和搜索、过滤
、摘要;外文与汉语的对译;字词典自动查询、辅助编辑;
自动校对;书面和口语的互相转换;聋哑、盲人用的计算机
;等等。至于词典、教科书、多媒体和语文教学等领域从中
得益则不言而喻。

中文信息的自动化处理,意义之重大是无须多说的。首先是
节省时间。但是这还在其次。更为重要的是,这是人们应付
未来信息社会的必需手段。现在在世界范围内,信息最之大
是以往任何时候无法比拟的,以至于对任何人来说都好像是
一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所
需要的信息,当然就更淡不到对这些信息按照需要进一步处
理。

信息在当代是极其重要的资源,不能充分掌握它、利用它,
无论是对个人还是对整个社会,都是巨大的灾难。因此,获
取、处理和运用信息的手段至关重要。可以这样说,中文信
息自动化处理每提高一步,给中国的科学技术(包括国家的
信息化)、文化教育、经济建设、国家安全所带来的效益,
将是无法用金钱的数额来计算的。反之,如果我们落后了,
不管是落后于国际水平还是落后于现实需要,后果也是严重
的。

二 中文信息处理技术发展现状

1字处理与语言处理

到目前为止,中文信息处理基本上还停留在“字处理”阶段
,也就是说计算机对汉语的“认知”是一个字一个字地进行
。最明显的标帜就是计算机键盘输入是一个字一个字地敲,
一个字一个字的显示。即使应用软件准备了“联想”功能,
但是其原理仍是把词(多音词)、短语当成“字”来处理的
。如果我们说得“宽宏”一些,最多可以说现在是处在“字
和词处理之间”阶段。

中文信息处理,只有进入到语言处理阶段,才能真正实现自
动化。现在市面上有些信息产品似乎越过了“字词处理”阶
段,给人以假象,使人误认为计算机对中文信息的处理已经
“自动化”了。例如中文扫描仪,可以成篇地把文件输入到
计算机里。其实,扫描仪是把整页纸当成一个图像输进去的
;输入后,经过OCR的处理,图像转化了可以用键盘处理的
文字文件,这时则仍是“字处理”。再如,现在有些语音输
入产品(像IBM语音板),是基于在一定量的语料中对词汇
进行统计,依据词出现的概率而研制的。其处理的基本单位
也是“字词”。又如多种机器翻译产品,对汉语研究的基本
思路和水平与语音输入基本上是一样的。


二十年前,中国计算机专家和汉语汉字专家为能在计算机上
显示汉字,曾经付出了极大的心血,完成了历史性的突破。
自那以后,中文信息处理技术虽然在有些方面有所进步,但
是至今还没有跨上“语言处理”这个台阶。我们在“字处理
”阶段停留的时间太久了。

在全世界科学技术高速发展的今天,中文信息处理自动化水
平的提高,将决定着信息产业发展的前景,也意味着巨大的
经济利益。因此,一些技术和经济发达的国家都投入了大量
资金,在其本土或在中国建立研究基地,或以低廉的价格购
买中国学者的研究成果,或径直购买其劳力,来进行中文信
息处理的研究。中国作为汉语的故乡,能不能成为未来中文
信息处理技术的发展的中坚?以汉语为母语的中国学者,能
不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆
在我们面前。我们必须尽快地给以明确的回答。

由于机器翻译需要有关现代汉语的全部知识,而这些知识一
旦为计算机所“习得”,对中文信息的处理就可以达到相当
程度的自动化,因此现在无论是国内外中文信息产业还是研
究信息处理的专家,都把汉/外机器翻译定为攻克的目标。

三 目前中国中文信息处理技术发展的态势

中国的有关科研单位和专家,从来没有停止过攻克中文信息
处理难关的努力,在国家的几个科学攻关计划中都列有信息
处理项目。这些项目都是以解决计算机对自然语言进行理解
问题,也就是以开发智能型的汉语分析系统为奋斗目标。

当前这类研究基本上都是在语料──主要是词──的统计概
率的基础上进行的。许多专家已经感觉到,统计概率的路已
经走到尽头,必须另闢蹊径,这“蹊径”就是语义,以词义
为基础,与句法规则结合,以句为突破的单位。

朝着这个目标努力,到目前为止,正在进行的众多研究项目
,大体可以分为三种风格,或者说是三种思路、三个流派。

第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词─短语(词组)─语段─句子。

概括地说,传统计算语言学的种种理论和方法,都以语料统
计为基础。但是,只靠统计概率是不能统摄复杂多变的语言
现象的,因此还需要结合语言规则。为此,中国学术界从西
方计算语言学的众多理论和方法中吸收了许多营养,例如短
语结构语法、扩充转移网络、从属关系语法和配价语法等。(1)

由许嘉璐主持的国家社会科学“九五”重大项目“信息处理
用现代汉语词汇研究”的立项和进展或许可以说是当前这一
领域研究最集中突出的例子。

该课题1997年开题,将历时三年。项目共包含着九个子课题


1信息处理用现代汉语分词词表
2歧义切分与部分专有名词识别
3信息处理用现代汉语词类及标记集规范
4汉语词类兼类问题
5现代汉语词的语法属性研究(之一)
6现代汉语词的语法属性研究(之二)──现代汉语动词电
子词典的扩充和名词槽关系
7现代汉语知识词典的建立和词汇内部语义网络描述
8现代汉语真实文本短语结构的人工标注
9现代汉语词的构造研究

这些课题正在按照预定的进度进行,并已经在不同程度上取
得了比较理想的成果,(2)并将于2000年底结题。

这一课题是纯粹的基础性研究,而且应该说,单就词汇领域
而言,它也还是不够完整的基础性研究。虽然这九个子课题
是中文信息处理技术所需要解决的重要问题,但是要把这些
成果集成,形成可供使用的平台,还需要做相当艰苦的努力
;而且即使这些成果集成了,也只是为今后的研究奠定一定
的基础,因为要让计算机理解汉语的词,还需要解决词的意
义如何概括、表达(用计算机可以“读”的符号)等问题。
在解决了词的问题之后,才能进入句的领域,而要解开句子
的奥秘,除了要弄清楚句子结构规律,关键问题也是语义。
到目前为止,包括“信息处理用现代汉语词汇研究”在内的
研究还没有正式进入意义领域。而对语义,以统计概率为主
要方法,是难有作为的。在已有成果的基础上今后应该走什
么路?国内外都还没有找到有十分把握的途径。

第二个流派是HNC理论。

出于对传统研究方法(词→短语→句→句群→篇章)是基于
西方语言而建立的,其总体与汉语实际不适应的考虑,黄曾
阳先生提出了概念层次网络理论(HNC)。(3)

HNC理论认为,计算语言学界源于图灵标准而采用的句法分
析和句法语义分析所提出的标准各有偏低和偏高的不足,不
是描述人的语言感知过程的适当模式,因为“思维的机制绝
不是语法或句法,而是概念联想网络的建立、激活、扩展、
浓缩与存储”,从而提出计算机对汉语的处理不应该以图灵
检验为标准,而应该以对语言模糊的消解能力为第一标准。(4)

“自然语言的语句呈现出无限和不确定的表现特征,……在
其背后是否存在一种有限和确定的语句结构?人们对此进行
过多方面和多层次的探索。”传统语言学、乔姆斯基理论、
依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模
型等的各种统计处理,各有自己的答案。对自然语言特性的
把握必须是微观和宏观并重的,对语句特性的把握更是如此
。上述四种答案“与语言微观和宏观特性的联系大体依次呈
现出反变和正变的趋向。”HNC的答案是:应该描述语言感
知过程,为此,应从语言的深层入手,以语义表达为基础,
把自然语言所表述的知识划分为概念、语言和常识三个独立
的层面,建立语义完备性的概念表述数学表示式和语句的语
义表述模式。人的语言交流过程,就是消解“模糊”的过程
。因此,HNC把消解模糊作为自然语言理解初级阶段的标准
(就书面而言,有词的多义模糊、语义块构成的分合模糊、
指代冗缺模糊),即以消解模糊为攻克的第一步。(5)

HNC认为,汉语以“字义基元化,词义组合化”方式构造新
词,因此可以构建概念表述体系,亦即概念层次网络。HNC
同时认为自然语言无限的语句可以用有限的句类物理表示式
来表达。“语句的宏观特性可以用语句的句类表示式来表达
,语句的微观特性可以用语义块的构成表示式来表达。”
(6)他们据此设计了局部联想网络解决词汇层面问题,设
计了全局联想网络解决句类和语义块问题(句类是语句的语
义类型)。据HNC课题组的研究,自然语言共有7个句类:
作用、过程、转换、效应、关系、状态和判断。每个句类有
自己的句类表示式,基本句类表示式共57个。此外,自然语
言还有单个全局特征语义块的混合类和两个或多个全局特征
语义块的复合句类。理论上二者应有3192+57×56+57×3192+
3192×3192=10377192种。但是常见的混合句类只有理论值的十
分之一左右,在计算机上是可以解决的。从理论上说,HNC
的句类分析是对大脑语言感知过程的初步模拟,应该接近人
的语言过程,但这需要长时间的逐步完善。

现在HNC课题组正按照“语义块感知和句类假设、句类检验
、语义块构成分析”三步曲策略努力工作,期望能研究和开
发出具有“自知之明”(即能在译文疑点处自动做出标记并
给出多种解决方案)的汉/英互译系统。这一策略在规模较
小的知识库支持下已经取得可喜结果。而其准确性最终要在
更大的知识库支持下,在大规模语料中运行才能得到信度较
高的印证。这正是这一课题当前工作的难点所在。

第三个流派是基于内涵模型论的语义分析。

这一流派的理论设计,是陆汝占教授提出的。其出发点是考
虑到对中文信息处理的研究单纯走语法的路已经难以有突破
性结果,归根结底,要深入到语义层面。朝着意义精细方向
考虑,就会产生兼类过多和概括力不够以及歧义、模糊、不
确定等困难。换言之,汉语表达式的意义仅指称外延对象,
没有涉及内涵性质,因此存在一个语句中的同一词语表达式
的多个出现,都指称相同的外延对象。怎么办呢?应该在一
个逻辑句义框架下来分析词汇及其分类,只要能明白表达句
义,不必过于精细,也就是用逻辑框架来处理词汇理论。基
于这一考虑,该课题组将汉语表达式抽象成数学表达式,恰
当地表示内涵和外延义,然后把这些语义表示在计算机内进
行处理,亦即把汉语表达式与计算机数据结构之间直线联结
,改变为汉语表达式─抽象数学表示─数据结构三者的间接
联结。课题组称之为基于形式方法──模型论的汉语语义计
算理论。

根据这一理论设计,句义分析的流程为:语句→切分→标注
→句法分析→句法树→同构的语义树→逻辑公式→模型解释
。显然,从“切分”到“句法树”,与受图灵检验启发而进
行的研究一致;其特色就在于建立“同构的语义树”,特别
是进入“逻辑公式”并作出“模型解释”。陆汝占教授认为
,语句要转换成逻辑式,应从汉语语句谓语动词结构着手。
因为句法分析是语义分析的前提,句法分析又要靠语义特征
。具体设想是:先构造一种句子的逻辑式之间的中介形式“
函子”(functor),以表示谓语动词连同支配成分一起构成
的语句核心,表现句义的基本要素。函子加上时态、模态算
子就可以表示语态,构成句子的基本逻辑含义。对于计算机
自动处理中文信息来说,汉语的缺省(省略和隐含)都是难
点。因此基于内涵模型论的理论对这一点格外重视,但是至
今除了利用上下文语境知识外,也还没有找到很好的解决策
略,而语境知识的形式化也是十分复杂的问题。

说从“切分”到“句法树”和现在通常的解决方法一致,只
是就总体和顺序而言,实际上基于内涵分析的语义解释理论
对于“词”、“句”等有着自己的理解。

以上三个流派都正在进行过程中,进展情况不一。第一个流
派,不同单位和个人已经在一些局部取得了较好的成绩,面
临着如何集成和如何解决词义、句子问题;第二个流派设想
和计划比较庞大,在规模不够大的知识库内,已经得到部分
技术实现,面临着继续扩大知识库、进行相当于“中试”或
一定规模生产的过程,以便检验和完善其理论和技术设计;
第三个流派,理论设计还较粗略,虽然用这一理论已经解决
了一些实用问题,但是要证明它可以适用于整个现代汉语,
还需要进一步推敲、实验、细化。

值得注意的是,第二、第三种思路都很重视中国传统语言学
,特别是训诂学的经验和成果,或从中得到启发,或借用其
对词语的训释。这是有道理的。中国的传统语言学,虽然在
很长时间里与语文学难以彻底区分,但是古人对语言的体味
观察入微,其中包含着一定的哲理和对语言环境的关心,这
些往往反而是不“懂”语言的计算机所需要的。

四 现代汉语研究滞后的原因

(一) 现代汉语本身的难度

1
汉语缺乏狭义的形态。西方语言的形态,对于计算机来说就
是标记;汉语没有这种标记,就需要人深入把握词的种种规
律,把这些规律形式化,其实就是人为地作出标记。因此,
汉语的特点一方面使得西方计算语言学一些成果和经验不能
完全适用于它,另一方面增加了计算机“分辨”词素、词、
词组的难度(在书面语,字和字之间等距离也是造成这一难
题的重要原因)。

2
语法灵活。即缺乏狭义的形态,汉语句子中各个成分之间的
关系一靠词序,二靠“意合”,三靠虚词。但是,词序虽同
可能意义迥异;虚词并非非用不可,特别是在口语里,虚词
更少,因此虚词只能是解决词与词、句与句关系问题的辅助
手段;意合则更为麻烦,其中包含着许多语言环境、语言背
景和语言风格知识以及缺省问题,如何全面把握有关意义的
诸项因素,并把它形式化,是最大的难题。

3
语义灵活。从词汇层面说,一词多义、同音词、同义词、近
义词已经是很麻烦的事;从句义层面说,情况更为复杂:一
方面语法的灵活主要来源于语义的灵活;另一方面同一结构
可以表达不同的意思,同一意思可以用不同结构表达。即使
我们把词义和句法都分析清楚了,“教给”计算机了,它还
是难以“理解”整个的句子。

(二)现代汉语研究的弱点

1
长期以来,我们的研究基本上是为人际交流服务的。人的联
想、类推等能力构成了人对语言的特殊感知能力,这极大地
补足了研究的空白。要把过去研究的成果完全移植到不会举
一反三的计算机上是不行的。必须建立起计算机适用的语言
分析体系。换言之,汉语言学家没有为中文信息处理作好语
音分析的准备。

2
长期以来,对汉语的研究方法基本上是例举性的,而非穷尽
的;材料和对象基本上是书面的,而非口语的。计算机所面
对的,是任意性的、不可预期的语言材料,它必须穷尽式地
处理这些材料,因此由例举法得到的结论是不适用的。另外
,书面语语法比较规范,句式变化较少;反之,口语则因说
者的方言影响、文化水平、语言环境等方面的差异而变化灵
活。

(三)研究环境的缺乏

(1)研究分散而重覆

和其他一些行业一样,中文信息处理界也存在着低层次重覆
的问题。这不但分散了力量,而且潜伏着缺乏统一规范和标
准的危险。例如,语料库、电子词典、词的切分,词类研究
等等,许多家搞,而每家所做的规模都不大,即难以适应大
规模语料的需要,也难以深入。

(2)投入相当不足

这里据说的投入,主要提指人员所消耗的经费。应该说,近
些年中国科学技术人员的待遇已经有了相当大的提高,但是
,现在外国大公司大举进军中文信息技术领域,他们凭借着
雄厚的财力,以相对于中国国内无法竞争的报酬吸引去大量
的年轻的人才。现在坚持在科研第一线的年轻人,都是靠一
颗炽热的爱国心在拼搏。对于这些年轻人来说,未来的生计
──赡老育小──也是时刻要考虑的问题,因此能否在基础
研究的长期奋斗中坚持下去,依然是个疑问。中文信息界深
深地感到了威胁。

(3)从总体而言,现代汉语研究领域和计算机领域的隔绝
状态并没有出现根本性的改变。这可以说是个致命的弱点。
隔绝,使两个领域的英雄们都无用武之地;同时这也极大地
阻碍了语言学、计算机学一起向着所需要的一切学科(如心
理学、逻辑学、人脑科学等)延伸。

五 消除瓶颈的战略

要消除中文信息处理的瓶颈,首要的关键是要汉语言学界和
计算机学界两支队伍紧密地联合起来,开展面向中文信息处
理基础研究和应用研究。如前所述,中文信息处理需要的,
并不是现在汉语学界已有知识的照搬:有的方面需要根据计
算机的“能力”去总结汉语的规律,在一定程度上,还需要
研究者抛开传统语言学的固有习惯和方法;有的方面则需要
填补上已有知识的不足。为长远计,我们需要大批“两栖学
者”,应该加紧这类人才的培养;在目前,则需要两支队伍
的密切合作。我们高兴地看到,北京大学、清华大学、上海
交大、山西大学、科学院的一些研究所,已经开始了这种结
合,而且在实际研究、培养新型人才、探索新的研究路数诸
方面都取得了可喜的成绩。汉语言学与计算机结合所带来的
,绝不仅仅是中文信息处理的长足进步,汉语研究本身也将
获益良多。

其实,仅仅有语言学和计算机科学的结合还是不够的。上文
所介绍的三个流派,基本上都是抓住了问题的两端:语言和
计算机。从根本上说,要想使计算机像人脑那样工作,就要
按照人脑运用语言时的活动机制去“武装”计算机。而至今
为止,我国的人脑科学不没有取得可供计算机科学使用的成
果,同时,无论是计算机界还是语言学界,对人脑科学的关
心也很不够。从当前的实际出发,我们只好还是集中力量在
语言学和计算机科学的结合上多下功夫,以期为解决中文信
息处理瓶颈问题作出阶段性的成绩。

六 对操作过程中一些问题的思考

1
必须采取集体攻关的办法。语言之复杂,汉语之复杂,就决
定了任何研究单位都不可能独自解决中文信息处理的全部问
题,必须多个单位紧密合作,集体攻关。中国学术界曾经有
过分工合作、集体攻关的传统,近年来在许多地方已经淡漠
了,现在学科的发展又提出了这一问题,需要我们打破“新
”的风气,重新养成更新的习惯。

2
可以用“百花齐放,百家争鸣”的方针,不拘一格,几种风
格齐头并进,即相互竞争,又彼此取长补短。从现在不同流
派研究的情况看,可以作出这样的判断:不但任何研究单位
不能独立自解决中文信息处理的问题,而且即使是多个单位
合作,如果使用单一的方法,也不能达到预期的目的。例如
,对词和句进行处理时,就既要充分利用统计概率方法的成
果,又要重视运用词汇和句子规则,还要注意语言逻辑学的
重要作用。

3
采用科学的管理办法。无论开展这一研究所需要的资金从哪
里来,也不管这一研究归属于哪个部门,研究的参与者来自
多少单位,对其管理都应该是科学的现代化的。所谓科学的
,主要是指要按照科学研究的规律管理。例如实行首席科学
家制,人事、经费、责任,都由首席科学家承担;又如,课
题的立项,要严格论证,统一评测标准,严格检查,严格验
收,采取迴避制,排除一切人情、关系的干扰。

4
既要争取国家的支持,又要尽量与企业合作。面向中文信息
处理的现代汉语研究,是纯基础性的研究。根据社会主义市
场经济的规则,科学研究,包括基础研究的投资主体应该是
科技型的企业。但是国家在这中间的作用不可忽视:国家有
支持基础研究的责任和义务。特别是在我国,企业和企业家
还不成熟,无力也无意识在基础研究方面投入巨额资金,因
而国家的责任要比经济发达的国家更为重大。这一两年,在
企业界出现了一些新气象,不少企业,特别是包括信息产业
在内的高新技术产业,开始向研究开发投入越来越多的资金
。我们有理由相信,为了中国中文信息处理事业的发展,国
家和企业都会越来越重视支持基础研究,学术界应该及时地
同时争取这两个方面的支持。

5
既要出成果又要出人才。

6
中文信息处理事业将是长期的。我们的目标是让计算机越来
越接近人脑的机制。要达到这一目标,恐怕需要几代人甚至
更多时间的不懈努力。因此,薪火之传至为重要。我们应该
采取有力措施,在使中文信息处理技术大踏步前进的同时,
这一领域新型人才也大量的不断地涌现。

7
允许失败。科学研究是在不断失败─研究─再失败─再研究
的循环往复中前进的。面向信息处理的现代汉语基础研究既
是科学研究活动,就要允许失败。不能设想某一种理论和方
法从一提出来就一路顺风地直达彼岸。从某种角度讲,失败
也是一种成功:其中必有合理的因素;造成失败的原因就是
财富,可以成为今后的借鉴。

我在1995年曾经预期:“应用研究的成果所带给社会的,有
可能不只是具体的具有应用价值的学术成果,还将有对整个
语言文字学价值的生动显示,有对基础研究成果的检验,有
下一阶段基础研究的问题的单子和努力的方向,其社会效应
则必然是整个语言文字学的研究得到社会的重视,从而得到
加强,语言学也将逐渐繁荣,并真正成为先行科学。”时隔
五年,我依然抱着同样的热望。特别是在中文信息处理领域
,我的信心更足,因为中国知识分子报国的热情和天生的对
汉语的语感,是得天独厚的。只要有一定的外力,这一优越
条件就可以产生极其巨大的能量,做出惊人的成绩。(8)
-------------------------------

附注

(1)
参看冯志伟着《应用语言学综论》,广东教育出版社,1999年,312页。
(2)
《语言文字应用》2000年第1期有专栏《“信息处理用现代
汉语词汇研究”课题中期成果汇报》,由各个子课题负责人
分别撰文介绍研究进度情况,可以参看。又,“歧义切分与
部分专有名词识别”的成果又见于刘开瑛着《中文文本自动
分词和标注》,商务印书馆,2000年。
(3)
HNC是英语Hierarchical Network of Concepts 的简称。参看《
HNC(概念层次网络)理论》,清华大学出版社,1998年11月。
(4)
见黄曾阳先生给许嘉璐的信,载《HNC(概念层次网络)理论》,411页,清华大学出版社,1998年

(5)
《HNC理论与自然语言语句理解》,《中国基础科学》1999
年第2─4期合刊。
(6)
同上。
(7)
关于中文信息处理要面对的现代汉语的特点,有许多学者做
过详尽的分析。最近的一篇,也是我认为论述得较好的一篇
,是段慧明等人写的《大规模汉语标注语料库的制作与作
用》,载《语言文字应用》2000年第2期,可以参看。
(8)
许嘉璐着《未成集──论新时期语言文字工作》,201页,
语文出版社,2000年。
发表于 2003-12-12 14:57:06 | 显示全部楼层
 楼主| 发表于 2004-1-27 21:49:51 | 显示全部楼层

字体比原来大得多了:)

不bù
—- —- 流liú沙shā 河hé



她tā来lái 向xiàng 他tā 告gāo别bié ,,

低dī下xià 羞xiū红hóng 的de 脸liǎn ,,

脚jiǎo 在zài 雪xuě地dè 上shàng画huà 来lái 画huà 去qù 。.

“" 我wǒ们mén 还hái是shì 分fēn手shǒu 的de 好hǎo 。. ”"

她tā 说shuō ,, 同tóng时shí ,,

用yòng 脚jiǎo 画huà着zhe …? …?

“" 你nǐ 最zuì好hǎo 把bǎ 我wǒ 忘wàng掉diāo 吧ba !! ”"

她tā 说shuō ,, 同tóng时shí ,,

用yòng 脚jiǎo 画huà着zhe …? …?

假jiǎ如rú 这zhè是shì 真zhēn心xīn话huà ,,

为wèi什shén么me 他tā却què 看kàn见jiàn ,,

雪xuě地dè 上shàng画huà 了le 两liǎng个gè “" 不bù ”" 字zì
。.
 楼主| 发表于 2004-1-27 22:13:31 | 显示全部楼层

错误:用红色显示的

------------------------------------------------------------------------

告别------gao4bie2:“告”应为第4声。

雪地上-----xue3 di4shang :“上”是方位名词 ,在这里读轻声。   

我们------wo3men:“们”是轻声音节。

忘掉-----wang4diao4:“掉”应为第4声,也可处理为二级轻声词,也就是可轻可不轻。

两个-----liang3ge:“个”是量词,读轻声。
 楼主| 发表于 2004-1-27 22:22:41 | 显示全部楼层

请问水电兄:

:rolleyes::rolleyes::rolleyes:

怎么少了一项中、英文转换了?
删掉这个程序了吗?
为什么?
发表于 2004-3-14 23:34:42 | 显示全部楼层
告别------gao4bie2:“告”应为第4声。
告是四聲,可以改。
雪地上-----xue3 di4shang :“上”是方位名词 ,在这里读轻声。
可以是輕聲與四聲(去聲)
我们------wo3men:“们”是轻声音节。
可以是輕聲與二聲。
忘掉-----wang4diao4:“掉”应为第4声,也可处理为二级轻声词,也就是可轻可不轻。
那該怎麼辦?
两个-----liang3ge:“个”是量词,读轻声。
有人把“個”讀二聲
 楼主| 发表于 2004-3-15 00:30:16 | 显示全部楼层
两个-----liang3ge:“个”是量词,读轻声。
有人把“個”讀二聲


没有人会------把“個”讀二聲!

”两个”中“个“的实际调值是44,其发音原理是:
当前面一个音节的声调是上声的时候,后面一个轻声音节的调形是短促的半高平调,调值为44,(实际发音受前面上声的影响,往往开头略低于4度,形成一个微升调形,由于轻声音节音长短,这种细微之处不易察觉)。也许在听觉上有点近似第二声的调值,35/34。与”两个“发音相同的还有以下这些词语:


上声+轻声:

我的  wo3de         斧子 fu3zi                起了 qi3le             姐姐 jie3jie

喇叭  la3ba           老实 lao3shi              脊梁  ji3liang         马虎  ma3hu

耳朵  er3duo        使唤 shi3huan           嘱咐  zhu3fu         口袋 kou3dai
发表于 2004-3-15 11:12:55 | 显示全部楼层
我是用經驗來說的 不管理論
最近常封IP
不常來
分詞本身是很龐雜的工作
讀音部份在程式言是不同的層次
可抓更多錯誤給參考
目前有16000地名待更正
沒想到讀音的部份更麻煩呢
我們可以用詞類分辭來做切分
可是只會在翻譯的層面有些許用處
在程式言只是另種標示組合爾已
不涉太多運算
也就是目前詞性標示的努力將是白費的

目前可能要用複迴路的方法
才能精確到99.53%
除此之外
沒有辦法

我不認為讀音是有規範的
在網路技術的發展角度
有人說 就要照辦

P.S.
我最怕老師唸我啦
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-25 15:58 , Processed in 0.116226 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表