湘里妹子学术网

 找回密码
 注册
楼主: Artvine

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
发表于 2003-10-25 11:22:40 | 显示全部楼层
我们论坛的这个ISP是可以通港澳的呢,
我已经打电话问过了:)
不过。。。。。。
赫赫~~~
您还是先看看我发给您的短消息再说吧。
 楼主| 发表于 2003-10-26 16:31:21 | 显示全部楼层

IPA Images

发表于 2003-10-26 16:43:23 | 显示全部楼层

谢谢水电工先生!

这是一张整体的图片吧?
俺想做个具体标音测试,
怎么进行啊?
单个的复制不下来呢?
 楼主| 发表于 2003-10-27 09:56:35 | 显示全部楼层

Re

音標Codes如果在UNICODE找不到,就只好一張一張割了,
比較難的是,讓每個字尺寸一致,又不影響斷行。
分詞詞庫已擴充3倍,下一步是校正各字音標;如果音標
要使用除12345以外的型式,全版應改UTF-8。

Reference:(程式設計者有90%的時間在看文獻,9%的時
間失敗,1%的時間等待勝利;至少也可知道一個測試,
後面的好奇心在哪吧?)

現代漢語文本的詞語切分技術
http://artvine.com.tw/cgi-bin/bo ... w_post&post=365
漢語分詞在中文軟件中的廣泛應用(Images)
http://artvine.com.tw/cgi-bin/bo ... w_post&post=350
談談漢語分詞語料庫的一致性問題
http://artvine.com.tw/cgi-bin/bo ... w_post&post=348
发表于 2003-10-27 10:09:26 | 显示全部楼层

繁简转换与非对称繁简字

冯寿忠(山东潍坊学院中文系)
《BYTE中文信息》1998─7
------------ 
使用简体汉字是中国的语文政策,但由于种种原因,我们还
不能彻底抛弃繁体汉字,在可预见的将来,繁体汉字与简体
汉字还必须长期并存并用下去,因此,我们就不得不面对一
个很现实性的问题:繁体与简体之间的转换。首先,我们要
继承古代文化遗产,要整理古籍,把它用简化字排印出来,
就必然要进行繁简转换。其次,大陆与港、澳、台在未实现
汉字使用标准的统一以前,要进行文化交流,也必然要面对
繁简转换的问题。

从转换的目的看,繁简转换大体可以分为繁转简和简转繁两
种;从转换的操作界面来说,则有人工界面和电脑界面两种
。人工界面的繁简转换不管是繁转简还是简转繁,都可以通
过学习获得有关知识得以解决。为帮助想进一步学习繁体字
或简体字的朋友顺利突破繁简转换的障碍,笔者曾编制了“
非对称繁简字对照表”,刊登在本刊总第53期上(《语文建
设通讯》(香港)1997年9月号,第22─29页)。该表已将绝
大多数的不对称繁简字列了出来,对于解决阅读和写作过程
中的繁简转换有一定作用,但解决计算机文字处理过程中的
繁简转换问题,还需要另想办法。

要解决计算机文字处理过程中的繁简转换问题,最通常的办
法是使用桌面编辑系统(如华光排版系统、WORD、WPS等
)中的“字体变换”功能。对于一一对应的繁简字来说,一
般是不成问题的;但对于那些一对多或多对一的非对称繁简
字来说,问题就大了。记得几年前有一位来自开封的客户,
想印一份关于开封市古文化一条街的材料,要求印刷厂使用
繁体字排版,由于打字员都是年轻人,根本不认识几个繁体
字,更不知道还有非对称繁简字,全凭机器自动转换,结果
令客户大伤脑筋:许多不该“繁”的字“繁”了,该“繁”
成甲字的却“繁”成了乙字,不得不逐个进行校改。由此我
们想到,要是有一张列举较全的非对称繁简字对照表,校对
员校改时只要专门对付这些非对称繁简字就省事多了,而由
录入人员利用机器进行校改则更为方便。例如,假若我们的
文稿是用简体字进行输入的,要转换成繁体字的文稿,可以
按以下步骤进行:

第一、
先将文稿内属于不对称繁简字中的简字的,一一用数码替换
。目的是防止它们在执行下一步时被转换成不正确的繁体,
并为执行第三步提供方便。如我们可以作如下规定:

板=001,表=002,才=003,丑=004,出=005,淀=006,冬=007
,范=008,丰=009,刮=010,后=011,胡=012,回=013,伙
=014,姜=015,借=016,克=017,困=018,漓=019,里=020,
帘=021,霉=022,面=023,蔑=024,千=025,秋=026,松=02
7,咸=028,向=029,余=030,郁=031,御=032,愿=033,云
=034,芸=035,沄=036,致=037,制=038,朱=039,筑=040,
准=041,厂=042,仇=043,广=044,体=045,辟=046,别=047
,卜=048,沈=049,冲=050,种=051,虫=052,担=053,党
=054,斗=055,儿=056,干=057,合=058,谷=059,柜=060,
划=061,坏=062,几=063,系=064,家=065,价=066,卷=067
,腊=068,蜡=069,了=070,累=071,么=072,蒙=073,万
=074,宁=075,朴=076,苹=077,仆=078,曲=079,确=080,
折=081,舍=082,胜=083,适=084,术=085,台=086,涂=087
,叶=088,吁=089,旋=090,与=091,佣=092,征=093,症
=094,摆=095,当=096,恶=097,发=098,复=099,汇=100,
获=101,饥=102,尽=103,历=104,卤=105,弥=106,签=107
,纤=108,苏=109,坛=110,团=111,须=112,药=113,脏
=114,只=115,钟=116,据=117。

这一步可以通过编一个程序来完成。例如使用WORD编辑软
件的朋友,可以将上表制成一个文本文件,然后用WORD编
制一个将汉字变成数码的宏(详见附录)。该程序执行后,
文稿中属于不对称繁简字的简体字都变成了数码。

第二、将文稿用“字体”命令简转繁。这时只剩下数码需要
再改为汉字。

第三、用“查找替换”命令将每个数码替换成相对应汉字的
简体或繁体。这一步需要“人脑”来判定:如果同表中(非
对称繁简字对照表)“○”行意义对应,就应恢复为简体;
如果同表中的某个繁体的意义对应,就应改为该繁体。例如
:如果数码是092,联系上下文为“发092金”,查表中同
“○”行意义对应,因此就应恢复为简体,即成为“发佣
金”;如果联系上下文为“雇092”,查表中同“”行意义
对应,因而应改为“雇”。手工查找的简便方法是:先查找
“00”开头的,再查找“0”开头的,最后查找“1”开头的
。由于在一篇文稿中并不是这117个字都能用到,每个字的
出现频率也不是都很高,因此查找替换起来一般不会太麻烦
;即使有时费时一些,但总比无目标的寻找要可靠、方便、
快捷得多。如果想用编程来实现,可以编一个对话框,查到
一个数码后,对话框中立即出现与该数码对应的汉字的简体
和繁体,然后根据上下文选用你所需要的那一个。(该程序
较长,恕不附录。)

如果我们的文稿是用繁体输入的,要繁转简,目前还没有较
简便的办法。因为现在还没有将繁体转换为简体的字体转换
程序。例如用GBK全拼输入法或繁体注音输入法等输入的繁
体字,都无法通过字体转换程序变成简体。这项工作还有待
于专业编程人员来完成。其实,编这样一个繁转简的程序并
不比编简转繁的程序更复杂。因为一一对应的和多个繁体对
应于一个简体的,都可以作统一性处理,只有少数在部分读
音或意义上简化而在其他读音或意义上不简化的繁体字,才
需要作个别性处理。它们是:

(仇、雠)、儿(儿、儿)、乾(干、乾)、閤(合、閤)
、夥(伙、夥)、藉(借、藉)、(克、)、(了、)、
(么、么)、(苹、)、(余、余)、摺(折、摺)、征
(征、征)

从当前和今后汉字使用的具体情况来看,编一个繁转简字体
转换程序,是大有必要的。例如随着扫描输入技术的发展,
在整理古籍时,我们可以直接将古文资料扫描输入,然后利
用繁转简字体转换程序,变成今天大多数人都能看得懂的简
体字,既可靠又方便。起码比先由文字家翻译、誊抄出来,
再由打字员输入要省事得多。

当然,如果彻底消除了非对称繁简字,使每个字的简体与繁
体都一一对应,简转繁或繁转简都将顺利得多,但这种想法
是不现实的。消除不对称繁简字的办法不外乎两种:恢复繁
体和另造简字。然而不管是恢复繁体,还是另造出一些陌生
的简化字来,群众都是难以接受的。首先,恢复繁体并不是
轻而易举的事情。尽管当时的简化有某些欠周到之处,但并
不都是毫无道理。在这些非对称繁简字中,大多数的繁简体
之间在意义上都有某些瓜葛(如彼此包孕等),或者没有瓜
葛而其简体属古今罕用字,“以简代繁”实际上起到了整理
异体字和充分挖掘字形资源的作用。况且简化后,新的音义
对应关系已经为人们所熟悉、习惯,如果恢复繁体,必然造
成音义纠葛上的新的混乱。其次,另造简化字必然增加汉字
数量,使已经很庞大的汉字系统更加庞大,人们的记忆力将
难堪重负。总之,笔者以为,对待非对称繁简字应以采用保
守疗法为宜,即暂且维持现状,有什么问题尽量在使用中设
法解决,在适当时候也可以做点修修补补的小手术(如恢复
“”、等字的正体字地位等),但尽量不要做可能导致不良
后果的大手术。

附录:
Dim Shared Fj$(116)

Dim Shared fjn$(116)

'主程序

Sub MAIN

GetFile

Replace

End Sub

'本子程序用来打开FJDATADAT

'注意:FJDATADAT应在C:\Win─dows目录

'文件格式为:字=数码

' 字=数码

' ……

Sub GetFile

Open "C:\Windows\FJDATADAT"

For Input As #1

For i = 0 To 116

Line Input #1, T$

fj$(i) = Left$(t$, 1)

fjn$(i) = Right$(t$, 3)

Next i

Close #1

End Sub


'本子程序用来将文字替换成数码

Sub Replace

EditBookmark Name = "FJ1234567890", Add

StartOfDocument

EditFindClearFormatting

For i = 0 To 116

StartOfDocument

EditReplace Find =

fj$(i), Replace =

fjn$(i), Direction =

0, ReplaceAll , Format = 0

Next I

EditBookmark Name = "FJ1234567890", Goto

EditBookmark Name = "FJ1234567890", Delete

End Sub
发表于 2003-10-27 10:11:13 | 显示全部楼层

现代汉语文本的词语切分技术

孙宾 撰(北京大学计算语言学研究所)
----------------------------------------------------------------------------------------------------------


一、引言
1、汉语自动分词的必要性

汉语自动分词是对汉语文本进行自动分析的第一个步骤。可
以这样设想汉语自动分词过程的困难:如果把某个英语文本
中的所有空格符都去掉,然后让计算机自动恢复文本中原有
的空格符,这就是词的识别过程,此过程的主要问题是对大
量歧义现象的处理。

切词体现了汉语与英语的显着的不同。英语文本是小字符集
上的已充分分隔开的词串,而汉语文本是大字符集上的连续
字串。把字串分隔成词串,就是自动分词系统需要做的工作


词是最小的、能独立活动的、有意义的语言成分。计算机的
所有语言知识都来自机器词典(给出词的各项信息)、句法
规则(以词类的各种组合方式来描述词的聚合现象)以及有
关词和句子的语义、语境、语用知识库。汉语信息处理系统
只要涉及句法、语义(如检索、翻译、文摘、校对等应用)
,就需要以词为基本单位。例如汉字的拼音─字转换、简体
─繁体转换、汉字的印刷体或手写体的识别、汉语文章的自
动朗读(即语音合成)等等,都需要使用词的信息。切词以
后在词的层面上做转换或识别,处理的确定性就大大提高了
。再如信息检索,如果不切词(按字检索),当检索德国货
币单位"马克"时,就会把"马克思"检索出来,而检索"华人"
时会把"中华人民共和国"检索出来。如果进行切词,就会大
大提高检索的准确率。在更高一级的文本处理中,例如句法
分析、语句理解、自动文摘、自动分类和机器翻译等,更是
少不了词的详细信息。

2、汉语自动分词中的困难

在过去的十几年里,汉语自动分词工作虽然也取得了很大成
绩,但无论按照人的智力标准,还是同实用的需要相比较,
差距还很大。我们首先需要对这一工作的困难有充分的认识


1)分词规范的问题
(1)汉语词的概念

汉语自动分词的首要困难是词的概念不清楚。书面汉语是字
的序列,词之间没有间隔标记,使得词的界定缺乏自然标准
,而分词结果是否正确需要有一个通用、权威的分词标准来
衡量。分词标准的问题实际上是汉语词与语素、词与词组的
界定问题,这是汉语语法的一个基本、长期的问题。它涉及
到许多方面:

核心词表问题:
分词需要有一个核心(通用、与领域无关的)词表,凡在该
词表中的词,分词时就应该切分出来。对于哪些词应当收进
核心词表,已提出各种收词条件,但这些条件本身难以操作
,目前尚无合理的可操作的理论和标准。

词的变形结构问题:
汉语中的动词和形容词有些可以产生变形结构,如“打牌”
、“开心”、“看见”、“相信”可能变形成“打打牌”、
“开开心”、“看没看见”、“相不相信”等。可以切分出
“打打/牌”,但“开开/心”就不合理。“看/没/看见”说得
过去,“相/不/相信”就说不过去了。又如大量的离合词“
打架”、“睡觉”等可以合理地变形为“打了一场架”、“
睡了一个觉”。对这些变形结构的切分缺少可操作而又合理
的规范。

词缀的问题:
语素"者"在现代汉语中单用是没有意义的,因此"作者"、“
成功者”、"开发者"内部不能切开。依据这个标准, “作出
了巨大个人财产和精神牺牲者”、"克服许多困难而最终获
得成功者"、"开发中国第一个操作系统软件者"也不能切开,
但这样复杂的结构与词的定义相矛盾。又如职务名称"教育
局长",语义上理解为"教育局之长",切成"教育/局长"、"教
育局/长"、"教育/局/长"或不予切分,都会有人提出异议。

非词语素问题:
一些汉字在古代汉语中是词,演变到现代汉语时成了非词语
素,例如“民”。现代的书面汉语并非纯粹的"现代汉语",
其中夹杂着不少文言成分,如“为民除害”、"以逸待劳"、"
帮困济穷"等等。探寻白话文中夹杂文言成分的规律,是中文
信息处理需要解决的一大问题。

(2)不同应用对词的切分规范要求不同

汉语自动分词规范必须支持各种不同目标的应用,但不同目
标的应用对词的要求是不同的,甚至是有矛盾的。

以词为单位的键盘输入系统:
为了提高输入速度,一些互现频率高的相互邻接的几个字也
常作为输入的单位,如:“这是”、“每一”、“再不”、
“不多”、“不在”、“这就是”、“ 也就”等。

校对系统:
校对系统将含有易错字的词和词组作为词单位,如许多人
“作”、“做”分不清。计算机自动判别时,若把它们当作
单字词也不好区分,但在同前后文构成的词或词组中往往可
以有确定的选择,故应把有关的词和词组都收进词库,如“
敢做”、“敢作敢为”、"叫做"、“做出”、"看作"、"做
为"等。校对系统要求分词单位较大。如把"勇斗"、"力擒"、
"智取"等分别作为一个分词单位并划归及物动词参与上下文
检查。"张老师"、"五分之三"、"北京中医学院"也应分别作
为分词单位,并分别归类作为人、数字、机构名,再参与上
下文检查。

简繁转换系统:
"干"的繁体形式有“乾”和“干”,它的简繁转换是非确定的。但在词和词组的层面上,它的转换常常是确定的。比如
“干部”、“干事”、“乾净”、“乾燥”等。为了提高简
繁转换的正确率,简繁转换系统把这类词或词组收进词表。

语音合成系统:
语音合成系统收集多音字所组成的词和词组作为分词单位,
如“补给”、"给水",因为在这些词或词组中,多音字"给"
的音是确定的。

检索系统:
检索系统的词库注重术语和专名,并且一些检索系统倾向于
分词单位较小化。比如,把"并行计算机"切成“并行/计算
机”, "计算语言学"应切成“计算/语言学”,使得无论用"
并行计算机"还是用"计算机"、“计算语言学”或是“语言
学”检索,都能查到。分词单位的粒度大小需要考虑到查全
率和查准率的矛盾。

2)分词算法的困难

要将汉语文本的字序列切分成词的序列,即使确定了一个合
适的分词标准,要实现这个标准也还存在算法方面的困难。

(1)切分歧义

汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧
义(约占全部歧义的85%以上)和组合型歧义。只有向分词
系统提供进一步的语法、语义知识才有可能作出正确的决策
。排除歧义常常用词频、词长、词间关系等信息,比如“真
正在”中,“真”作为单字词的频率大大低于"在"作为单字
词的频率,即"在"常常单独使用而“真”作为单字词使用的
可能性较小,所以应切成"真正/在"。有时切分歧义发生在
一小段文字中,但为了排除歧义,需要看较长的一段文字。
如"学生会"既可能是一个名词,指一种学生组织,也可能是
"学生/会",其中"会"为"可能"或"能够"的意思。在“学生会
主席”中只能是前者,在"学生会去"中只能是后者,在“学
生会组织义演活动”中歧义仍然排除不了,则需要看更多的
语境信息。

(2)未登录词识别

未登录词即未包括在分词词表中但必须切分出来的词,包括
各类专名(人名、地名、企业字号、商标号等)和某些术语
、缩略词、新词等等。"于大海发明爱尔肤护肤液"需要切分
成"于大海/发明/爱尔肤/护肤液",并需要识别出"于大海"是
人名,“爱尔肤”是商标名,"护肤液"是术语名词。专名中
还包括外族、外国名的汉译名,如"斯普林菲尔德是伊里诺
州首府","丹增嘉措70多岁了",其中的美国地名、藏族人
名都需识别。未登录词的识别对于各种汉语处理系统不仅有
直接的实用意义,而且起到基础性的作用。因为各种汉语处
理系统都需要使用词频等信息,如果自动分词中对未登录词
识别不对,统计到的信息就会有很大误差。比如,一个分词
系统若不做中外人名识别,分词后进行词频统计,可能会发
现"张"、"王"、"李"、"刘"、“尔”、“斯”的频率
比"却"、"如"、"你"的频率还要高,用这样的统计结果做汉
语处理,其效果肯定有问题。又比如校对系统,如果系统不
具备生词识别能力,就无法判断句子中大部分词的使用是否
合理,也就不能检查真正的错误所在。

(3) 分词与理解的先后

计算机无法像人在阅读汉语文章时那样边理解边分词,而只
能是先分词后理解,因为计算机理解文本的前提是识别出词
、获得词的各项信息。这就是逻辑上的两难:分词要以理解
为前提,而理解又是以分词为前提。由于计算机只能在对输
入文本尚无理解的条件下进行分词,则任何分词系统都不可
能企求百分之百的切分正确率。

3、分词系统的目标

汉语自动分词系统达到怎样的水平才能适应信息处理的要求
?我们认为可以从以下几个方面来衡量,即准确、高效、通
用及适用。

1)准确性

准确率是分词系统性能的核心指标。现在有些分词系统的准
确率达到98%,似乎已经很高了,其实不然。若这种分词系
统被用来支持句法分析、汉─外机器翻译系统,假定平均每
句话有10个汉语词,那么10句话中会错切2个词,含有切分
错误的2句就不可能被正确处理。因此仅仅由于分词阶段的
准确度不够,语言理解的准确率就会减少20%。可见,分词
系统的准确率应达到999%以上才能基本满足上层使用的要
求。

2)运行效率

分词是各种汉语处理应用系统中共同的、基础性的工作,这
步工作消耗的时间应尽量少,应只占上层处理所需时间的一
小部分,并应使用户没有等待的感觉,在普遍使用的平台上
大约每秒钟处理1万字或5千词以上为宜。

3)通用性

随着Internet的普遍应用,中文平台的处理能力不能仅限于中
国,仅限于字处理,仅限于日常应用领域。作为各种高层次
中文处理的共同基础,自动分词系统必须具有很好的通用性
。自动分词系统应支持不同地区(包括我国的香港、台湾、
澳门,以及新加坡和美洲、欧洲、澳洲的华语社区)的汉语
处理;应能适应不同地区的不同用字、用词,不同的语言风
格,不同的专名构成方式(如港澳台地区一些妇女名前冠夫
姓,外国人名地名的汉译方式与我国人名地名很不一样)等
;支持不同的应用目标,包括各种输入方式、简繁转换、语
音合成、校对、翻译、检索、文摘等等;支持不同领域的应
用,包括社会科学、自然科学和技术,以及日常交际、新闻
、办公等等;应当同现在的键盘输入系统一样成为中文平台
的组成部分。为了做到足够通用又不过分庞大,必须做到在
词表和处理功能、处理方式上能灵活组合装卸,有充分可靠
和方便的维护能力,有标准的开发接口。同时,系统还应该
具有良好的可移植性,能够方便地从一个系统平台移植到另
一个系统平台上而无需很多的修改。当然,完全的通用性很
难达到。

4)适用性

汉语自动分词是手段而不是目的,任何分词系统产生的结果
都是为某个具体的应用服务的。好的分词系统具有良好的适
用性,可以方便地集成在各种各样的汉语信息处理系统中。

二、自动分词算法的分类

我们可以将现有的分词算法分为三大类:基于字符串匹配的
分词方法、基于理解的分词方法和基于统计的分词方法。

1、 基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分
析的汉字串与一个“充分大的”机器词典中的词条进行配,
若在词典中找到某个字符串,则匹配成功(识别出一个词)
。按照扫描方向的不同,串匹配分词方法可以分为正向匹配
和逆向匹配;按照不同长度优先匹配的情况,可以分为最大
(最长)匹配和最小(最短)匹配;按照是否与词性标注过
程相结合,又可以分为单纯分词方法和分词与标注相结合的
一体化方法。常用的几种机械分词方法如下;

1) 、正向最大匹配
2) 、逆向最大匹配
3) 、最少切分(使每一句中切出的词数最小)

还可以将上述各种方法相互组合,例如,可以将正向最大匹
配方法和逆向最大匹配方法结合起来构成双向匹配法。由于
汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很
少使用。一般说来,逆向匹配的切分精度略高于正向匹配,
遇到的歧义现象也较少。统计结果表明,单纯使用正向最大
匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为
1/245。但这种精度还远远不能满足实际的需要。由于分词是
一个智能决策过程,机械分词方法无法解决分词阶段的两大
基本问题:歧义切分问题和未登录词识别问题。实际使用的
分词系统,都是把机械分词作为一种初分手段,还需通过利
用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式,称为特征扫描或标帜切分,优先
在待分析字符串中识别和切分出一些带有明显特征的词,以
这些词作为断点,可将原字符串分为较小的串再来进机械分
词,从而减少匹配的错误率。

另一种方法是将分词和词类标注结合起来,利用丰富的词类
信息对分词决策提供帮助,并且在标注过程中又反过来对分
词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,形式地表示
为ASM(d,a,m),即Automatic Segmentation Model。其中


d:匹配方向,+1表示正向,─1表示逆向;

a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,─1为减字;

m:最大/最小匹配标帜,+1为最大匹配,─1为最小匹配。

例如,ASM(+, ─, +)就是正向减字最大匹配法(即
MM方法),ASM(─, ─, +)就是逆向减字最大匹配法
(即RMM方法),等等。对于现代汉语来说,只有m=+1是
实用的方法。用这种模型可以对各种方法的复杂度进行比较
,假设在词典的匹配过程都使用顺序查找和相同的计首字索
引查找方法,则在不记首字索引查找次数(最小为log<汉字
总数> &raquo;; 12~14)和词典读入内存时间的情况下,对于典型
的词频分布,减字匹配ASM(d,─,m)的复杂度约为
123次,增字匹配ASM(d,+,m)的复杂度约为106。

另外,还可以证明,早期曾流行一时的“切分标帜字串”预
处理方法是一个毫无必要的技术,它增加了一遍扫描“切分
标帜词典”的时空复杂性,却并没有提高分词精度,因为所
谓的切分标帜其实都已经隐含在词典之中,是对词典功能的
重覆。实际上“切分标帜”也没有标记歧义字段的任何信息
。因此,在近来的分词系统中,已经基本上废弃了这种“切
分标帜”预处理方法。

2、基于理解的分词方法

通常的分析系统,都力图在分词阶段消除所有歧义切分现象
。而有些系统则在后续过程中来处理歧义切分问题,其分词
过程只是整个语言理解过程的一小部分。其基本思想就是在
分词的同时进行句法、语义分析,利用句法信息和语义信息
来处理歧义现象。它通常包括三个部分:分词子系统、句法
语义子系统、总控部分。在总控部分的协调下,分词子系统
可以获得有关词、句子等的句法和语义信息来对分词歧义进
行判断,即它模拟了人对句子的理解过程。这种分词方法需
要使用大量的语言知识和信息。由于汉语语言知识的笼统、
复杂性,难以将各种语言信息组织成机器可直接读取的形式
,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻
的字同时出现的次数越多,就越有可能构成一个词。因此字
与字相邻共现的频率或概率能够较好的反映成词的可信度。
可以对语料中相邻共现的各个字的组合的频度进行统计,计
算它们的互现信息。定义两个字的互现信息为:其中是汉字
X、Y的相邻共现概率,分别是X、Y在语料中出现的概率。
互现信息体现了汉字之间结合关系的紧密程度。当紧密程度
高于某一个阈值时,便可认为此字组可能构成了一个词。这
种方法只需对语料中的字组频度进行统计,不需要切分词典
,因而又叫做无词典分词法或统计取词方法。但这种方法也
有一定的局限性,会经常抽出一些共现频度高、但并不是词
的常用字组,例如“这一”、“之一”、“有的”、“我
的”、“许多的”等,并且对常用词的识别精度差,时空开
销大。实际应用的统计分词系统都要使用一部基本的分词词
典(常用词词典)进行串匹配分词,同时使用统计方法识别
一些新的词,即将串频统计和串匹配结合起来,既发挥匹配
分词切分速度快、效率高的特点,又利用了无词典分词结合
上下文识别生词、自动消除歧义的优点。

三、几种典型的自动分词系统评介

衡量自动分词系统的主要指标是切分精度和速度。由于切分
速度与所运行的软、硬件平台密切相关,在没有注明运行平
台时,切分速度只是一个参考指标,没有可比性。另外,所
注明的切分精度都是开发者自测试的结果。

1、几个早期的自动分词系统

自80年代初中文信息处理领域提出了自动分词以来,一些实
用性的分词系统逐步得以开发,其中几个比较有代表性的自
动分词系统在当时产生了较大的影响。

CDWS分词系统是中国第一个实用的自动分词系统,由北京
航空航天大学计算机系于1983年设计实现,它采用的自
动分词方法为最大匹配法,辅助以词尾字构词纠错技术。其
分词速度为5─10字/秒,切分精度约为1/625,基本满足了词
频统计和其他一些应用的需要。这是汉语自动分词实践的首
次尝试,具有很大的启发作用和理论意义。例如,它比较科
学地阐明了汉语中的歧义切分字段的类别、特征以及基本的
对策。

ABWS是山西大学计算机系研制的自动分词系统,系统使用
的分词方法称为“两次扫描联想─回溯”方法,用联想─回
溯来解决引起组合切分歧义。系统词库运用了较多的词法、
句法等知识。其切分正确率为986%(不包括非常用、未登
录的专用名词),运行速度为48词/分钟。

CASS是北京航空航天大学于1988年实现的分词系统。它
使用的是一种变形的最大匹配方法,即正向增字最大匹配。
它运用知识库来处理歧义字段。其机械分词速度为200字/秒
以上,知识库分词速度150字/秒(没有完全实现)。

书面汉语自动分词专家系统是由北京师范大学现代教育研究
所于1991前后研制实现的,它首次将专家系统方法完整地引
入到分词技术中。系统使知识库与推理机保持相对独立,知
识库包括常识性知识库(词条的词类24种、歧义词加标帜及
其消除规则编号、消歧的部分语义知识,使用关联网络存储
)和启发性知识库(消歧产生式规则集合,用线性表结构存
储),词典使用首字索引数据结构。通过引入专家系统的形
式,系统把分词过程表示成为知识的推理过程,即句子“分
词树”的生长过程。据报导,系统对封闭原料的切分精度为
9994%,对开放语料的切分精度达到998%,在386机器上
切分速度达到200字/秒左右。这些性能代表了当时的一流成
就。现在看来,这个系统的一个重要理论意义是进一步研究
清楚了歧义切分字段,即把歧义字段分为词法级、句法级、
语义级和语用级,并且统计出它们的分布分别为841%、
108%、34%和17%,还给出了每一种歧义的处理策略
,从而比较彻底地剖析了汉语歧义切分字段的性质。它的另
外一个理论意义是给出了当前基于句法和语义处理技术的歧
义分析精度的上限(“语义级理想切分精度”1/6250),并
且说明只有综合运用各种知识、信息和推理机制的分析方法
才又可能趋近理想切分精度。尽管本系统由于结构复杂、知
识库建造困难且并不像预想的那么易于维护、效率不易提高
等原因而未能广泛流行,但是其理论分析和指导思想已获得
了普遍关注,影响了众多后继系统的开发。

2、清华大学SEG分词系统

此系统提供了带回溯的正向、反向、双向最大匹配法和全切
分─评价切分算法,由用户来选择合适的切分算法。其特点
则是带修剪的全切分─评价算法。系统考虑到了切分盲点的
问题(某些字串永远不会被某种分词方法匹配出来),由此
提出了全切分的概念,即找出输入字串的所有可能的子串,
然后利用某种评价方法从所有这些可能的子串中选出最佳子
串序列作为分词结果。为了解决全切分所带来的组合爆炸问
题,又引进了对全切分过程进行修剪的方法,强制性地截止
某些全切分的进行。用户在使用时,对于歧义较少的语料,
可采用正向或反向最大匹配法;对于有较多交叉歧义的语料
,可使用双向最大匹配法;对于其它歧义较大的语料,则采
用全切分─评价算法,并需要采用一个合适的评价函数。由
于对具体语料的统计参数设置了不确切初值,全切分─评价
算法在第一、二遍切分过程中的正确率较低,随着切分的多
遍进行,评价函数逐渐得以矫正,系统的切分精度逐步得以
提高。经过封闭试验,在多遍切分之后,全切分─评价算法
的精度可以达到99%左右。

3、清华大学SEGTAG系统

此系统着眼于将各种各类的信息进行综合,以便最大限度地
利用这些信息提高切分精度。系统使用有向图来集成各种各
样的信息,这些信息包括切分标帜、预切分模式、其他切分
单位。为了实现有限的全切分,系统对词典中的每一个重要
的词都加上了切分标帜,即标帜“ck”或“qk”。“qk”标
帜表示该词可进行绝对切分,不必理会它是否产生切分歧义
;“ck”标帜表示该词有组合歧义,系统将对其进行全切分
,即保留其所有可能的切分方式。系统通过这两种标帜并使
用几条规则以实现有限的全切分,限制过多的切分和没有必
要的搜索。规则包括:

1、无条件切出qk类词;
2、完全切分ck类词(保留各个子串);
3、对没有标记(qk或ck)的词,若它与别的词之间存在交叉
歧义,则作全切分;否则将其切出。

为了获得切分结果,系统采用在有向图DAG上搜索最佳路径
的方法,使用一个评价函数EVALUATE(Path),求此评价
函数的极大值而获得最佳路径Pmax。所运用的搜索算法有两
种,即“动态规划”和“全切分搜索+叶子评价”,使用了
词频、词类频度、词类共现频度等统计信息。通过实验,该
系统的切分精度基本上可达到99%左右,能够处理未登录词
比较密集的文本,切分速度约为30字/秒。

4、国家语委文字所应用句法分析技术的汉语自动分词

此分词模型考虑了句法分析在自动分词系统中的作用,以更
好地解决切分歧义。切词过程考虑到了所有的切分可能,并
运用汉语句法等信息从各种切分可能中选择出合理的切分结
果。其过程由两步构成:一、对输入字串进行处理,得到一
个所有可能的切分字串的集合,即进行(不受限的)全切分
;二、利用句法分析从全切分集合中将某些词选出来,由它
们构成合理的词序列,还原为原输入字串。系统使用一个自
由传播式句法分析网络,用短语文法描述句法规则,并将其
表示为层次化网络图,通过此网络的信息传递过程来进行选
词。网络的节点分为词类节点(终结符节点)和规则类节点
(非终结符节点)。词类节点保存词的信息;规则类节点对
信息进行合并和句法、语义分析,生成新的信息,并将本节
点的信息传递出去(也就是用文法产生式进行归约,并进行
属性计算─作者注)。网络运行的初态是所有节点状态为
NO,各种可能切分的字串进入响应相应的词类节点(终结
符节点),然后开始运用文法进行计算。当网络的最高层节
点S(文法起始符号)达到稳定状态OK时,计算结束,在最
高节点处输出最后的切分结果。

从一般的角度来看,应用句法分析技术进行切词的方法是一
种“生成─测试“方法,它是一种常用的AI问题求解方法,
包括两个步骤:生成步─找出所有可能的解(假设);测试
步─对各个假设进行检验,找出合格者。在应用句法分析进
行切词时,其测试步是使用汉语的句法规则检验某种切分结
果是否构成合法的汉语句子。这样可以将句法分析理论的各
种成果用于切词之中,有多种句法分析技术可以应用,常见
的是ATN分析、CYK分析(Chart Parsing)、G─LR分析等。
可以将这种方法称做“切词─句法分析一体化”方法。随着
软硬件水平的不断提高,直接运用时空消耗比较大的句法分
析来检查分词结果的方法正在日益显现其优越性。

5、复旦分词系统

此系统由四个模块构成。一、预处理模块,利用特殊的标记
将输入的文本分割成较短的汉字串,这些标记包括标点符号
、数字、字母等非汉字符,还包括文本中常见的一些字体、
字号等排版信息。一些特殊的数词短语、时间短语、货币表
示等,由于其结构相对简单,即由数词和特征字构成构成,
也在本阶段进行处理。为此系统特别增加一次独立的扫描过
程来识别这些短语,系统维护一张特征词表,在扫描到特征
字以后,即调用这些短语的识别模块,确定这些短语的左、
右边界,然后将其完整地切分开;二、歧义识别模块,使用
正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两
种扫描结果相同,则认为切分正确,否则就判别其为歧义字
段,需要进行歧义处理;三、歧义字段处理模块,此模块使
用构词规则和词频统计信息来进行排歧。构词规则包括前缀
、后缀、重叠词等构词情况,以及成语、量词、单字动词切
分优先等规则。在使用规则无效的情况下,使用了词频信息
,系统取词频的乘积最大的词串作为最后切分结果;最后,
此系统还包括一个未登录词识别模块,以解决未登录词造成
的分词错误。未登录词和歧义字段构成了降低分词准确率的
两大因素,而未登录词造成的切分错误比歧义字段更为严重
,实际上绝大多数分词错误都是由未登录词造成的。系统对
中文姓氏进行了自动识别,它利用了中文姓名的用字规律、
频率,以及姓名的上下文等信息。通过对十万以上的中文姓
名进行抽样综合统计,建立了姓氏频率表和名字用字频率表
,由此可获得任意相邻的二、三个单字构成姓氏的概率大小
和某些规律,再利用这些字串周围的一些称谓、指界动词和
特定模式等具有指示意义的上下文信息,可对字串是否构成
姓名进行辨别。实验过程中,对中文姓氏的自动辨别达到了
70%的准确率。系统对文本中的地名和领域专有词汇也进行
了一定的识别。

6、哈工大统计分词系统

该系统是一种典型的运用统计方法的纯切词系统,它试图将
串频统计和词匹配结合起来。系统由三个部分构成:一、预
处理模块,利用显式和隐式的切分标记(标点符号、数字、
ASCII字符以及出现频率高、构词能力差的单字词、数词+单
字常用量词模式)将待分析的文本切分成短的汉字串,这大
大地减少了需要统计的(无效)字串的数量和高频单字或量
词边界串;二、串频统计模块,此模块计算各个已分开的短
汉字串中所有长度大于1的子串在局部上下文中出现的次数
,并根据串频和串长对每个这样的子串进行加权,加权函数
为 (F为串频,L为串长,即串中汉字个数)。根据经验,
局部上下文中取为200字左右。局部上下文的串频计算使用
一个滑动窗口(为一个队列式缓冲区,保存当前待切分汉字
串及其前后20个短串),当当前待切分汉字串处理完之后,
窗口下移一个短串(中心变为相邻下一个短串)。系统采用
一个外散列表来记录窗口中的短串,以加快窗口中串频计数
。散列函数取为汉字的GB─80位码(二级汉字共用入口95)
,每个桶中保存窗口中每一行(短串)上的汉字位置:(短
串的行号,汉字列号),并且对于在窗口中出现多次的汉字
位置用一个链指针连接起来,则计算某个字串在窗口中出现
的频度时,不必将该字串与窗口中的短串逐个匹配,而只需
统计在该字串中的各个汉字所对应的位置链表中能够相邻的
位置的序列的个数即可。此外,还需要根据词缀集(前、后
缀集合)对字串的权值进行提升,例如“处理器”中“处理
”的权值很高,但由于对“处理器”的权值作了提升(达到
或超过了“处理”),就不会切成“处理/器”。如果某个
汉字串的权值超过某一阈值D(取为40),则将此汉字串作
为一个新识别的词,将其存入一临时词库中;三、切分模块
,首先用临时词库对每个短的汉字串进行切分,使用的是逐
词遍历算法,再利用一个小型的常用词词典对汉字短串中未
切分的子串进行正向最大匹配分词。对于短汉字串中那些仍
未切分的子串,则将所有相邻单字作为一个权值很低的生词
(例如“玛”、“莉”)。其中每个模块都对待分析的文本
进行了一次扫描,因而是三遍扫描方法。此系统能够利用上
下文识别大部分生词,解决一部分切分歧义,但是统计分词
方法对常用词识别精度差的固有缺点仍然存在(例如切出“
由/来”、“语/用”、“对/联”等)。经测试,此系统的分
词错误率为15%,速度为236字/秒。

7、杭州大学改进的MM分词系统

考虑到汉语的歧义切分字段出现的平均最大概率为1/110,
因而机械分词的精度在理论上能够达到1─1/100=991%。
那么是否还有更一般、精度更高的机械分词系统呢?根据统
计,汉语的局部(词法一级)歧义字段占了全部歧义的84%
,句法歧义占10%,如果提高系统处理这两类歧义的准确率
,则可以大幅度提高切分精度。这方面的改进导致了改进的
MM分词算法。将其阐述如下。

通过对交叉歧义字段的考察,发现其中80%以上可以通过运
用一条无需任何语言知识的“归右原则”(交叉歧义字段优
先与其右边的字段成词)就可以获得正确切分,──这是因
为在多数情况下汉语的修饰语在前、中心词在后,因而“归
右”好于“归左”。 “归右原则”可以使机械分词的精度
上升到9970%。这种考察给出了鼓舞人心的结果,有可能
使机械分词系统达到这样的理论精度。

不过“归右原则”还有需要修正的地方,既对于“连续型交
叉歧义”会发生错误,需要补充一条“左部结合”原则:若
ABCDE为连续型交叉歧义字段,“归右原则”产生切分A B
C DE;再由“左结合原则”(合并最左边的A、B)而得到A
B C DE。例如“结合成分子”─>“结 合 成 分子”─>“结
合 成 分子”。

但是仍然还有例外,例如“当结合成分子时”─>“当结合
成分子时”;为此引入“跳跃匹配”,在词典中定义“非连
续词”(实际上为串模式─作者注)“当*时”,然后在切
分时首先分出“当 结合成分子 时”,然后再用“归右+左结
合”切分中间的歧义字段。以上3项技术将机械分词的理论
切分精度提高到了9973%。

综合以上思想,就建立了如下改进的MM分词算法:

正向扫描

+ 增字最大匹配(包括“跳跃匹配非连续词”)
+ 词尾歧义检查(逐次去掉首字做MM匹配以发现交叉歧义
字段)
+ “归右原则”( 对于“连续型交叉歧义”还需要“左结合
原则”)。

系统的词典采用一级首字索引结构,词条中包括了“非连续
词”(形如C1…* Cn)。系统精度的实验结果为95%,低于
理论值9973%,但高于通常的MM、RMM、DMM方法。

8、Microsoft Research 汉语句法分析器中的自动分词

微软研究院的自然语言研究所在从90年代初开始开发了一个
通用型的多国语言处理平台NLPWin,最初阶段的研究都是
对英语进行的。大约从1997年开始,增加了中文处理的研究
,从而使NLPWin成为能够进行7国语言处理的系统(其中日
语和韩语部分的研究已较早地开展起来)。中文部分的研究
在开始时缺少必要的基础资源,于是经过细致的研究分析之
后,购买了北大计算语言所的《现代汉语语法信息词典》,
从此进展顺利,在短短的一年半的时间里达到了其它东方语
种的处理水平。据报导,NLPWin的语法分析部分使用的是
一种双向的Chart Parsing,使用了语法规则并以概率模型作导
向,并且将语法和分析器独立开。

其中文部分的一个特点是将词的切分同句法分析融合起来,
即是一种前面提到过的“切词─句法分析一体化”方法:在
其匹配切词阶段保留所有可能的切分结果(包括歧义切分)
,然后在句法分析阶段使用汉语的句法规则判断切分的合理
性,如果对句子的某种切分能够成功地建立起完全的句法树
,则表示该切分结果是正确的。对于有上下文及语用歧义的
歧义切分字段,系统将生成两棵以上的分析树(可以使用某
种标准进行排序)。

当然,为了提高系统效率,有必要在分词阶段排除尽可能多
的局部一级的切分歧义。其中使用的技术有:消除所有导致
词典中没有对应词条的单字的切分,为词典中的每一个词条
增加一项“Atomic”属性(为1表示不需要分析其内部字串
,为0表示需要保留其内部的切分,即是一种组合歧义标帜
──作者注),以及为每个词增加 LeftCond1、RightCond1、
LeftCond2、RightCond2 四类字符集合(前两项表示歧义绝对
生效,后两项表示歧义有比较高的可能性生效,即歧义的直
接前后文─作者注),还包括一些排歧规则(例如对于连续
型歧义字段ABCD,如果AB和CD不与前后词交叉、A或D是
名词、ABC和BCD都不是词,则切分出AB/CD:“昨天下午”
─>“昨天/下午”)。

实验结果表明,系统可以正确处理85%的歧义切分字段,在Pentium 200 PC上的速度约600─900字/秒。考虑到系统对多
种切分结果进行了完全的句法分析、对词典每个属性进行了
完全的查找,这是相当可观的效率。

我们的评论是这是汉语处理的一种有效的综合性途径,值得
发扬推广;但这种使用“Atomic”属性的方法实际上只是表
示了组合型歧义(占不到1/5)的特征,对更普遍的交叉型
歧义(超过总歧义的4/5)的处理还存在效率和效果更好的方
法。

9、北大计算语言所分词系统

本系统由北京大学计算语言学研究所研制开发,属于分词和
词类标注相结合的分词系统。由于将分词和词类标注结合起
来,系统可利用丰富的词类信息对分词决策提供帮助,并且
在标注过程中又反过来对分词结果进行检验、调整,同时将
基于规则的标注排歧与基于语料库统计模型的排歧结合起来
,使规则的普遍性与灵活性得到统一,而且对未登入词的估
算到达了相当高的准确率。系统的处理过程包括了自动切分
和初始词性标记、切分歧义字段识别、组词和标注预处理、
词性标记排歧、切分和词性标注后处理等过程,系统的算法
综合了多种数据组织和搜索技术,以很低的时空开销实现了
高速匹配和查找,同时采用了当代计算语言学的统计方法,
运用隐Markov过程进行词类标注和排歧,对算法的效率和稳
固性都作了尽可能的优化。此系统的一大特色是对通用性的
强调,将最稳定、最常用的4万6千余条现代汉语基本词汇(
即将扩充到7万多条)及其有关属性组织成为基本词典,这
些词的基本地位都是由汉语语言学家逐一检验认可的,这是
本系统通用性的保证;在此词典的基础上充分利用汉语构词
法的研究成果,可以识别出大部分的常用词。同时本系统对
用户词典机制作了最大限度的扩展,允许用户加入3部到30
部以上的自定义词典,并允许用户对这些词典的优先顺序自
由排列,这样就可以用较小规模的多个特殊词典更有针对性
地解决具体领域的文本处理。因此本系统的语言模型实现了
通用性与多样性的有效结合,并到达了极高的效率。经过最
近在搜索算法上的改进,系统的分词连同标注的速度在
Pentium 133Hz/16MB内存机器上的达到了每秒3千词以上,而
在Pentium II/64MB内存机器上速度高达每秒5千词。自本系统
开发以来,已先后向国内和国外十多家单位进行了转让,获
得了普遍的好评。

在1998年4月进行的863全国智能接口评测会上,该系统有良
好的表现。由于系统对待词的兼类问题的理论观点与评测标
准有一些差别,所测得的标注准确率没有达到自测试的水平
。该系统的词语分类体系一方面承认汉语词存在兼类现象,
一方面又不主张扩大兼类现象,尽量把相同语法功能的词类
当作是一个词类,而把词的具体语法属性留到后续过程处理
。这些观点与评测标准有所不同。国内还有很多单位开发了
分词系统,但大部分都没有参加这一具有极强可比性的评测


10、北大计算语言汉语文本分析系统

在北大计算语言所开发的汉语切词和词类标注系统的基础上
,考虑到更大规模真实文本处理的需求以及更深入分析的必
要性,作者设计了一个通用性强的汉语文本处理系统。这个
系统对汉语句子进行切分、词类标注、专名辨别和标记、短
语浅层分析和捆绑、重要成分的过滤与提取等操作。它需要
综合运用汉语词汇的词、词类、构词规则、与相邻字段的各
个级别上的搭配关系、词类及其相邻者的共现概率等知识,
还需要短语的结构、词语浅层合并(捆绑)等规则,因此系
统具有比较复杂的知识库结构(其机器词典的讨论请参考“
报告2”)。在这里,我们仅对其切词部分所使用的技术特
点作一讨论。

在对汉语切分歧义现象的认真研究之中,我们提出了一种非
常高效、高准确率的综合性歧义切分处理方法,其要点有:
1、把汉语基本词典中所有的歧义词标记出来;2、把所有的
歧义字段分为两类:简单歧义字段和复杂歧义字段;3、在
切分时,如果匹配出来的词不是歧义词,则可以安全地切分
出来;4、当匹配出歧义词时,根据词条的歧义信息(歧义
偏移值)判断当前歧义字段的类别:如果是简单歧义,则使
用一条非常简单的规则即可全部得解,即优先切出非歧义词
;5、如果是复杂歧义字段,则调用一个“侦歧”过程
(AmbiDetect),进一步判断歧义字段的类型是“歧义词+
歧义词”还是“连续型歧义字段”;考察词条的“歧义触发
信息”和“歧义消隐信息”,即可解决所有局部(直接上下
文)的歧义;6、通过浅层句法分析及其同步的语义检查(
义类代码及配价项的检查),消解句子级歧义。以上前5步
可以解决绝大部分局部歧义(根据北京师范大学何克抗等的
统计,局部歧义约占所有歧义的949%),其中前4步解决
了所有简单型歧义(约占歧义的70─80%)。据考察,这是
目前国内最好的句子级以内消歧技术之一。

汉语中还有一些歧义是句子─句子之间(非局部上下文)和
语用(应用环境)一级的歧义,根据统计,总数约为17%
。对于这些非局部性歧义,我们保留所有可能的切分结果,
留给更高级的后续处理来解决。

四、适用于信息检索与信息提取的分词技术

信息检索是找出包含了指定的一类特征(关键字、检索表达
式)的文档、段落或句群供用户阅读的过程。而信息提取则
是从一段文本中抽取指定的一类信息(事件、事实)并将其
填入一个数据库中供用户查询使用的过程,即信息提取不仅
找出文档、段落或句群,而且进一步给出用户感兴趣的事件
、事实、消息、数据,或者说它在信息检索之后进行文本的
分析和理解。因而用户就不必再阅读所找到的文档、段落或
句群以获得所需的信息。

针对于信息检索和提取系统而言,分词技术的主要问题是确
定词的颗粒度大小、对专用术语的识别、判别词与词之间的
语义关联。下面我们对这几个问题给出我们的意见和建议。

为了适应用户的各种查询,检索系统的词库的分词单位应该
较小化。也就是词典中的词条应是汉语中最基本、最稳定的
词。

检索系统用户的查询语句具有高度的领域化、专有性和高度
的不确定性,即其词语的语法、语义往往是较特殊、不常见
和非标准、非通用性的。因此检索系统的词库需要注重术语
和专有名词的收录,尽可能把各领域的专用术语收集进来。
然而,系统仍然会遇到大量的未登录词,这就要求系统必须
具备生词的识别能力。结合了串匹配、构词处理和统计方法
取词的分词技术能够较好地适应要求。

解决词间语义关联问题的主要办法是建造一个集成了词的多
种信息的机器词典,这些信息详细地描述了词的语法、语义
、语用方面的属性和类别,以指导分词、概念(义项)标注
、句法和语义分析的正确进行。

综合这些问题,我们认为北京大学计算语言研究所开发的分
词系统有可能成为一个较好的适用于信息检索与提取的分词
系统。该系统使用的词典是基于“现代汉语语法信息词典”
这一具有公认的通用性和可靠性的计算机用词典,具有高效
的串匹配和良好的构词法分析,并且已获得了较广泛的应用
。系统一直处在完善、发展之中,还将扩充统计词汇获取和
义类标注功能,更好地适应于信息检索与提取技术的需要。

附:第二稿补充或改动的内容

1、汉语自动分词的一般模型;
2、北京师范大学自动分词专家系统;
3、清华大学分词标注系统CSegTag;
4、哈工大统计分词系统;
5、杭州大学改进的MM分词系统;
6、自动分词的“生成─测试”方法与语委文字所基于句法分
析技术的汉语自动分词系统;
7、Microsoft Research 汉语句法分析器中的自动分词;
8、北大计算语言所的汉语文本分析系统;
-------------------------------
参考文献

à
黄昌宁,中文信息处理中的分词问题,语言文字应用,1997
年第1期。
à
宋柔,分词 : 汉语信息处理的基础工程,计算机世界报,
技术专题版,1997年第48期。
à
穗志方,博士生综合考试及开题报告,北大计算语言所,1997。
à
刘源 等,信息处理用现代汉语分词规范及自动分词方法,清
华大学出版社,1994。
à
何克抗,徐辉,孙波,书面汉语自动分词专家系统设计原理
,中文信息学报,1991(2);书面汉语自动分词专家系统的
实现,中文信息学报,1991(3);
à
白栓虎,汉语词切分及词性标注的一体化方法,中文信息处
理应用平台工程,电子工业出版社,1995。
à
周强,俞士汶,一种切词和词类标注相融合的汉语语料库多
级加工方法,教学参考资料,北京大学计算语言所,1993。
à
周强,段慧明,现代汉语语料库加工中的切词与词性标注,
中国计算机报,第21期,1994。
à
沈达阳,孙茂松,黄昌宁,汉语分词系统中的信息集成和最
佳路径搜索方法,中文信息学报,11卷2期,1997。
à
刘挺,吴岩,王开铸,串频统计和词形匹配相结合的汉语自
动分词系统,中文信息学报,12卷1期, 1998。
à
陈力为,袁琦 主编,语言工程,清华大学出版社,1997。
à
陈力为,袁琦 主编,计算语言学进展与应用,清华大学出版社,1995。
à
陈力为 主编,计算语言学研究与应用,北京语言学院出版社
,1993。
à
揭春雨 等,论汉语自动分词方法,中文信息学报,1989(1)。
à
黄祥喜,书面汉语自动分词的“生成─测试”方法,中文信
息学报,1989(4)。
à
王永成 等,中文词的自动处理,中文信息学报,1990(4)。
à
Andi Wu, Zixin Jiang, Word Segmentation in Sentence Analysis
,1998年中文信息处理国际会议论文集,清华大学出版社,
1998。
à
吴立德 等,大规模汉语文本处理,复旦大学出版社,1997。
à
冯志伟,自然语言机器翻译新论,语文出版社;
à
冯志伟,自然语言的计算机处理,上海外语教学出版社,1995;
à
俞士汶 等,现代汉语语法信息词典详解,清华大学出版社,1998。
发表于 2003-10-27 10:12:25 | 显示全部楼层

汉语分词在中文软件中的广泛应用

李东、张湘辉 撰(微软中国研究开发中心)
----------------------------------------------------------------------------------------------------------------



摘要
中文软件需要具有对中文文本的输入、显示、编辑、输出等
基本功能,而且随着计算机技术的发展,对于计算机的文本
处理能力提出了更高的要求,诸如智能拼音语句输入、手写
和语音自动识别输入;文章的校对;简体和繁体中文的自动
转换;信息检索和信息摘录;文本分类和自动文摘;语音合
成;自然语言的理解和自动翻译;自然语言接口等。而所有
这些中文处理功能都要建立在对汉语文本的分词处理这一基
本功能之上。因而,汉语分词是中文信息处理的基础,在中
文信息处理系统中具有广泛的应用前景。

一、 为什么需要汉语分词?

我们知道,汉语的中文信息处理就是要“用计算机对汉语的
音、形、义进行处理。”[1], 我们还知道,“词是最小的
能够独立活动的有意义的语言成分。”[2] 然而,汉语文本
中词与词之间却没有明确的分隔标记,而是连续的汉字串。
显而易见,自动识别词边界,将汉字串切分为正确的词串的
汉语分词问题无疑是实现中文信息处理的各项任务的首要问
题。

以拼音输入中的同音词自动辨识为例,据我们统计,汉语单
字同音现象是非常严重的。以6763个汉字为例,没有同音字
的汉字只有16个。其他汉字都有同音字。其中最多的有116
个同音字。而汉语词的同音现象则有很大的改善。以52505
的词表为例,其中35942个词语没有同音词。因此,大多数
同音字可以依靠词来确定。例如:”yi”对应的同音字“以
,一,易,已,意”, 分别可以在“以为,一定,容易,
已经,意义”中来确定。对于词语(包括单字词)的同音现
象,则需要运用词语之间的合理搭配以及词语在句子中的合
法运用来确定。比如“一枝可爱的玫瑰花”,”Zhi”的同
音字有:“只,之,直,支,枝.....”等。但是这里
“枝”是和“花”的合理搭配。也就是说”一+枝+可爱的玫
瑰花”是合理的搭配。由此不难看出,分词对于同音词自动
辨识的作用。而同音词的自动辨识也是语音自动识别所要解
决的重要问题。

除了同音词的自动辨识,汉语的多音字自动辨识仍然需要分
词的帮助。例如:“校、行、重、乐、率”等都是多音字。
无论是拼音自动标注还是语音合成都需要识别出正确的拼音
。而多音字的辨识可以利用词以及句子中前后词语境,即上
下文来实现。如以上几个多音字都可以在以下几组词中得以
定音:学校(xiao)/ 校(jiao)对、行(hang)列/行(xing)
进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)
、率(shuai)领/效率(lv)。

汉字的简体/繁体转换、信息检索和信息摘录、自然语言理解
、文本分类、机器翻译、文本校对等中文信息处理系统同样
都首先需要分词作为其最基本的模块。

二、 汉语分词所面临的关键问题及分词算法

汉语分词是由计算机自动识别文本中的词边界的过程。从计
算机处理过程上看,分词系统的输入是连续的字符串
(C1C2C3……Cn),输出是汉语的词串(W1W2W3……
Wm), 这里,Wi 可以是单字词也可以是多字词。 那么,
在这个过程中,我们所要解决的关键问题是什么,我们又有
什么样的解决方案哪?

关键问题

通用词表和切分规范

汉语的语素和单字词,合成词和短语之间没有清晰的界限。
语言学界虽然对于词在概念上有一个十分清晰的定义,即,
“词是最小的能够独立活动的有意义的语言成分。”但从一
些词典的编撰中,我们仍然可看出一些上述界限难以区分的
问题。比如:“听见”“看见”在很多词典中都有收录,但
是有类似结构的“闻见”却没有收录。在建立分词系统词表
时,仍然对于收词的标准难以把握,例如:“鸡蛋”是词,
那么“鸭蛋、鹌鹑蛋”是否也作为词收入词表?至今为止,
分词系统仍然没有一个统一的具有权威性的分词词表作为分
词依据。这不能不说是分词系统所面临的首要问题。除了分
词词表,还有一个概念值得我们注意,即“分词单位”。从
计算机进行分词的过程来看,其输出的词串我们称之为“切
分单位”或“分词单位”。《信息处理用现代汉语分词规范
》中对于“分词单位”也有一个定义:“汉语信息处理使用
的、具有确定的语义或语法功能的基本单位。包括本规范的
规则限定的词和词组。”[3]由此可见,信息处理中分词
单位的定义比传统意义上的词更宽泛些。这也就避开了理论
上对于词的界定难以把握的困扰。分词系统可以面向解决实
际问题的需求和真实语料中使用的频繁程度来规定“分词单
位”。分词单位可以是同词表中词完全一致,也可以是包含
未登录词识别以及一些词法分析的切分单位,例如,一些人
名、地名、机构名、外国人译名,应予以识别和切分。一些
动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜”等
;一些附加词,如后缀,“亲和性”、“热敏性”等;都可
以作为分词单位予以识别和切分。因此,对于一个分词系统
而言,制定一个一致性的分词单位切分规范无疑也是一个重
要的问题。

歧义切分字段

分词系统要处理的第二个关键问题是文本中歧义切分字段的
判别。汉语中歧义切分字段最基本有以下两种类型:

交集型歧义字段,据统计,这种歧义字段占全部歧义字段的
85%以上。[4]所以这也是分词系统所要重点解决的问
题。在字段ABC中,这里,A,B,C分别代表有一个或多个
汉字组成的字串。A,AB,BC,C分别都是词表中的词,则
称该字段为交集型歧义字段。如:“中国/人”,“中/国人”
两种切分结果。

组合型歧义,在字段ABC中, A,B,AB 分别都是词表中的
词,则称该字段为交集型歧义字段。如:他/具有/非凡/的/才
能/。/ 只有/他/才/能/举起/这/个/重物/。/

未登录词识别

我们知道,词表中不能囊括所有的词。一方面是因为语言在
不断的发展和变化,新词会不断的出现。另一方面是因为词
的衍生现象非常普遍,没有必要把所有的衍生词都收入辞典
中。

特别是人名、地名等专有名词,在文本中有非常高的使用频
度和比例。而且由于未录词引入的分词错误往往比单纯的词
表切分歧义还要严重。这就要求分词系统具有一定的未登录
词识别能力,从而提高分词的正确性。

除了人名、地名的识别,我们认为,分词系统还需要有一定
的词法分析能力,从而解决衍生词和复合词等词汇平面上的
问题,为进一步的中文信息处理提供坚实的基础。

分词算法

以上我们大致了解了分词系统所面临的关键问题,那么,分
词系统怎样解决这些问题的哪?下面我对我们曾经试验过的
几种分词算法,也是目前比较被广泛使用的方法加以简单介
绍:

基于词表的分词─最大匹配(MM)

这是一种有着广泛应用的机械分词方法,该方法依据一个分
词词表和一个基本的切分评估原则,即“长词优先”原则,
来进行分词。这种评估原则虽然在大多数情况下是合理的,
但也会引发一些切分错误。根据我们小规模测试的结果,其
正确率为95422%,速度为65,000字/分钟。

这种切分方法,需要最少的语言资源(仅需一个词表,不需
要任何词法、句法、语义知识),程序实现简单,开发周期
短,是一个简单实用的方法。

基于统计的分词

这种方法首先切分出与词表匹配的所有可能的词,这种切分
方法称为“全切分”,运用统计语言模型和决策算法决定最
优的切分结果。

这种方法的优点是可以发现所有的切分歧义,但是解决歧义
的方法很大程度上取决于统计语言模型的精度和决策算法。
需要大量的标注语料,并且分词速度也因搜索空间的增大而
有所缓慢。根据我们小规模测试的结果,其正确率为
96252%。分词速度为:40,000字/分钟。

基于规则和基于统计相结合

这种方法首先运用最大匹配作为一种初步切分,再对切分的
边界处进行歧义探测,发现歧义。再运用统计和规则结合的
方法来判别正确的切分,运用不同的规则解决人名、地名、
机构名识别,运用词法结构规则来生成复合词和衍生词。

目前这种方法可以解决汉语中最常见的歧义类型:单字交集
型歧义。并对人名、地名、机构名、后缀、动词/形容词重
叠、衍生词等词法结构进行识别的处理,基本解决了分词所
面临的最关键的问题。而且由于优秀的辞典结构和算法设计
,分词速度非常快。根据我们小规模测试的结果,其正确率
为97948%。分词速度为:200,000字/分钟。但是,目前这
个分词系统对于组合歧义的处理还没有涉及。

这一分词系统我们称之为:WB2000, 它作为Office2000中文
版中的一个基本模块被许多中文功能所运用。

三、 汉语分词系统WB2000以及在中文Office2000中的应用举


这里,我们就WB2000在Office2000中文版中的具体应用实例
进行简单介绍,从这些具体的应用实例中,我们可以对中文
分词的广泛应用有进一步深入的了解。

WB2000的分词功能 以上已经从分词算法上初步了解了

WB2000, 从分词功能的角度看,它具备以下几个功能:
1)交叉型歧义识别
2)词法分析:前后缀、重叠等
3)专有名词识别:人名、地名、机构名
4)其它:数量和时间类词组识别

此外,从程序设计的角度看,它还具备以下的特点:

词表的可扩充性, 分词用词表可以支持批量追加适合于各种
应用的词汇。
功能的可组合型, 可以根据不同应用的需要,通过以上分词
功能的不同组合,来调整不同的“分词单位”。
接口的可共享型, 分词系统的统一接口设计,使得不同的应
用可以共享同一分词系统。

以上几个的特点,是基于分词系统是所有语言信息处理系统
的基础,也就是说,是所有语言信息处理系统所不可或缺的
模块这一认识来设计的。我们认为这一设计思想应该是开发
通用的、实用的分词系统所必须掌握的原则。

Office2000中的应用举例

Office2000 中有诸多功能运用到分词系统,这里只挑选几个
典型的应用例子加以说明。

文本自动校对

分词是文本校对中的一个基本模块,校对系统运用分词模块
对文本进行分词,运用词语之间搭配的合理性来识别可能的
错误。

例1:


简体/繁体自动转换

我们知道,简体/繁体之间的转换,在单字一级,会有一个
简体汉字对应多个繁体汉字的情况,如:“发”对应繁体的
“发”和“发”。那么,简体/繁体转换应该将“发”转为
“发”还是“发”哪?这就引入了如何解决简/繁歧义的问
题。此外,简体中文和繁体中文在一些技术术语的运用上也
有不同。例如,简体中文计算机术语“物理地址”和“逻辑
地址”在繁体中文中写作“位址”和“物理位址”。简体/
繁体转换系统也需要解决这种术语的不同用法问题。我们的
简体/繁体转换系统运用分词模块切分词语,根据词语以及
上下文来决定最可能的转换结果。

例2:

迅速发展的计算机技术。
迅速发展的电脑技术。

她有一头黑亮的头发。
她有一头黑亮的头发。

聪明选词

MSWord2000中,当用户双击鼠标左键是,如果是英文文本
,英文单词会被高亮选中,如果是中文文本,中文词语则也
会高亮选中,用户可以对选中的词语做进一步的编辑行为。
这一功能同样是运用分词系统来实现的。

例3:
当用户在“计算机”文本段内任意位置双击鼠标左键时,“
计算机”将作为词被选中。


拼音指南

MSWord2000中提供了对于文本自动标音的功能,我们知道,
汉语存在一字多音的问题,如何决定多音字的正确拼音哪?
这里,我们仍然利用分词系统作为基础模块根据上下文来判
别其正确的拼音。

例4:


这里,我们看到多音字:“重”被正确标注为“zhong4”和
“chong2”

四、结语

汉语分词是中文信息处理系统的基础,有着极其广泛的实际
应用。从基本的输入系统,如智能语句输入法、语音输入、
手写输入;到文字处理,如文本校对、简体/繁体转换、拼
音标注;以及语音合成,文本检索,文本分类,自然语言接
口,自动文摘等等,无处不渗透着分词系统的应用。但是对
于分词中所涉及的一些关键问题,我们仍然没有很好的解决
方案。因此,中文信息处理技术的进步和中文信息处理系统
的广泛应用,有待于对分词中的关键问题进行进一步的深入
研究和探索,如,制定和颁布国家通用的分词词表,研究歧
义切分字段类型,增强歧义判别的能力,提高专有名词的识
别率,研究汉语的构词规则和词法规则等等。从系统设计方
面,应考虑开发通用的多功能的汉语分词系统,如:支持多
种不同应用的多词典结构、自适应不同应用的切分结果、带
结构化和属性信息的切分结果等。从分词的在中文信息处理
系统中的应用方面,可以说,我们已经跨出了一大步,但是
我们仍在致力于拓展其新的应用,如:自动文摘、汉语文本
索引和检索、汉语语音合成、汉语自然语言接口等。我们认
为,汉语分词系统作为中文信息处理系统的基石,有着极其
广泛的应用前景。通过对分词技术的深入研究,开发出高质
量,多功能的分词系统,必将促进中文信息处理系统的广泛
应用,换言之,也就提高了中文软件对于中文的处理能力,
这也将使得计算机用户的日常工作的效率得以提高。
------------------------

参考文献

[1]
《汉语信息处理词汇01部分;基本术语(GB122001─90)》,中国标准出版社,1991
[2]
朱德熙《语法讲义》,商务印书馆,1982
[3]
GB/T13715─92《信息处理用现代汉语分词规范》,中国标准
出版社,1993。
[4]
梁南元《书面汉语自动分词系统─CDWS》,《中文信息学报》1(2),1987。


来自61.217.195.17



文章主题: 回应
发表时间: 2003年07月31日 22时25分  
发表作者: 水电工  
发表内容:
一、
很高兴本文把中文分词的观念与例子,以如此浅显的说明,
使读者容易知道这学术(技术)工作的重要性。
二、
也很高兴有这么多专家对此领域仍继续投入,可见其需求仍殷。
三、
中文分词的技术,许多实验室常采取机率方法来判断字(辞)
性,其实那是对文化疏离的作法,依敝书屋的操作实验,中
文分词只要能作到第三次自由字段取代与抽取,其它的就不
是电脑的问题,而是经验值的问题;如果据相关研究资料统
计的,繁简中文共约有12%的字必需作二次处理,那上述经
验质校正的机率约只有0.012%,只要能以人工校正这个部份
(通常是较专业的用词),加上可随时线上增补的功能,中文
的分词与转换作业才能臻于完善。
四、
与上文不同,敝书屋认为:在不考虑文章翻译或缺字的情况
下,分词与转换的失误容忍度在1/10000以下,才能明显降低
事后校对的成本,这项工作才能说基本的回报。
 楼主| 发表于 2003-10-27 11:35:28 | 显示全部楼层

Re

畢竟看不到大陸學者的技術文章。
爭論的應然問題太多。
发表于 2003-10-27 11:51:29 | 显示全部楼层

会努力寻找的

水電工 于 2003-10-27 11:35 写道:
畢竟看不到大陸學者的技術文章。
爭論的應然問題太多。


哦,妹子论坛将会努力寻找相关学术文章来与海内外学者交流的,请水电工先生放心好了:)


|X||X||X|
发表于 2003-10-27 11:59:43 | 显示全部楼层

汉语书面语的分词问题——一个有关全民的信息化问题

作者:陈力为
版名: 信息与电子工程   
   

      汉语的书面语是按句连写的,词间无间隙。因此在汉语书面语的处理中,例如,统计、分析、理解等,我们首先遇到的问题是词的切分。把按句连写转换为按词连写,所以,词的正确切分是进行汉语书面语处理的必要条件;它的任何错
误都将使处理结果受到或大或小的影响,有时是严重的影响。从80年代初起,很多学者专家致力于汉语书面语的自动分词[4],取得了不少可用的分词系统。但在实用的过程中,又遇到不少新问题,困扰着我们[6]。例如人名、地名、企
业名、新词等未登录词[5,6,7],对于这些问题,经过业界的努力,近两年来又取得若干可喜的突破,但随着国民经济信息化的不断发展,中文信息处理的广泛深入地开展,对分词系统的要求将越来越高,难度越来越大。现在,汉语书面语
的分词技术已经悄悄地形成了一门新兴的富有挑战性的学问。
过去经验告诉我们,中文信息处理技术是在不断克服困难中前进的,书面语的分词也不会例外。我们相信,业界将根据客观需要,继续研究分词中的难点,推动分词技术的前进。但是,现在我们需要冷静地想一想,汉语书面语的切分是汉
语固有的属性呢,还是人们强加给它的呢?在汉浯中什么是词,到现在并无公认的定义。今天也并非讨论什么是词的时候,但人的思维是以词为基本单位进行的,人们表达自己的思想有两种途径。语言、文字,前者叫做口语,后者叫书面
语。口语中,词间有“顿挫”(按词说出),而书面语中词间无间隙,很明显,口语忠实地表达了人们(说话人)的思想(表情、手势等人体动作除外),而书面语则把人们思想的非常关键的信息——词间间隙给滤掉了,因此书面语的读者首
要的任务是:使用自己的全部知识,进行词的切分,边分词边理解,把书面语滤掉的信息给补上。实际上,这对读者是十分沉重的负担,只是习惯了,误认为这是自己应该干的事。上述书面语和口语的鲜明对照使我们清醒地认识到,汉语
书面语的词的切分问题并非汉语所固有的,而是人们强加给它的,是人为的,若要恢复汉语原来的面貌,其办法是显而易见的,这就是由书面语(文章)的作者按词连写(词间加间隙),只是所需空间增加了1/4。在这样的书面语面前,词的
切分歧义问题不见了,象“乒乓球拍卖完了”这类的拦路虎也自动解体了(这句话指的是“乒乓球”还是“球拍”,难道还会难倒使用这句话的人吗?);未登录词切分问题不见了,这一件易如反掌的事情变为一座难以攻破的堡垒,这是
我们现行的汉语书面语书写规范(按句连写)造成的后果,必须引起我们的深思。大约在50年代,语言学界有一次辩论:是否把按句连写改为按词连写[8],未能通过。在1987年中文信息处理国际会议上,本文作者也提到同样的问题[2]。
最近在香山科学会议第42次会议[19]上,有多位学者在发言时提到这个问题,周锡令教授在《计算机世界》上又从软件的中译本方面出发,指出这个问题的迫切性[3]。看来,汉语书面语的书写规范已经到了必须修改的时候了。回顾一
下汉语书面语书写规范的改革是有帮助的。在古代,汉语书面语中不要任何标点,于是标注文章成了一门高深的学问。从汉代起,读书人才注意断句(句读)问题。只是在大约70年前,“五四运动”以后,人们才开始使用现行的全套标点
符号。可以看出,每次改革都使原始书写者通过书面语,传递更多的信息。虽然书写者得要多费些力气,也增加了费用,但由于信息含量的增多,含糊和岐义减少了,不仅为读者带来了好处,社会效益也增加了,这样的大好事情当然只能
留给书面语的写作者去做了。必须指出,汉语书面语书写规范的修改是一桩有关全民、全社会的工作和生活的大事,它的拟定和实施将遇到一系列的问题,这些问题都要一个一个地予以解决。同时,它也是一个复杂的系统工程,需要有
组织有计划地进行,其中最复杂的是习惯势力(例如:看不惯,写不惯等),必然有形、无形地发生着制约的作用。当然,在技术上也存在一些问题,例如要分清什么是词,从时间上讲,它不是三年五年的事情,可能是跨世纪的大工程,但是
,只要我们有决心,这些问题都是可以解决的。国民经济信息化的迅速发展将迎来我国社会生活的美好前景,并将推动信息高速公路的创建,量大惊人的信息在公路上飞驰,为了抽取其中有用的信息资源,人们对信息处理的速度和精度
将提出极为严格的要求,面对这样严峻的挑战,难道我们的信息处理仍然容忍被人们强加给汉语的词的切分问题继续困扰下去呢?否!我们还有其他更重要、更迫切的课题要去解决。请看看英语吧,英语书面语除了词间有间隔外,专用
名词的首字母还要大写,书面语带来的信息超过了口语,为信息处理提供了有利的条件。那么,要求书面汉语恢复汉语的本来面目,词间增加间隙,也是理所当然的了,若是在专用名词上再增加下划线,那就喜出望外了,但这并不稀奇,从
“五四”前后有语体文到本世纪50年代,一直就是这样的。现在,少数古籍的整理仍然使用。很多键盘输入系统是按词输入的,但在完成输入任务以后,又把分词信息抹掉了,十分可惜。近几年来虽然多次提到书面汉语的改革问题,但
都未取得共识,更未见诸行动,其原因不外乎:①未有充分的实践经验,使我们认识到它的严重危害性;②未感受到国民经济信息化的进程对信息处理的猛烈冲击。今天不同了,我们认识到:书面汉语的改革已经刻不容缓了,而且,语言学
界和信息处理界的结合也为书面汉语的改革创造了有利条件。这样一个重大改革,必须分阶段进行,第一步,可考虑在自然科学和技术科学领域中试行,摸索经验,第二步,从小学语文教育开始,逐步推广到全社会。参考文献[1]陈力为
。Some Key l ssues inChinese Language InformationProcessing and Their prospective Devel opmenis。In:IC-CIPCg,2]陈力为。当前中文信息处理中的几个问题及其发展前景。计算机世
界,1987(21)
[3]周锡令。软件书籍中译本的可读性和几点建议。计算机世界,1995,(41)[4]梁南元。再论汉语自动分词和切分知识。In:ICCIPConference,Beijing,1987[5]郑家恒、刘开瑛。自动分词系统中姓氏人名处理策略探讨。计算语言学
研究与应用,1993[6]宋柔等。基于语料库和规则库的人名识别法。计算语言学研究与应用,1993[7]沈达阳等。中国地名的自动辨识。计算语言学进展与应用,1995[8]许嘉璐。在香山科学会议第42次会议的发言,1995(原载《中文信
息学报》1996第1期)陈力为主要论著目录1.我国计算机行业的发展方针必须面向应用。见:在中国电子学会计算机学会第六届年会发言。1982 2.The Manufacturing and Appl icationofEl etronic Comput ers in Chi
na.In:Proceedings ofSout heast Asia Computer Conference,Hong Kong,1984 3.Information Technology and National Devel opment in China.In:Proc.ofthe First Pan-Pacific Computer Confer-enc
e,1985 4.Some Key Issues in Chinese Language InformationProcessing and Their Prospect ive Development.In:Proc.of1987 ICCIP Conference.Beijing,1987 5.Key Board Input:The Barrier to 
Popul arizing Computers in Chinese Speaking Countries/District s.Keynote Speech.In:Proc.SITO Conference,Hong 面语的分词问题:一个有关全民的信息化问题。中文信
息学报,1996(1)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-24 02:03 , Processed in 0.066442 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表