湘里妹子学术网

 找回密码
 注册
查看: 3267|回复: 1

現代漢語文本的詞語切分技術

[复制链接]
发表于 2004-2-9 00:18:53 | 显示全部楼层 |阅读模式
来源:青藤书屋
發表時間: 2003年10月18日 19時18分  
發表作者: 北大計算語言學所  
發表內容:
現代漢語文本的詞語切分技術
孫賓 撰(北京大學計算語言學研究所)

----------------------------------------------------------------------------------------------------------
一、引言
1、漢語自動分詞的必要性

漢語自動分詞是對漢語文本進行自動分析的第一個步驟。可
以這樣設想漢語自動分詞過程的困難:如果把某個英語文本
中的所有空格符都去掉,然後讓計算機自動恢復文本中原有
的空格符,這就是詞的識別過程,此過程的主要問題是對大
量歧義現象的處理。

切詞體現了漢語與英語的顯著的不同。英語文本是小字符集
上的已充分分隔開的詞串,而漢語文本是大字符集上的連續
字串。把字串分隔成詞串,就是自動分詞系統需要做的工作


詞是最小的、能獨立活動的、有意義的語言成分。計算機的
所有語言知識都來自機器詞典(給出詞的各項信息)、句法
規則(以詞類的各種組合方式來描述詞的聚合現象)以及有
關詞和句子的語義、語境、語用知識庫。漢語信息處理系統
只要涉及句法、語義(如檢索、翻譯、文摘、校對等應用)
,就需要以詞為基本單位。例如漢字的拼音─字轉換、簡體
─繁體轉換、漢字的印刷體或手寫體的識別、漢語文章的自
動朗讀(即語音合成)等等,都需要使用詞的信息。切詞以
後在詞的層面上做轉換或識別,處理的確定性就大大提高了
。再如信息檢索,如果不切詞(按字檢索),當檢索德國貨
幣單位"馬克"時,就會把"馬克思"檢索出來,而檢索"華人"
時會把"中華人民共和國"檢索出來。如果進行切詞,就會大
大提高檢索的準確率。在更高一級的文本處理中,例如句法
分析、語句理解、自動文摘、自動分類和機器翻譯等,更是
少不了詞的詳細信息。

2、漢語自動分詞中的困難

在過去的十幾年裏,漢語自動分詞工作雖然也取得了很大成
績,但無論按照人的智力標準,還是同實用的需要相比較,
差距還很大。我們首先需要對這一工作的困難有充分的認識


1)‧分詞規範的問題
(1)漢語詞的概念

漢語自動分詞的首要困難是詞的概念不清楚。書面漢語是字
的序列,詞之間沒有間隔標記,使得詞的界定缺乏自然標準
,而分詞結果是否正確需要有一個通用、權威的分詞標準來
衡量。分詞標準的問題實際上是漢語詞與語素、詞與詞組的
界定問題,這是漢語語法的一個基本、長期的問題。它涉及
到許多方面:

‧核心詞表問題:
分詞需要有一個核心(通用、與領域無關的)詞表,凡在該
詞表中的詞,分詞時就應該切分出來。對於哪些詞應當收進
核心詞表,已提出各種收詞條件,但這些條件本身難以操作
,目前尚無合理的可操作的理論和標準。

‧ 詞的變形結構問題:
漢語中的動詞和形容詞有些可以產生變形結構,如“打牌”
、“開心”、“看見”、“相信”可能變形成“打打牌”、
“開開心”、“看沒看見”、“相不相信”等。可以切分出
“打打/牌”,但“開開/心”就不合理。“看/沒/看見”說得
過去,“相/不/相信”就說不過去了。又如大量的離合詞“
打架”、“睡覺”等可以合理地變形為“打了一場架”、“
睡了一個覺”。對這些變形結構的切分缺少可操作而又合理
的規範。

‧詞綴的問題:
語素"者"在現代漢語中單用是沒有意義的,因此"作者"、“
成功者”、"開發者"內部不能切開。依據這個標準, “作出
了巨大個人財產和精神犧牲者”、"克服許多困難而最終獲
得成功者"、"開發中國第一個操作系統軟件者"也不能切開,
但這樣複雜的結構與詞的定義相矛盾。又如職務名稱"教育
局長",語義上理解為"教育局之長",切成"教育/局長"、"教
育局/長"、"教育/局/長"或不予切分,都會有人提出異議。

‧ 非詞語素問題:
一些漢字在古代漢語中是詞,演變到現代漢語時成了非詞語
素,例如“民”。現代的書面漢語並非純粹的"現代漢語",
其中夾雜著不少文言成分,如“為民除害”、"以逸待勞"、"
幫困濟窮"等等。探尋白話文中夾雜文言成分的規律,是中文
信息處理需要解決的一大問題。

(2)不同應用對詞的切分規範要求不同

漢語自動分詞規範必須支持各種不同目標的應用,但不同目
標的應用對詞的要求是不同的,甚至是有矛盾的。

‧ 以詞為單位的鍵盤輸入系統:
為了提高輸入速度,一些互現頻率高的相互鄰接的幾個字也
常作為輸入的單位,如:“這是”、“每一”、“再不”、
“不多”、“不在”、“這就是”、“ 也就”等。

‧ 校對系統:
校對系統將含有易錯字的詞和詞組作為詞單位,如許多人
“作”、“做”分不清。計算機自動判別時,若把它們當作
單字詞也不好區分,但在同前後文構成的詞或詞組中往往可
以有確定的選擇,故應把有關的詞和詞組都收進詞庫,如“
敢做”、“敢作敢為”、"叫做"、“做出”、"看作"、"做
為"等。校對系統要求分詞單位較大。如把"勇鬥"、"力擒"、
"智取"等分別作為一個分詞單位並劃歸及物動詞參與上下文
檢查。"張老師"、"五分之三"、"北京中醫學院"也應分別作
為分詞單位,並分別歸類作為人、數字、機構名,再參與上
下文檢查。

‧ 簡繁轉換系統:
"干"的繁體形式有“乾”和“幹”,它的簡繁轉換是非確定的。但在詞和詞組的層面上,它的轉換常常是確定的。比如
“幹部”、“幹事”、“乾淨”、“乾燥”等。為了提高簡
繁轉換的正確率,簡繁轉換系統把這類詞或詞組收進詞表。

‧ 語音合成系統:
語音合成系統收集多音字所組成的詞和詞組作為分詞單位,
如“補給”、"給水",因為在這些詞或詞組中,多音字"給"
的音是確定的。

‧檢索系統:
檢索系統的詞庫注重術語和專名,並且一些檢索系統傾向於
分詞單位較小化。比如,把"並行計算機"切成“並行/計算
機”, "計算語言學"應切成“計算/語言學”,使得無論用"
並行計算機"還是用"計算機"、“計算語言學”或是“語言
學”檢索,都能查到。分詞單位的粒度大小需要考慮到查全
率和查準率的矛盾。

2)‧分詞算法的困難

要將漢語文本的字序列切分成詞的序列,即使確定了一個合
適的分詞標準,要實現這個標準也還存在算法方面的困難。

(1)切分歧義

漢語文本中含有許多歧義切分字段,典型的歧義有交集型歧
義(約佔全部歧義的85%以上)和組合型歧義。只有向分詞
系統提供進一步的語法、語義知識才有可能作出正確的決策
。排除歧義常常用詞頻、詞長、詞間關係等信息,比如“真
正在”中,“真”作為單字詞的頻率大大低於"在"作為單字
詞的頻率,即"在"常常單獨使用而“真”作為單字詞使用的
可能性較小,所以應切成"真正/在"。有時切分歧義發生在
一小段文字中,但為了排除歧義,需要看較長的一段文字。
如"學生會"既可能是一個名詞,指一種學生組織,也可能是
"學生/會",其中"會"為"可能"或"能夠"的意思。在“學生會
主席”中只能是前者,在"學生會去"中只能是後者,在“學
生會組織義演活動”中歧義仍然排除不了,則需要看更多的
語境信息。

(2)未登錄詞識別

未登錄詞即未包括在分詞詞表中但必須切分出來的詞,包括
各類專名(人名、地名、企業字號、商標號等)和某些術語
、縮略詞、新詞等等。"於大海發明愛爾膚護膚液"需要切分
成"於大海/發明/愛爾膚/護膚液",並需要識別出"於大海"是
人名,“愛爾膚”是商標名,"護膚液"是術語名詞。專名中
還包括外族、外國名的漢譯名,如"斯普林菲爾德是伊里諾
州首府","丹增嘉措70多歲了",其中的美國地名、藏族人
名都需識別。未登錄詞的識別對於各種漢語處理系統不僅有
直接的實用意義,而且起到基礎性的作用。因為各種漢語處
理系統都需要使用詞頻等信息,如果自動分詞中對未登錄詞
識別不對,統計到的信息就會有很大誤差。比如,一個分詞
系統若不做中外人名識別,分詞後進行詞頻統計,可能會發
現"張"、"王"、"李"、"劉"、“爾”、“斯”的頻率
比"卻"、"如"、"你"的頻率還要高,用這樣的統計結果做漢
語處理,其效果肯定有問題。又比如校對系統,如果系統不
具備生詞識別能力,就無法判斷句子中大部分詞的使用是否
合理,也就不能檢查真正的錯誤所在。

(3) 分詞與理解的先後

計算機無法像人在閱讀漢語文章時那樣邊理解邊分詞,而只
能是先分詞後理解,因為計算機理解文本的前提是識別出詞
、獲得詞的各項信息。這就是邏輯上的兩難:分詞要以理解
為前提,而理解又是以分詞為前提。由於計算機只能在對輸
入文本尚無理解的條件下進行分詞,則任何分詞系統都不可
能企求百分之百的切分正確率。

3、分詞系統的目標

漢語自動分詞系統達到怎樣的水平才能適應信息處理的要求
?我們認為可以從以下幾個方面來衡量,即準確、高效、通
用及適用。

1)‧準確性

準確率是分詞系統性能的核心指標。現在有些分詞系統的準
確率達到98%,似乎已經很高了,其實不然。若這種分詞系
統被用來支持句法分析、漢─外機器翻譯系統,假定平均每
句話有10個漢語詞,那麼10句話中會錯切2個詞,含有切分
錯誤的2句就不可能被正確處理。因此僅僅由於分詞階段的
準確度不夠,語言理解的準確率就會減少20%。可見,分詞
系統的準確率應達到99‧9%以上才能基本滿足上層使用的要
求。

2)‧運行效率

分詞是各種漢語處理應用系統中共同的、基礎性的工作,這
步工作消耗的時間應儘量少,應只佔上層處理所需時間的一
小部分,並應使用戶沒有等待的感覺,在普遍使用的平臺上
大約每秒鐘處理1萬字或5千詞以上為宜。

3)‧通用性

隨著Internet的普遍應用,中文平臺的處理能力不能僅限於中
國,僅限於字處理,僅限於日常應用領域。作為各種高層次
中文處理的共同基礎,自動分詞系統必須具有很好的通用性
。自動分詞系統應支持不同地區(包括我國的香港、臺灣、
澳門,以及新加坡和美洲、歐洲、澳洲的華語社區)的漢語
處理;應能適應不同地區的不同用字、用詞,不同的語言風
格,不同的專名構成方式(如港澳臺地區一些婦女名前冠夫
姓,外國人名地名的漢譯方式與我國人名地名很不一樣)等
;支持不同的應用目標,包括各種輸入方式、簡繁轉換、語
音合成、校對、翻譯、檢索、文摘等等;支持不同領域的應
用,包括社會科學、自然科學和技術,以及日常交際、新聞
、辦公等等;應當同現在的鍵盤輸入系統一樣成為中文平臺
的組成部分。為了做到足夠通用又不過分龐大,必須做到在
詞表和處理功能、處理方式上能靈活組合裝卸,有充分可靠
和方便的維護能力,有標準的開發接口。同時,係統還應該
具有良好的可移植性,能夠方便地從一個系統平臺移植到另
一個系統平臺上而無需很多的修改。當然,完全的通用性很
難達到。

4)‧適用性

漢語自動分詞是手段而不是目的,任何分詞系統產生的結果
都是為某個具體的應用服務的。好的分詞系統具有良好的適
用性,可以方便地集成在各種各樣的漢語信息處理系統中。

二、自動分詞算法的分類

我們可以將現有的分詞算法分為三大類:基於字符串匹配的
分詞方法、基於理解的分詞方法和基於統計的分詞方法。

1、 基於字符串匹配的分詞方法

這種方法又叫做機械分詞方法,它是按照一定的策略將待分
析的漢字串與一個“充分大的”機器詞典中的詞條進行配,
若在詞典中找到某個字符串,則匹配成功(識別出一個詞)
。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配
和逆向匹配;按照不同長度優先匹配的情況,可以分為最大
(最長)匹配和最小(最短)匹配;按照是否與詞性標注過
程相結合,又可以分為單純分詞方法和分詞與標注相結合的
一體化方法。常用的幾種機械分詞方法如下;

1) 、正向最大匹配
2) 、逆向最大匹配
3) 、最少切分(使每一句中切出的詞數最小)

還可以將上述各種方法相互組合,例如,可以將正向最大匹
配方法和逆向最大匹配方法結合起來構成雙向匹配法。由於
漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很
少使用。一般說來,逆向匹配的切分精度略高於正向匹配,
遇到的歧義現象也較少。統計結果表明,單純使用正向最大
匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為
1/245。但這種精度還遠遠不能滿足實際的需要。由於分詞是
一個智能決策過程,機械分詞方法無法解決分詞階段的兩大
基本問題:歧義切分問題和未登錄詞識別問題。實際使用的
分詞系統,都是把機械分詞作為一種初分手段,還需通過利
用各種其它的語言信息來進一步提高切分的準確率。

一種方法是改進掃描方式,稱為特徵掃描或標幟切分,優先
在待分析字符串中識別和切分出一些帶有明顯特徵的詞,以
這些詞作為斷點,可將原字符串分為較小的串再來進機械分
詞,從而減少匹配的錯誤率。

另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類
信息對分詞決策提供幫助,並且在標注過程中又反過來對分
詞結果進行檢驗、調整,從而極大地提高切分的準確率。

對於機械分詞方法,可以建立一個一般的模型,形式地表示
為ASM(d,a,m),即Automatic Segmentation Model。其中


d:匹配方向,+1表示正向,─1表示逆向;

a:每次匹配失敗後增加/減少字串長度(字符數),+1為增字,─1為減字;

m:最大/最小匹配標幟,+1為最大匹配,─1為最小匹配。

例如,ASM(+, ─, +)就是正向減字最大匹配法(即
MM方法),ASM(─, ─, +)就是逆向減字最大匹配法
(即RMM方法),等等。對於現代漢語來說,只有m=+1是
實用的方法。用這種模型可以對各種方法的複雜度進行比較
,假設在詞典的匹配過程都使用順序查找和相同的計首字索
引查找方法,則在不記首字索引查找次數(最小為log<漢字
總數> &raquo;; 12~14)和詞典讀入內存時間的情況下,對於典型
的詞頻分佈,減字匹配ASM(d,─,m)的複雜度約為
12&#8231;3次,增字匹配ASM(d,+,m)的複雜度約為10&#8231;6。

另外,還可以證明,早期曾流行一時的“切分標幟字串”預
處理方法是一個毫無必要的技術,它增加了一遍掃描“切分
標幟詞典”的時空複雜性,卻並沒有提高分詞精度,因為所
謂的切分標幟其實都已經隱含在詞典之中,是對詞典功能的
重覆。實際上“切分標幟”也沒有標記歧義字段的任何信息
。因此,在近來的分詞系統中,已經基本上廢棄了這種“切
分標幟”預處理方法。

2、基於理解的分詞方法

通常的分析系統,都力圖在分詞階段消除所有歧義切分現象
。而有些系統則在後續過程中來處理歧義切分問題,其分詞
過程只是整個語言理解過程的一小部分。其基本思想就是在
分詞的同時進行句法、語義分析,利用句法信息和語義信息
來處理歧義現象。它通常包括三個部分:分詞子系統、句法
語義子系統、總控部分。在總控部分的協調下,分詞子系統
可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進
行判斷,即它模擬了人對句子的理解過程。這種分詞方法需
要使用大量的語言知識和信息。由於漢語語言知識的籠統、
複雜性,難以將各種語言信息組織成機器可直接讀取的形式
,因此目前基於理解的分詞系統還處在試驗階段。

3、基於統計的分詞方法

從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰
的字同時出現的次數越多,就越有可能構成一個詞。因此字
與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。
可以對語料中相鄰共現的各個字的組合的頻度進行統計,計
算它們的互現信息。定義兩個字的互現信息為:其中是漢字
X、Y的相鄰共現概率,分別是X、Y在語料中出現的概率。
互現信息體現了漢字之間結合關係的緊密程度。當緊密程度
高於某一個閾值時,便可認為此字組可能構成了一個詞。這
種方法只需對語料中的字組頻度進行統計,不需要切分詞典
,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也
有一定的局限性,會經常抽出一些共現頻度高、但並不是詞
的常用字組,例如“這一”、“之一”、“有的”、“我
的”、“許多的”等,並且對常用詞的識別精度差,時空開
銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞
典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別
一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配
分詞切分速度快、效率高的特點,又利用了無詞典分詞結合
上下文識別生詞、自動消除歧義的優點。

三、幾種典型的自動分詞系統評介

衡量自動分詞系統的主要指標是切分精度和速度。由於切分
速度與所運行的軟、硬件平臺密切相關,在沒有注明運行平
臺時,切分速度只是一個參考指標,沒有可比性。另外,所
注明的切分精度都是開發者自測試的結果。

1、幾個早期的自動分詞系統

自80年代初中文信息處理領域提出了自動分詞以來,一些實
用性的分詞系統逐步得以開發,其中幾個比較有代表性的自
動分詞系統在當時產生了較大的影響。

CDWS分詞系統是中國第一個實用的自動分詞系統,由北京
航空航天大學計算機系於1983年設計實現,它採用的自
動分詞方法為最大匹配法,輔助以詞尾字構詞糾錯技術。其
分詞速度為5─10字/秒,切分精度約為1/625,基本滿足了詞
頻統計和其他一些應用的需要。這是漢語自動分詞實踐的首
次嘗試,具有很大的啟發作用和理論意義。例如,它比較科
學地闡明了漢語中的歧義切分字段的類別、特徵以及基本的
對策。

ABWS是山西大學計算機系研製的自動分詞系統,係統使用
的分詞方法稱為“兩次掃描聯想─回溯”方法,用聯想─回
溯來解決引起組合切分歧義。系統詞庫運用了較多的詞法、
句法等知識。其切分正確率為98&#8231;6%(不包括非常用、未登
錄的專用名詞),運行速度為48詞/分鐘。

CASS是北京航空航天大學於1988年實現的分詞系統。它
使用的是一種變形的最大匹配方法,即正向增字最大匹配。
它運用知識庫來處理歧義字段。其機械分詞速度為200字/秒
以上,知識庫分詞速度150字/秒(沒有完全實現)。

書面漢語自動分詞專家系統是由北京師範大學現代教育研究
所於1991前後研製實現的,它首次將專家系統方法完整地引
入到分詞技術中。系統使知識庫與推理機保持相對獨立,知
識庫包括常識性知識庫(詞條的詞類24種、歧義詞加標幟及
其消除規則編號、消歧的部分語義知識,使用關聯網絡存儲
)和啟發性知識庫(消歧產生式規則集合,用線性表結構存
儲),詞典使用首字索引數據結構。通過引入專家系統的形
式,系統把分詞過程表示成為知識的推理過程,即句子“分
詞樹”的生長過程。據報導,係統對封閉原料的切分精度為
99&#8231;94%,對開放語料的切分精度達到99&#8231;8%,在386機器上
切分速度達到200字/秒左右。這些性能代表了當時的一流成
就。現在看來,這個系統的一個重要理論意義是進一步研究
清楚了歧義切分字段,即把歧義字段分為詞法級、句法級、
語義級和語用級,並且統計出它們的分佈分別為84&#8231;1%、
10&#8231;8%、3&#8231;4%和1&#8231;7%,還給出了每一種歧義的處理策略
,從而比較徹底地剖析了漢語歧義切分字段的性質。它的另
外一個理論意義是給出了當前基於句法和語義處理技術的歧
義分析精度的上限(“語義級理想切分精度”1/6250),並
且說明只有綜合運用各種知識、信息和推理機制的分析方法
才又可能趨近理想切分精度。儘管本系統由於結構複雜、知
識庫建造困難且並不像預想的那麼易於維護、效率不易提高
等原因而未能廣泛流行,但是其理論分析和指導思想已獲得
了普遍關注,影響了眾多後繼系統的開發。

2、清華大學SEG分詞系統

此系統提供了帶回溯的正向、反向、雙向最大匹配法和全切
分─評價切分算法,由用戶來選擇合適的切分算法。其特點
則是帶修剪的全切分─評價算法。系統考慮到了切分盲點的
問題(某些字串永遠不會被某種分詞方法匹配出來),由此
提出了全切分的概念,即找出輸入字串的所有可能的子串,
然後利用某種評價方法從所有這些可能的子串中選出最佳子
串序列作為分詞結果。為了解決全切分所帶來的組合爆炸問
題,又引進了對全切分過程進行修剪的方法,強制性地截止
某些全切分的進行。用戶在使用時,對於歧義較少的語料,
可採用正向或反向最大匹配法;對於有較多交叉歧義的語料
,可使用雙向最大匹配法;對於其它歧義較大的語料,則採
用全切分─評價算法,並需要採用一個合適的評價函數。由
於對具體語料的統計參數設置了不確切初值,全切分─評價
算法在第一、二遍切分過程中的正確率較低,隨著切分的多
遍進行,評價函數逐漸得以矯正,係統的切分精度逐步得以
提高。經過封閉試驗,在多遍切分之後,全切分─評價算法
的精度可以達到99%左右。

3、清華大學SEGTAG系統

此系統著眼於將各種各類的信息進行綜合,以便最大限度地
利用這些信息提高切分精度。系統使用有向圖來集成各種各
樣的信息,這些信息包括切分標幟、預切分模式、其他切分
單位。為了實現有限的全切分,系統對詞典中的每一個重要
的詞都加上了切分標幟,即標幟“ck”或“qk”。“qk”標
幟表示該詞可進行絕對切分,不必理會它是否產生切分歧義
;“ck”標幟表示該詞有組合歧義,係統將對其進行全切分
,即保留其所有可能的切分方式。系統通過這兩種標幟並使
用幾條規則以實現有限的全切分,限制過多的切分和沒有必
要的搜索。規則包括:

1、無條件切出qk類詞;
2、完全切分ck類詞(保留各個子串);
3、對沒有標記(qk或ck)的詞,若它與別的詞之間存在交叉
歧義,則作全切分;否則將其切出。

為了獲得切分結果,系統採用在有向圖DAG上搜索最佳路徑
的方法,使用一個評價函數EVALUATE(Path),求此評價
函數的極大值而獲得最佳路徑Pmax。所運用的搜索算法有兩
種,即“動態規劃”和“全切分搜索+葉子評價”,使用了
詞頻、詞類頻度、詞類共現頻度等統計信息。通過實驗,該
系統的切分精度基本上可達到99%左右,能夠處理未登錄詞
比較密集的文本,切分速度約為30字/秒。

4、國家語委文字所應用句法分析技術的漢語自動分詞

此分詞模型考慮了句法分析在自動分詞系統中的作用,以更
好地解決切分歧義。切詞過程考慮到了所有的切分可能,並
運用漢語句法等信息從各種切分可能中選擇出合理的切分結
果。其過程由兩步構成:一、對輸入字串進行處理,得到一
個所有可能的切分字串的集合,即進行(不受限的)全切分
;二、利用句法分析從全切分集合中將某些詞選出來,由它
們構成合理的詞序列,還原為原輸入字串。系統使用一個自
由傳播式句法分析網絡,用短語文法描述句法規則,並將其
表示為層次化網絡圖,通過此網絡的信息傳遞過程來進行選
詞。網絡的節點分為詞類節點(終結符節點)和規則類節點
(非終結符節點)。詞類節點保存詞的信息;規則類節點對
信息進行合併和句法、語義分析,生成新的信息,並將本節
點的信息傳遞出去(也就是用文法產生式進行歸約,並進行
屬性計算─作者注)。網絡運行的初態是所有節點狀態為
NO,各種可能切分的字串進入響應相應的詞類節點(終結
符節點),然後開始運用文法進行計算。當網絡的最高層節
點S(文法起始符號)達到穩定狀態OK時,計算結束,在最
高節點處輸出最後的切分結果。

從一般的角度來看,應用句法分析技術進行切詞的方法是一
種“生成─測試“方法,它是一種常用的AI問題求解方法,
包括兩個步驟:生成步─找出所有可能的解(假設);測試
步─對各個假設進行檢驗,找出合格者。在應用句法分析進
行切詞時,其測試步是使用漢語的句法規則檢驗某種切分結
果是否構成合法的漢語句子。這樣可以將句法分析理論的各
種成果用於切詞之中,有多種句法分析技術可以應用,常見
的是ATN分析、CYK分析(Chart Parsing)、G─LR分析等。
可以將這種方法稱做“切詞─句法分析一體化”方法。隨著
軟硬件水平的不斷提高,直接運用時空消耗比較大的句法分
析來檢查分詞結果的方法正在日益顯現其優越性。

5、復旦分詞系統

此系統由四個模塊構成。一、預處理模塊,利用特殊的標記
將輸入的文本分割成較短的漢字串,這些標記包括標點符號
、數字、字母等非漢字符,還包括文本中常見的一些字體、
字號等排版信息。一些特殊的數詞短語、時間短語、貨幣表
示等,由於其結構相對簡單,即由數詞和特徵字構成構成,
也在本階段進行處理。為此系統特別增加一次獨立的掃描過
程來識別這些短語,係統維護一張特徵詞表,在掃描到特徵
字以後,即調用這些短語的識別模塊,確定這些短語的左、
右邊界,然後將其完整地切分開;二、歧義識別模塊,使用
正向最小匹配和逆向最大匹配對文本進行雙向掃描,如果兩
種掃描結果相同,則認為切分正確,否則就判別其為歧義字
段,需要進行歧義處理;三、歧義字段處理模塊,此模塊使
用構詞規則和詞頻統計信息來進行排歧。構詞規則包括前綴
、後綴、重疊詞等構詞情況,以及成語、量詞、單字動詞切
分優先等規則。在使用規則無效的情況下,使用了詞頻信息
,系統取詞頻的乘積最大的詞串作為最後切分結果;最後,
此系統還包括一個未登錄詞識別模塊,以解決未登錄詞造成
的分詞錯誤。未登錄詞和歧義字段構成了降低分詞準確率的
兩大因素,而未登錄詞造成的切分錯誤比歧義字段更為嚴重
,實際上絕大多數分詞錯誤都是由未登錄詞造成的。系統對
中文姓氏進行了自動識別,它利用了中文姓名的用字規律、
頻率,以及姓名的上下文等信息。通過對十萬以上的中文姓
名進行抽樣綜合統計,建立了姓氏頻率表和名字用字頻率表
,由此可獲得任意相鄰的二、三個單字構成姓氏的概率大小
和某些規律,再利用這些字串周圍的一些稱謂、指界動詞和
特定模式等具有指示意義的上下文信息,可對字串是否構成
姓名進行辨別。實驗過程中,對中文姓氏的自動辨別達到了
70%的準確率。系統對文本中的地名和領域專有詞匯也進行
了一定的識別。

6、哈工大統計分詞系統

該系統是一種典型的運用統計方法的純切詞系統,它試圖將
串頻統計和詞匹配結合起來。系統由三個部分構成:一、預
處理模塊,利用顯式和隱式的切分標記(標點符號、數字、
ASCII字符以及出現頻率高、構詞能力差的單字詞、數詞+單
字常用量詞模式)將待分析的文本切分成短的漢字串,這大
大地減少了需要統計的(無效)字串的數量和高頻單字或量
詞邊界串;二、串頻統計模塊,此模塊計算各個已分開的短
漢字串中所有長度大於1的子串在局部上下文中出現的次數
,並根據串頻和串長對每個這樣的子串進行加權,加權函數
為 (F為串頻,L為串長,即串中漢字個數)。根據經驗,
局部上下文中取為200字左右。局部上下文的串頻計算使用
一個滑動窗口(為一個隊列式緩衝區,保存當前待切分漢字
串及其前後20個短串),當當前待切分漢字串處理完之後,
窗口下移一個短串(中心變為相鄰下一個短串)。系統採用
一個外散列表來記錄窗口中的短串,以加快窗口中串頻計數
。散列函數取為漢字的GB─80位碼(二級漢字共用入口95)
,每個桶中保存窗口中每一行(短串)上的漢字位置:(短
串的行號,漢字列號),並且對於在窗口中出現多次的漢字
位置用一個鏈指針連接起來,則計算某個字串在窗口中出現
的頻度時,不必將該字串與窗口中的短串逐個匹配,而只需
統計在該字串中的各個漢字所對應的位置鏈表中能夠相鄰的
位置的序列的個數即可。此外,還需要根據詞綴集(前、後
綴集合)對字串的權值進行提升,例如“處理器”中“處理
”的權值很高,但由於對“處理器”的權值作了提升(達到
或超過了“處理”),就不會切成“處理/器”。如果某個
漢字串的權值超過某一閾值D(取為40),則將此漢字串作
為一個新識別的詞,將其存入一臨時詞庫中;三、切分模塊
,首先用臨時詞庫對每個短的漢字串進行切分,使用的是逐
詞遍歷算法,再利用一個小型的常用詞詞典對漢字短串中未
切分的子串進行正向最大匹配分詞。對於短漢字串中那些仍
未切分的子串,則將所有相鄰單字作為一個權值很低的生詞
(例如“瑪”、“莉”)。其中每個模塊都對待分析的文本
進行了一次掃描,因而是三遍掃描方法。此系統能夠利用上
下文識別大部分生詞,解決一部分切分歧義,但是統計分詞
方法對常用詞識別精度差的固有缺點仍然存在(例如切出“
由/來”、“語/用”、“對/聯”等)。經測試,此系統的分
詞錯誤率為1&#8231;5%,速度為236字/秒。

7、杭州大學改進的MM分詞系統

考慮到漢語的歧義切分字段出現的平均最大概率為1/110,
因而機械分詞的精度在理論上能夠達到1─1/100=99&#8231;1%。
那麼是否還有更一般、精度更高的機械分詞系統呢?根據統
計,漢語的局部(詞法一級)歧義字段佔了全部歧義的84%
,句法歧義佔10%,如果提高系統處理這兩類歧義的準確率
,則可以大幅度提高切分精度。這方面的改進導致了改進的
MM分詞算法。將其闡述如下。

通過對交叉歧義字段的考察,發現其中80%以上可以通過運
用一條無需任何語言知識的“歸右原則”(交叉歧義字段優
先與其右邊的字段成詞)就可以獲得正確切分,──這是因
為在多數情況下漢語的修飾語在前、中心詞在後,因而“歸
右”好於“歸左”。 “歸右原則”可以使機械分詞的精度
上升到99&#8231;70%。這種考察給出了鼓舞人心的結果,有可能
使機械分詞系統達到這樣的理論精度。

不過“歸右原則”還有需要修正的地方,既對於“連續型交
叉歧義”會發生錯誤,需要補充一條“左部結合”原則:若
ABCDE為連續型交叉歧義字段,“歸右原則”產生切分A B
C DE;再由“左結合原則”(合併最左邊的A、B)而得到A
B C DE。例如“結合成分子”─>“結 合 成 分子”─>“結
合 成 分子”。

但是仍然還有例外,例如“當結合成分子時”─>“當結合
成分子時”;為此引入“跳躍匹配”,在詞典中定義“非連
續詞”(實際上為串模式─作者注)“當*時”,然後在切
分時首先分出“當 結合成分子 時”,然後再用“歸右+左結
合”切分中間的歧義字段。以上3項技術將機械分詞的理論
切分精度提高到了99&#8231;73%。

綜合以上思想,就建立了如下改進的MM分詞算法:

正向掃描

+ 增字最大匹配(包括“跳躍匹配非連續詞”)
+ 詞尾歧義檢查(逐次去掉首字做MM匹配以發現交叉歧義
字段)
+ “歸右原則”( 對於“連續型交叉歧義”還需要“左結合
原則”)。

系統的詞典採用一級首字索引結構,詞條中包括了“非連續
詞”(形如C1…* Cn)。系統精度的實驗結果為95%,低於
理論值99&#8231;73%,但高於通常的MM、RMM、DMM方法。

8、Microsoft Research 漢語句法分析器中的自動分詞

微軟研究院的自然語言研究所在從90年代初開始開發了一個
通用型的多國語言處理平臺NLPWin,最初階段的研究都是
對英語進行的。大約從1997年開始,增加了中文處理的研究
,從而使NLPWin成為能夠進行7國語言處理的系統(其中日
語和韓語部分的研究已較早地開展起來)。中文部分的研究
在開始時缺少必要的基礎資源,於是經過細緻的研究分析之
後,購買了北大計算語言所的《現代漢語語法信息詞典》,
從此進展順利,在短短的一年半的時間裏達到了其它東方語
種的處理水平。據報導,NLPWin的語法分析部分使用的是
一種雙向的Chart Parsing,使用了語法規則並以概率模型作導
向,並且將語法和分析器獨立開。

其中文部分的一個特點是將詞的切分同句法分析融合起來,
即是一種前面提到過的“切詞─句法分析一體化”方法:在
其匹配切詞階段保留所有可能的切分結果(包括歧義切分)
,然後在句法分析階段使用漢語的句法規則判斷切分的合理
性,如果對句子的某種切分能夠成功地建立起完全的句法樹
,則表示該切分結果是正確的。對於有上下文及語用歧義的
歧義切分字段,係統將生成兩棵以上的分析樹(可以使用某
種標準進行排序)。

當然,為了提高系統效率,有必要在分詞階段排除儘可能多
的局部一級的切分歧義。其中使用的技術有:消除所有導致
詞典中沒有對應詞條的單字的切分,為詞典中的每一個詞條
增加一項“Atomic”屬性(為1表示不需要分析其內部字串
,為0表示需要保留其內部的切分,即是一種組合歧義標幟
──作者注),以及為每個詞增加 LeftCond1、RightCond1、
LeftCond2、RightCond2 四類字符集合(前兩項表示歧義絕對
生效,後兩項表示歧義有比較高的可能性生效,即歧義的直
接前後文─作者注),還包括一些排歧規則(例如對於連續
型歧義字段ABCD,如果AB和CD不與前後詞交叉、A或D是
名詞、ABC和BCD都不是詞,則切分出AB/CD:“昨天下午”
─>“昨天/下午”)。

實驗結果表明,係統可以正確處理85%的歧義切分字段,在Pentium 200 PC上的速度約600─900字/秒。考慮到系統對多
種切分結果進行了完全的句法分析、對詞典每個屬性進行了
完全的查找,這是相當可觀的效率。

我們的評論是這是漢語處理的一種有效的綜合性途徑,值得
發揚推廣;但這種使用“Atomic”屬性的方法實際上只是表
示了組合型歧義(佔不到1/5)的特徵,對更普遍的交叉型
歧義(超過總歧義的4/5)的處理還存在效率和效果更好的方
法。

9、北大計算語言所分詞系統

本系統由北京大學計算語言學研究所研製開發,屬於分詞和
詞類標注相結合的分詞系統。由於將分詞和詞類標注結合起
來,系統可利用豐富的詞類信息對分詞決策提供幫助,並且
在標注過程中又反過來對分詞結果進行檢驗、調整,同時將
基於規則的標注排歧與基於語料庫統計模型的排歧結合起來
,使規則的普遍性與靈活性得到統一,而且對未登入詞的估
算到達了相當高的準確率。系統的處理過程包括了自動切分
和初始詞性標記、切分歧義字段識別、組詞和標注預處理、
詞性標記排歧、切分和詞性標注後處理等過程,系統的算法
綜合了多種數據組織和搜索技術,以很低的時空開銷實現了
高速匹配和查找,同時採用了當代計算語言學的統計方法,
運用隱Markov過程進行詞類標注和排歧,對算法的效率和穩
固性都作了儘可能的優化。此系統的一大特色是對通用性的
強調,將最穩定、最常用的4萬6千餘條現代漢語基本詞匯(
即將擴充到7萬多條)及其有關屬性組織成為基本詞典,這
些詞的基本地位都是由漢語語言學家逐一檢驗認可的,這是
本系統通用性的保證;在此詞典的基礎上充分利用漢語構詞
法的研究成果,可以識別出大部分的常用詞。同時本系統對
用戶詞典機製作了最大限度的擴展,允許用戶加入3部到30
部以上的自定義詞典,並允許用戶對這些詞典的優先順序自
由排列,這樣就可以用較小規模的多個特殊詞典更有針對性
地解決具體領域的文本處理。因此本系統的語言模型實現了
通用性與多樣性的有效結合,並到達了極高的效率。經過最
近在搜索算法上的改進,係統的分詞連同標注的速度在
Pentium 133Hz/16MB內存機器上的達到了每秒3千詞以上,而
在Pentium II/64MB內存機器上速度高達每秒5千詞。自本系統
開發以來,已先後向國內和國外十多家單位進行了轉讓,獲
得了普遍的好評。

在1998年4月進行的863全國智能接口評測會上,該系統有良
好的表現。由於系統對待詞的兼類問題的理論觀點與評測標
準有一些差別,所測得的標注準確率沒有達到自測試的水平
。該系統的詞語分類體系一方面承認漢語詞存在兼類現象,
一方面又不主張擴大兼類現象,儘量把相同語法功能的詞類
當作是一個詞類,而把詞的具體語法屬性留到後續過程處理
。這些觀點與評測標準有所不同。國內還有很多單位開發了
分詞系統,但大部分都沒有參加這一具有極強可比性的評測


10、北大計算語言漢語文本分析系統

在北大計算語言所開發的漢語切詞和詞類標注系統的基礎上
,考慮到更大規模真實文本處理的需求以及更深入分析的必
要性,作者設計了一個通用性強的漢語文本處理系統。這個
系統對漢語句子進行切分、詞類標注、專名辨別和標記、短
語淺層分析和捆綁、重要成分的過濾與提取等操作。它需要
綜合運用漢語詞匯的詞、詞類、構詞規則、與相鄰字段的各
個級別上的搭配關係、詞類及其相鄰者的共現概率等知識,
還需要短語的結構、詞語淺層合併(捆綁)等規則,因此系
統具有比較複雜的知識庫結構(其機器詞典的討論請參考“
報告2”)。在這裏,我們僅對其切詞部分所使用的技術特
點作一討論。

在對漢語切分歧義現象的認真研究之中,我們提出了一種非
常高效、高準確率的綜合性歧義切分處理方法,其要點有:
1、把漢語基本詞典中所有的歧義詞標記出來;2、把所有的
歧義字段分為兩類:簡單歧義字段和複雜歧義字段;3、在
切分時,如果匹配出來的詞不是歧義詞,則可以安全地切分
出來;4、當匹配出歧義詞時,根據詞條的歧義信息(歧義
偏移值)判斷當前歧義字段的類別:如果是簡單歧義,則使
用一條非常簡單的規則即可全部得解,即優先切出非歧義詞
;5、如果是複雜歧義字段,則調用一個“偵歧”過程
(AmbiDetect),進一步判斷歧義字段的類型是“歧義詞+
歧義詞”還是“連續型歧義字段”;考察詞條的“歧義觸發
信息”和“歧義消隱信息”,即可解決所有局部(直接上下
文)的歧義;6、通過淺層句法分析及其同步的語義檢查(
義類代碼及配價項的檢查),消解句子級歧義。以上前5步
可以解決絕大部分局部歧義(根據北京師範大學何克抗等的
統計,局部歧義約佔所有歧義的94&#8231;9%),其中前4步解決
了所有簡單型歧義(約佔歧義的70─80%)。據考察,這是
目前國內最好的句子級以內消歧技術之一。

漢語中還有一些歧義是句子─句子之間(非局部上下文)和
語用(應用環境)一級的歧義,根據統計,總數約為1&#8231;7%
。對於這些非局部性歧義,我們保留所有可能的切分結果,
留給更高級的後續處理來解決。

四、適用於信息檢索與信息提取的分詞技術

信息檢索是找出包含了指定的一類特徵(關鍵字、檢索表達
式)的文檔、段落或句群供用戶閱讀的過程。而信息提取則
是從一段文本中抽取指定的一類信息(事件、事實)並將其
填入一個數據庫中供用戶查詢使用的過程,即信息提取不僅
找出文檔、段落或句群,而且進一步給出用戶感興趣的事件
、事實、消息、數據,或者說它在信息檢索之後進行文本的
分析和理解。因而用戶就不必再閱讀所找到的文檔、段落或
句群以獲得所需的信息。

針對於信息檢索和提取系統而言,分詞技術的主要問題是確
定詞的顆粒度大小、對專用術語的識別、判別詞與詞之間的
語義關聯。下面我們對這幾個問題給出我們的意見和建議。

為了適應用戶的各種查詢,檢索系統的詞庫的分詞單位應該
較小化。也就是詞典中的詞條應是漢語中最基本、最穩定的
詞。

檢索系統用戶的查詢語句具有高度的領域化、專有性和高度
的不確定性,即其詞語的語法、語義往往是較特殊、不常見
和非標準、非通用性的。因此檢索系統的詞庫需要注重術語
和專有名詞的收錄,儘可能把各領域的專用術語收集進來。
然而,係統仍然會遇到大量的未登錄詞,這就要求系統必須
具備生詞的識別能力。結合了串匹配、構詞處理和統計方法
取詞的分詞技術能夠較好地適應要求。

解決詞間語義關聯問題的主要辦法是建造一個集成了詞的多
種信息的機器詞典,這些信息詳細地描述了詞的語法、語義
、語用方面的屬性和類別,以指導分詞、概念(義項)標注
、句法和語義分析的正確進行。

綜合這些問題,我們認為北京大學計算語言研究所開發的分
詞系統有可能成為一個較好的適用於信息檢索與提取的分詞
系統。該系統使用的詞典是基於“現代漢語語法信息詞典”
這一具有公認的通用性和可靠性的計算機用詞典,具有高效
的串匹配和良好的構詞法分析,並且已獲得了較廣泛的應用
。系統一直處在完善、發展之中,還將擴充統計詞匯獲取和
義類標注功能,更好地適應於信息檢索與提取技術的需要。

附:第二稿補充或改動的內容

1、漢語自動分詞的一般模型;
2、北京師範大學自動分詞專家系統;
3、清華大學分詞標注系統CSegTag;
4、哈工大統計分詞系統;
5、杭州大學改進的MM分詞系統;
6、自動分詞的“生成─測試”方法與語委文字所基於句法分
析技術的漢語自動分詞系統;
7、Microsoft Research 漢語句法分析器中的自動分詞;
8、北大計算語言所的漢語文本分析系統;
-------------------------------
參考文獻

à
黃昌寧,中文信息處理中的分詞問題,語言文字應用,1997
年第1期。
à
宋柔,分詞 : 漢語信息處理的基礎工程,計算機世界報,
技術專題版,1997年第48期。
à
穗志方,博士生綜合考試及開題報告,北大計算語言所,1997。
à
劉源 等,信息處理用現代漢語分詞規範及自動分詞方法,清
華大學出版社,1994。
à
何克抗,徐輝,孫波,書面漢語自動分詞專家系統設計原理
,中文信息學報,1991(2);書面漢語自動分詞專家系統的
實現,中文信息學報,1991(3);
à
白栓虎,漢語詞切分及詞性標注的一體化方法,中文信息處
理應用平臺工程,電子工業出版社,1995。
à
周強,俞士汶,一種切詞和詞類標注相融合的漢語語料庫多
級加工方法,教學參考資料,北京大學計算語言所,1993。
à
周強,段慧明,現代漢語語料庫加工中的切詞與詞性標注,
中國計算機報,第21期,1994。
à
沈達陽,孫茂松,黃昌寧,漢語分詞系統中的信息集成和最
佳路徑搜索方法,中文信息學報,11卷2期,1997。
à
劉挺,吳岩,王開鑄,串頻統計和詞形匹配相結合的漢語自
動分詞系統,中文信息學報,12卷1期, 1998。
à
陳力為,袁琦 主編,語言工程,清華大學出版社,1997。
à
陳力為,袁琦 主編,計算語言學進展與應用,清華大學出版社,1995。
à
陳力為 主編,計算語言學研究與應用,北京語言學院出版社
,1993。
à
揭春雨 等,論漢語自動分詞方法,中文信息學報,1989(1)。
à
黃祥喜,書面漢語自動分詞的“生成─測試”方法,中文信
息學報,1989(4)。
à
王永成 等,中文詞的自動處理,中文信息學報,1990(4)。
à
Andi Wu, Zixin Jiang, Word Segmentation in Sentence Analysis
,1998年中文信息處理國際會議論文集,清華大學出版社,
1998。
à
吳立德 等,大規模漢語文本處理,復旦大學出版社,1997。
à
馮志偉,自然語言機器翻譯新論,語文出版社;
à
馮志偉,自然語言的計算機處理,上海外語教學出版社,1995;
à
俞士汶 等,現代漢語語法信息詞典詳解,清華大學出版社,1998。
发表于 2004-2-9 17:52:47 | 显示全部楼层
很想认识你。但是很难碰到。请给我发短信,告知Email地址。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-18 09:24 , Processed in 0.215890 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表