自然語言處理技術的三個里程碑

虎子 · 发表于 2005-7-16 15:39:09

外語教學與研究
發表內容:自然語言處理技術的三個里程碑
《外語教學與研究》，2002/03，180～187頁
黃昌寧、張小鳳撰(微軟亞洲研究院)
通訊地址：100080 北京知春路49號希格瑪中心五層微軟亞洲
研究院〈cnhuang＠microsoft‧ com〉
-------------------

【內容提要】
半世紀以來自然語言處理（NLP ）研究取得兩點重要認識和
三大重要成果，即認識到：（1）對於句法分析，基於單一
標記的短語結構規則是不充分的；（2）短語結構規則在真
實文本中的分佈呈現嚴重扭曲。換言之，有限數目的短語結
構規則不能覆蓋大規模語料中的語法現象。這與原先的預期
大相徑庭。NLP 技術的發展在很大程度上受到這兩個事實的
影響。從這個意義上說，本領域中稱得上里程碑式的成果是
：（1）複雜特徵集和合一語法；（2）語言學研究中的詞匯
主義；（3）語料庫方法和統計語言模型。大規模語言知識
的開發和自動獲取是NLP 技術的瓶頸問題。因此，語料庫建
設和統計學理論將成為該領域中的關鍵課題。

1‧ 引言

　　從50年代的機器翻譯和人工智能研究算起，NLP
（NaturalLanguage Processing，自然語言處理）已有長達半個
世紀的歷史。在這個進程中，學術界曾提出許多重要的理論
和方法，取得了豐富的成果。筆者認為，近二十年在這一領
域中堪稱里程碑式的貢獻有如下三個：（1）複雜特徵集和
合一語法；（2）語言學研究中的詞匯主義；（ 3）語料庫方
法和統計語言模型。這三個成果將繼續對語言學、計算語言
學和NLP研究產生深遠影響。為了更好地理解這些成果的意
義，先介紹與此相關的兩個事實。

2‧ 兩個事實
2‧1
事實之一──短語結構語法不能有效地描寫自然語言

　　在自然語言處理中，為了識別一個輸入句子的句法結構
，首先要把句子中的詞一個一個地切分出來，然後去查詞典
，給句子中的每個詞指派一個合適的詞性（part of speech）
；之後再用句法規則把句子裏包含的句法成分，如名詞短語
、動詞短語、小句等，逐個地識別出來。進而判斷每個短語
的句法功能，如主語、謂語、賓語等，及其語義角色，最終
得到句子的意義表示，如邏輯語義表達式。這就是一個句法
分析的全過程。

　　本文要提到的第一個事實是：短語結構語法（Phrase
StructureGrammar，簡稱PSG）不能有效地描寫自然語言。
PSG在Chomsky語言學理論中佔有重要地位，並且在自然語言
的句法描寫中擔當舉足輕重的角色。但是它有一些根本性的
弱點，主要表現為，它使用的是像詞類和短語類那樣的單一
標記，因而不能有效地指明和解釋自然語言中的結構歧義問
題。請看漢語中“V＋N”組合。假如我們把“打擊、委托
、調查”等詞指派為動詞（V）；把“力度、方式、盜版、
甲方”等詞視為名詞（N），並同意“打擊力度”、“委托
方式”是名詞短語（NP），“打擊盜版”、“委托甲方”
是動詞短語（VP），那麼就會產生如下兩條有歧義的句法
規則：

　　（1）NP→VN
　　（2）VP→VN

換句話講，當計算機觀察到文本中相鄰出現的“V＋N”詞
類序列時，仍不能確定它們組成的究竟是NP還是VP。我們
把這樣的歧義叫做“短語類型歧義”。例如：

　　‧該公司正在招聘﹝銷售V人員N﹞NP。
　　‧地球在不斷﹝改變V形狀N﹞VP。

　　下面再來看“N＋V”的組合，也同樣會產生帶有短語
類型歧義的規則對，如：

　　（3）NP→NV 例：市場調查；政治影響。
　　（4）S→NV 例：價格攀升；局勢穩定。其中標記S代表
小句。

　　不僅如此，有時當機器觀察到相鄰出現的“N＋V”詞
類序列時，甚至不能判斷它們是不是在同一個短語中。也就
是說，“N＋V”詞類序列可能組成名詞短語NP或小句S，也
有可能根本就不在同一個短語裏。後面這種歧義稱為“短語
邊界歧義”。下面是兩個相關的例句：

　　‧中國的﹝鐵路N建設V﹞NP發展很快。
　　‧﹝中國的鐵路N﹞NP建設V得很快。

前一個例句中，“鐵路建設”組成一個NP；而在後一個例
句中，這兩個相鄰的詞卻分屬於兩個不同的短語。這足以
說明，基於單一標記的PSG不能充分地描述自然語言中的句
法歧義現象。下面再看一些這樣的例子。

　　（5）NP→V N1 de N2
　　（6）VP→V N1 de N2

其中de代表結構助詞“的”。例如，“﹝削蘋果﹞VP的刀”
是NP；而“削﹝蘋果的皮﹞NP”則是VP。這裏既有短語類
型歧義，又有短語邊界歧義。比如，“削V蘋果N”這兩個
相鄰的詞，可能構成一個VP，也可能分處於兩個相鄰的短語
中。

　　（7）NP→P N1 de N2
　　（8）PP→P N1 de N2

規則中P和PP分別表示介詞和介詞短語。例如，“﹝對上海
﹞PP 的印象”是NP；而“對﹝上海的學生﹞NP”則是PP。
相鄰詞“對P上海N”可能組成一個PP，也可能分處於兩個短
語中。

　　（9）NP→NumP N1 de N2其中NumP表示數量短語。

規則（9）雖然表示的是一個NP，但可分別代表兩種結構意
義：

　　（9a）NumP﹝N1 de N2﹞NP 如：五個﹝公司的職員﹞NP
　　（9b）﹝NumP N1﹞NP de N2 如：﹝五個公司﹞NP的職員
　　（10）NP→N1 N2 N3規則

（10）表示的也是一個NP，但“N1＋N2”先結合，還是“
N2＋N3”先結合，會出現兩種不同的結構方式和意義，即：

　　（10a）﹝N1 N2﹞NP N3 如：﹝現代漢語﹞NP詞典
　　（10b）N1﹝N2 N3﹞NP 如：新版﹝漢語詞典﹞NP

以上討論的第一個事實說明：

　　‧由於約束力不夠，單一標記的PSG 規則不能充分消解
短語類型和短語邊界的歧義。用數學的語言講，PSG規則是
必要的，卻不是充分的。因此，機器僅僅根據規則右邊的一
個詞類序列來判斷它是不是一個短語，或者是什麼短語，都
有某種不確定性。

　　‧採用複雜特徵集和詞匯主義方法來重建自然語言的語
法系統，是近二十年來全球語言學界對此作出的最重要的努
力。

2‧2
事實之二──短語結構規則的覆蓋有限

　　通過大規模語料的調查，人們發現一種語言的短語規則
的分佈符合齊夫率（Zipf's Law）。Zipf是一個統計學家和語
言學家。他提出，如果對某個語言單位（不論是字母還是詞
）進行統計，把這個語言單位在一個語料庫裏出現的頻度
（frequency）記作F，而且根據頻度的降序對每個單元指派
一個整數的階次（rank）R。結果發現R和F 的乘積近似為一
個常數。即

　　F

R≒const（常數）

或者說，被觀察的語言單元的階次R與其頻度F成反比關係。
在詞頻的統計方面，齊夫律顯示，不管被考察的語料僅僅是
一本長篇小說，還是一個大規模的語料庫，最常出現的100
個詞的出現次數就會佔到語料庫總詞次數（tokens）的近一
半。假如語料庫的規模是100萬詞次，那麼其中頻度最高的
100個詞的累計出現次數大概是50萬詞次。如果整個語料庫含
有5萬詞型（types），那麼其中的一半（也就是2‧5 萬條左
右）在該語料庫中只出現過一次。即使把語料庫的規模加大
十倍，變成1000萬詞次，統計規律大體不變。

　　有趣的是，80年代Sampson對英語語料庫中的PSG規則進
行統計，發現它們的分佈同樣是扭曲的，大體表現為齊夫率
（Aarts et al‧ 1990）。也就是說，一方面經常遇到的語法
規則只有幾十條左右，它們的出現頻度極高；另一方面，規
則庫中大約一半左右的規則在語料庫中只出現過一次。隨著
語料庫規模的擴大，新的規則仍不斷呈現。Chomsky 曾提出
過這樣的假設，認為對一種自然語言來說，其語法規則的數
目是有限的，而據此生成的句子數目是無限的。但語料庫調
查的結果不是這樣。這個發現至少說明，單純依靠語言學家
的語感來編寫語法規則不可能勝任大規模真實文本處理的需
求，我們必須尋找可以從語料庫中直接獲取大規模語言知識
的新方法。

　　幾十年來，NLP學界發表過大量燦爛成果，有詞法學、
語法學、語義學的，有句法分析算法的，還有許多著名的自
然語言應用系統。而對該領域影響最大的、里程碑式的成果
應數下面三個。

3‧ 三個里程碑
3‧1
里程碑之一：複雜特徵集

　　複雜特徵集（complex feature set）又叫多重屬性
（multiplefeatures）描寫。在語言學裏，這種描寫方法最早
出現在語音學中，後來被Chomsky學派採用來擴展PSG的描
寫能力。現在無論是在語言學界還是計算語言學界，幾乎所
有語法系統在詞匯層的描寫中均採用複雜特徵集，並利用這
些屬性來強化句法規則的約束力。一個複雜特徵集F 包含任
意多個特徵名f[，i]和特徵值v[，i]對。其形式如：

　　F＝｛…，fi＝vi，…｝，i＝1，…，n

特徵值v[，i]既可以是一個簡單的數字或符號，也可以是另
外一個複雜特徵集。這種遞歸式的定義使複雜特徵集獲得了
強大的表現能力。如北京大學俞士汶等（1998）開發的《現
代漢語語法信息詞典詳解》，對一個動詞界定了約40項屬性
描寫，對一個名詞界定了約27項屬性描寫。

　　一條含有詞匯和短語屬性約束的句法規則具有如下的一
般形式：

　　〈PSG規則〉：〈屬性約束〉
　　：〈屬性傳遞〉

一般來說，PSG 規則包括右部（條件：符號序列的匹配模式
）和左部（動作：短語歸並結果）。詞語的“屬性約束”直
接來自系統的詞庫，而短語的“屬性約束”則是在自底向上
的短語歸並過程中從其構成成分的中心語（head）那裏繼承
過來的。在Chomsky的理論中這叫做X─bar 理論。X─bar代
表某個詞類X所構成的、仍具有該詞類屬性的一個成分。如
果X＝N，就是一個具有名詞特性的N─bar。當一條PSG 規則
的右部匹配成功，且“屬性約束”部分得到滿足，這條規則
才能被執行。此時，規則左部所命名的短語被生成，該短語
的複雜特徵集通過“屬性傳遞”部分動態生成。

　　20世紀80年代末、90年代初學術界提出了一系列新的語
法，如廣義短語結構語法（GPSG）、中心語驅動的短語結
構語法（HPSG）、詞匯功能語法（LFG）等等。這些形式語
法其實都是在詞匯和短語的複雜特徵集描寫背景下產生的。
合一（unification ）算法則是針對複雜特徵集的運算而提出
來的。“合一”是實現屬性匹配和賦值的一種算法，所以上
述這些新語法又統稱為“基於合一的語法”。

虎子 · 发表于 2005-7-16 15:40:05

3.2 里程碑之二：詞匯主義

　　在NLP領域中，第二個里程碑式的貢獻叫詞匯主義
（lexicalism ）。語言學家Hudson（1991）曾宣稱詞匯主義是
當今語言學理論發展的頭號傾向。其出現原因也同前面所觀
察的兩個事實有關。詞匯主義方法不僅提出了一種顆粒度更
細的語言知識表示形式，而且體現了一種語言知識遞增式開
發和積累的新思路。

　　這裏首先要解釋一下這樣一個矛盾。一方面，語言學界
一向認為，不劃分詞類就無法講語法，如前面介紹的短語結
構語法。也就是說，語法“不可能”根據個別的詞來寫規則
。但是另一方面，人們近來又注意到，任何歸類都會丟失個
體的某些重要信息。所以從前文提到的第一個事實出發，要
想強化語法約束能力，詞匯的描寫應當深入到比詞類更細微
的詞語本身上來。換句話講，語言學呼喚在詞匯層採用顆粒
度更小的描寫單元。從本質上來說，詞匯主義傾向反映了語
言描寫的主體已經從句法層轉移到詞匯層；這也就是所謂的
“小語法，大詞庫”的思想。下面我們來看與詞匯主義有關
的一些工作。

3‧2‧1
詞匯語法（Lexicon─grammar）

　　法國巴黎大學Gross教授在20世紀60 年代就創立了一個研
究中心叫LADL，並提出詞匯語法的概念
（http://www.ladl.jussieu.fr/）。

　　‧把12，000個主要動詞分成50個子類。
　　‧每個動詞都有一個特定的論元集。
　　‧每一類動詞都有一個特定的矩陣，其中每個動詞都用
400 個不同句式來逐一描寫（“＋”代表可進入該句式；
“－”表示不能）。
　　‧已開發英、法、德、西等歐洲語言的大規模描寫。
　　‧INTEX是一個適用於大規模語料分析的工具，已先後
被世界上五十多個研究中心採用。
　　3‧2‧2 框架語義學（Frame Semantics）

　　Fillmore是格語法（Case Grammar）的創始人，他前幾年
主持了美國自然科學基金的一個名為框架語義學的項目
（http://www.icsi.berkeley.edu/framenet）。該項目從WordNet上
選取了2000個動詞，從中得到75個語義框架。例如動詞
“categorize”的框架被定義為：

　　一個人（Cognizer）把某個對象（Item）視為某個類
（Category）。同原先的格框架相比，原來一般化的動作主
體被具體化為認知者Cognizer，動作客體被具體化為事物Item
，並根據特定體動詞的性質增加了一個作為分類結果的語義
角色Category。

　　項目組還從英國國家語料庫中挑出相關句子50，000個，
通過人工給每個句子標注了相應的語義角色。例如：

　　Kim categorized the book as fiction‧
　　（Cog）（Itm）（Cat）

3‧2‧3
WordNet

　　WordNet是一個描寫英語詞匯層語義關係的詞庫，1990
年由普林斯頓大學Miller開發
（http://www.cogsci.princeton.edu:80/~wn/），到現在已有很多
個版本，全部公佈在因特網上，供研究人員自由下載。歐洲
有一個Euro─WordNet，以類似的格式來表現各種歐洲語言
的詞匯層語義關係。WordNet刻意描寫的是詞語之間的各種
語義關係，如同義關係（synonymy）、反義關係
（antonymy）、上下義關係（hyponymy），部分一整體關係
（part─of）等等。這種詞匯語義學又叫做關係語義學。這
一學派同傳統的語義場理論和語義屬性描寫理論相比，其最
大的優勢在於第一次在一種語言的整個詞匯表上實現了詞匯
層的語義描寫。這是其他學派從來沒有做到的。其它理論迄
今僅僅停留在教科書或某些學術論文中，從來沒有得到工程
規模的應用。下面是WordNet的概況：

　　‧95，600條實詞詞型（動詞、名詞、形容詞）
　　‧被劃分成70，100個同義詞集（synsets）

3‧2‧4
知網（How─Net）

　　知網是董振東和董強（1997）設計的一個漢語語義知識
網（http://www.keenage.com）。

　　‧自下而上地依據概念對漢語實詞進行了窮盡的分類。
　　‧15，000個動詞被劃分成810類。
　　‧定義了300個名詞類，100個形容詞類。
　　‧全部概念用400個語義元語來定義。

　　知網的特點是既有WordNet 所描寫的同一類詞之間的語
義關係（如：同義、反義、上下義、部分－整體等），又描
寫了不同類詞之間的論旨關係和語義角色。

3‧2‧5
MindNet

　　MindNet是微軟研究院NLP組設計的
（http://research.microsoft.com/nlp/）。其設計思想是試圖用三
元組（triple ）作為全部知識的表示基元。一個三元組由兩
個節點和一條連接邊組成。每個節點代表一個概念，連接這
兩個概念節點的邊表示概念之間的語義依存關係。全部三元
組通過句法分析器自動獲取。具體來說，就是通過對兩部英
語詞典（Longman Dictionary of Contemporary English和
American HeritageDictionary）及一部百科全書（Encarta）中的
全部句子進行分析，獲得每個句子的邏輯語義表示（logical
form，簡稱LF）。而LF本來就是由三元組構成的，如（W1，
V─Obj，W2）表示：W1是一個動詞， W2是其賓語中的中心
詞，因此W2從屬於W1，它們之間的關係是V─Obj。比如
（play，V─Obj，basketball）便是一個具體的三元組。又如
（W1，H─Mod，W2），W1代表一個偏正短語中的中心詞
（head word），W2 是其修飾語（modifier），因此W2從屬於
W1，它們之間的關係是H─Mod。

　　這種資源完全是自動做出來的，所得的三元組不可能沒
有錯誤。但是那些出現頻度很高的三元組一般來說是正確的
。MindNet 已經應用到語法檢查、句法結構排歧、詞義排歧
、機器翻譯等許多場合。

3‧3
里程碑之三：統計語言模型

　　第三個貢獻就是語料庫方法，或者叫做統計語言模型。
如果用變量W 代表一個文本中順序排列的n個詞，即
W＝w[，1]w[，2]…w[，n]，則統計語言模型的任務是給出
任意一個詞序列W在文本中出現的概率P（W ）。利用概率
的乘積公式，P（W）可展開為：

　　P（W）＝P（w[，1]）P（w[，2]│w[，1]）P（w[，3]│
w[，1]w[，2]）‧‧‧P（w[，n]│w[，1]w[，2]…w[，n─1]）（1）式中P（w[，1]）表示第一個詞w[，1]的出現概率，P（
w[，2]│w[，1]）

表示在w[，1]出現的情況下第二個詞w[，2]出現的條件概率
，依此類推。不難看出，為了預測詞w[，n]的出現概率，必
須已知它前面所有詞的出現概率。從計算上來看，這太複雜
了。如果近似認為任意一個詞w[，i] 的出現概率只同它緊鄰
的前一個詞有關，那麼計算就得以大大簡化。這就是所謂的
二元模型（bigram），由（1）式得：

　　P（W）≒P（w[，1]）Ⅱ[，i=2，…，n]P（w[，i]│w[，
i─1]）

（2）式中Ⅱ[，i=2，…，n]P（w[，i]│w[，i─1]）表示多個
概率的連乘。

　　需要著重指出的是：這些概率參數都可以通過大規模語
料庫來估值。比如二元概率

　　P（w[，i]│w[，i─1]）≒count（w[，i─1]w[，i]）／
count（w[，i─ 1]）

（3）式中count（…）表示一個特定詞序列在整個語料庫中
出現的累計次數。若語料庫的總詞次數為N，則任意詞w[，i]
在該語料庫中的出現概率可估計如下：

　　P（w[，1]）≒count（w[，i]）／N

同理，如果近似認為任意詞w[，i]的出現只同它緊鄰的前兩
個詞有關，就得到一個三元模型（trigram）：

　　P（W）≒P（w[，1]）P（w[，2]│w[，1]）Ⅱ[，i=3，…
，n]P（w[，i]│w[，i─2]w[，─1]）（5）

　　統計語言模型的方法有點像天氣預報。用來估計概率參
數的大規模語料庫好比是一個地區歷年積累起來的氣象記錄
，而用三元模型來做天氣預報，就像是根據前兩天的天氣情
況來預測當天的天氣。天氣預報當然不可能百分之百正確。
這也算是概率統計方法的一個特點。

3‧3‧1
語音識別

　　語音識別作為計算機漢字鍵盤輸入的一種替代方式，越
來越受到信息界人士的青睞。所謂聽寫機就是這樣的商品。
據報導，中國的移動電話用戶已超過一億，隨著移動電話和
個人數字助理（PDA）的普及，尤其是當這些隨身攜帶的器
件都可以無線上網的時候，廣大用戶更迫切期望通過語音識
別或手寫板而不是小鍵盤來輸入簡短的文字信息。

　　其實，語音識別任務可視為計算以下條件概率的極大值
問題：

　　W
＝argmax[，W]P（W│speech signal）
　　＝argmax[，W]P（speech signal│W）P（W）／
　　 P（speech signal）
　　＝argmax[，W]P（speech signal│W）P（W）

（6）式中數學符號argmax[，w]表示對不同的候選詞序列W
計算條件概率P （W│speech signal）的值，從而使W
成為
其中條件概率值最大的那個詞序列，這也就是計算機選定的
識別結果。換句話講，通過式（6）的計算，計算機找到了
最適合當前輸入語音信號speech signal的詞串W
。

　　式（6）第二行是利用貝葉斯定律轉寫的結果，因為條
件概率P （speech signal│W）比較容易估值。公式的分母P
（speech signal）對給定的語音信號是一個常數，不影響極大
值的計算，故可以從公式中刪除。在第三行所示的結果中，
P（W）就是前面所講的統計語言模型，一般採用式（5）所
示的三元模型；P（speech signal│W）叫做聲學模型。

　　到此，讀者可能已經明白，漢語拼音輸入法中的拼音─
漢字轉換任務其實也是用同樣方法實現的，而且兩者所用的
漢語語言模型（即二元或三元模型）是同一個模型。

　　目前市場上的聽寫機產品和微軟拼音輸入法（3‧0 版）
都是用詞的三元模型實現的，幾乎完全不用句法─語義分析
手段。因為據可比的評測結果，用三元模型實現的拼音－漢
字轉換系統，其出錯率比其它產品減少約50％。

3‧3‧2 詞性標注

　　一個詞庫中大約14％的詞型具有不止一個詞性。而在一
個語料庫中，佔總詞次數約30％的詞具有不止一個詞性。所
以對一個文本中的每一個詞進行詞性標注，就是通過上下文
的約束，實現詞性歧義的消解。歷史上曾經先後出現過兩個
自動詞性標注系統。一個採用上下文相關的規則，叫做
TAGGIT（1971），另一個應用詞類的二元模型，叫做
CLAWS （1987）（見Garside et al‧1989）。兩個系統都分別
對100 萬詞次的英語非受限文本實施了詞性標注。結果顯示，
採用統計語言模型的CLAWS系統的標注正確率大大高於基於
規則方法的TAGGIT系統。請看下表的對比：

系統名　　　 TAGGIT（1971）　　　CLAWS（1987）
標記數　　　 86　　　　　　　　　133
方法　　　　 3000條CSG規則　　　隱馬爾科夫模型
標注精度　　 77%　　　　　　　　 96%
測試語料　　布朗　　　　　　　　LOB

　　
　　令C和W分別代表詞類標記序列和詞序列，則詞性標注
問題可視為計算以下條件概率的極大值：

　　C
＝argmax[，C]P（C│W）
　　＝argmax[，C]P（W│C）P（C）／P（W）
　　≒argmax[，C]Ⅱ[，i=1，…，n]P（w[，i]│c[，i]）P（c
[，i]│c[，i─1]）

（7）式中P（C│W）是已知輸入詞序列W的情況下，出現
詞類標記序列C 的條件概率。數學符號argmax[，C] 表示通過
考察不同的候選詞類標記序列C，來尋找使條件概率取最大
值的那個詞類標記序列C
。後者應當就是對W的詞性標注
結果。

　　公式第二行是利用貝葉斯定律轉寫的結果，由於分母P
（W）對給定的W是一個常數，不影響極大值的計算，可以
從公式中刪除。接著對公式進行近似分析。首先，引入獨立
性假設，認為任意一個詞w[，i] 的出現概率近似只同當前詞
的詞類標記c[，i]有關，而與周圍（上下文）的詞類標記無
關。於是詞匯概率可計算如下：

　　P（W│C）≒Ⅱ[，i=1，…，n]P（w[，i]│c[，i]）（8）

其次，採用二元假設，即近似認為任意一個詞類標記c[，i]
的出現概率只同它緊鄰的前一個詞類標記c[，i─1]有關。則

　　P（C）≒P（c[，1]）Ⅱ[，i=2，…，n]P（c[，i]│c[，i
─1]）

（9）P（c[，i]│c[，i─1]）是詞類標記的轉移概率，也叫做
基於詞類的二元模型。

　　上述這兩個概率參數都可以通過帶詞性標記的語料庫來
分別估計：

　　P（w[，i]│c[，i]）≒count（w[，i]，c[，i]）／count（c[
，i]）（10）
　　P（c[，i]│c[，i─1]）≒count（c[，i─1]c[，i]）／count
（c[，i─1]）（11）

　　據文獻報導，採用統計語言模型方法，漢語和英語的詞
性標注正確率都可以達到96％左右（白拴虎1992）。

3‧3‧3
介詞短語PP的依附歧義

　　在英語中，介詞短語究竟依附於前面的名詞還是前面的
動詞，是句法分析中一種常見的結構歧義問題。下例表明怎
樣用語料庫方法解決這個問題，以及這種方法究竟能達到多
高的正確率。

　　例句：Pierre Vinken， 61 years old， joined the board as
anonexecutive director‧令A＝1表示名詞依附，A＝0為動詞依
附，則上述例句的PP依附問題可表為：

　　（A＝0，V＝joined，N1＝board，P＝as，N2＝director）
令V，N1，N2分別代表句中動詞短語、賓語短語、介賓短語
的中心詞，並在一個帶有句法標注的語料庫（又稱樹庫）中
統計如下四元組的概率P[，r]：

　　P[，r]＝（A＝1│V＝v，N1＝n1，P＝p，N2＝n2）（10）

對輸入句子進行PP依附判斷的算法如下：

　　若P[，r]＝（1│v，n1，p，n2）≧0‧5，

　　則判定PP依附於n1，
　　否則判定PP依附於v。

Collins & Brooks（1995）實驗使用的語料庫是賓夕法尼亞大
學標注的《華爾街日報》（WSJ）樹庫，其中包括：訓練集
20，801個四元組，測試集3，097個四元組。他們對PP依附自
動判定精度的上下限作了如下分析：

　　一律視為名詞依附（即A≡1） 59‧0％
　　只考慮介詞p的最常見依附 72‧2％
　　三位專家只根據四個中心詞判斷 88‧2％
　　三位專家根據全句判斷 93‧2％

很明顯，自動判斷精確率的下限是72‧2％，因為機器不會比
只考慮句中介詞p的最常見依附做得更差；上限是88‧2％，
因為機器不可能比三位專家根據四個中心詞作出的判斷更高
明。

　　論文報告，在被測試的3，097個四元組中，係統正確判
斷的四元組為2，606個，因此平均精確率為84‧1％。這與上
面提到的上限值88‧2％相比，應該說是相當不錯的結果。

4‧ 結論

　　語言學家的努力，不論是用複雜特徵集和合一語法，還
是詞匯主義方法，都是在原先所謂的理性主義框架下作出的
重大貢獻。詞匯主義方法特別值得推崇，因為它不僅提出了
一種顆粒度更細的語言知識表示形式，而且體現了一種語言
知識遞增式開發和積累的新思路。尤其值得重視的是在眾多
詞匯資源的開發過程中，語料庫和統計學方法發揮了很大的
作用。這也是經驗主義方法和理性主義方法相互融合的可喜
開端。筆者相信，語料庫方法和統計語言模型是當前自然語
言處理技術的主流，它們的實用價值已在很多應用系統中得
到證實。統計語言模型的研究，尤其在結構化對象的統計建
模方面，仍有廣闊的發展空間。
-------------------------

【參考文獻】
Aarts， Jan & Willen Meijs （eds‧）‧ 1990‧ Corpus Linguistics：Theory and Practice﹝C﹞‧ Amsterdam： Rodopi

Collins， M‧ and J‧ Brooks‧ 1995‧ Preposition phraseattachment through a backed─off model﹝P﹞‧ In Proceedings of the3rd Workshop of Very Large Corpora‧ Cambridge， Mass

Garside， R‧， G‧ Leech and G‧ Sampson，（eds‧）‧ 1989‧ TheComputational Analysis of English： A Corpus─Based Approach﹝C﹞‧London： Longman

Hudson， R‧ A‧ 1991‧ English Word Grammar﹝M﹞‧ Cambridge， Mass‧： Basil Blackwell

白拴虎，1992，漢語詞性自動標注系統研究﹝MA﹞。清華大
學計算機科學與技術系碩士學位論文。

董振東、董強，1997，知網﹝J﹞。《語言文字應用》第3期。

俞士汶等，1998，《現代漢語語法信息詞典詳解》﹝M﹞。
北京：清華大學出版社。

逻辑计算 · 发表于 2005-12-2 21:47:55

称作里程碑的三项自然语言处理技术,从作者所述是源于短语结构规则的局限性。但不论统计处理语言方法还是加上用特征描述语言的方法恐怕都不是在短语结构规则方法之后吧。况且这个角度也只是从语形（Syntax）的结构来谈，自然语言的处理技术遍及它的各方面研究内容，还有语义及语用方面，一个可以称之为里程牌式的自然语言技术应该不是这样历史上不坚强及技术上狭隘的东西。
因此，作者断言的里程牌式技术，有言过其实之嫌。
不知各位大师以为妥否？

胡吉成 · 发表于 2005-12-3 14:29:26

		自动登录	找回密码
密码			注册

自然語言處理技術的三個里程碑

相关帖子

言过其实之嫌

自然语言的处理我以为还在探索阶段，用里程碑有点夸大其词呢。

浏览过的版块