現狀和設想─試論中文信息處理與現代漢語研究
来源:青藤书屋發表時間: 2003年10月30日 17時15分
發表作者: 中國語文
發表內容:
現狀和設想─試論中文信息處理與現代漢語研究
許嘉璐 撰
《中國語文》2000年第6期(總第279期)
-----------------------------------------------------------------------------------------------
一 信息處理的必然前景
中文信息處理,就是利用計算機對漢語信息(包括書面的和
口頭的)進行處理。既然是憑借計算機對信息進行處理,當
然應該是自動化的。例如,成篇的文章或整本的書輸入計算
機,對其中所需要的信息進行統計;自動分類和搜索、過濾
、摘要;外文與漢語的對譯;字詞典自動查詢、輔助編輯;
自動校對;書面和口語的互相轉換;聾啞、盲人用的計算機
;等等。至於詞典、教科書、多媒體和語文教學等領域從中
得益則不言而喻。
中文信息的自動化處理,意義之重大是無須多說的。首先是
節省時間。但是這還在其次。更為重要的是,這是人們應付
未來信息社會的必需手段。現在在世界範圍內,信息最之大
是以往任何時候無法比擬的,以至於對任何人來說都好像是
一葉扁舟飄盪在無邊的大海裏,無法比較全面地掌握自己所
需要的信息,當然就更淡不到對這些信息按照需要進一步處
理。
信息在當代是極其重要的資源,不能充分掌握它、利用它,
無論是對個人還是對整個社會,都是巨大的災難。因此,獲
取、處理和運用信息的手段至關重要。可以這樣說,中文信
息自動化處理每提高一步,給中國的科學技術(包括國家的
信息化)、文化教育、經濟建設、國家安全所帶來的效益,
將是無法用金錢的數額來計算的。反之,如果我們落後了,
不管是落後於國際水平還是落後於現實需要,後果也是嚴重
的。
二 中文信息處理技術發展現狀
1‧字處理與語言處理
到目前為止,中文信息處理基本上還停留在“字處理”階段
,也就是說計算機對漢語的“認知”是一個字一個字地進行
。最明顯的標幟就是計算機鍵盤輸入是一個字一個字地敲,
一個字一個字的顯示。即使應用軟件準備了“聯想”功能,
但是其原理仍是把詞(多音詞)、短語當成“字”來處理的
。如果我們說得“寬宏”一些,最多可以說現在是處在“字
和詞處理之間”階段。
中文信息處理,只有進入到語言處理階段,才能真正實現自
動化。現在市面上有些信息產品似乎越過了“字詞處理”階
段,給人以假象,使人誤認為計算機對中文信息的處理已經
“自動化”了。例如中文掃描儀,可以成篇地把文件輸入到
計算機裏。其實,掃描儀是把整頁紙當成一個圖像輸進去的
;輸入後,經過OCR的處理,圖像轉化了可以用鍵盤處理的
文字文件,這時則仍是“字處理”。再如,現在有些語音輸
入產品(像IBM語音板),是基於在一定量的語料中對詞匯
進行統計,依據詞出現的概率而研製的。其處理的基本單位
也是“字詞”。又如多種機器翻譯產品,對漢語研究的基本
思路和水平與語音輸入基本上是一樣的。
二十年前,中國計算機專家和漢語漢字專家為能在計算機上
顯示漢字,曾經付出了極大的心血,完成了歷史性的突破。
自那以後,中文信息處理技術雖然在有些方面有所進步,但
是至今還沒有跨上“語言處理”這個臺階。我們在“字處理
”階段停留的時間太久了。
在全世界科學技術高速發展的今天,中文信息處理自動化水
平的提高,將決定著信息產業發展的前景,也意味著巨大的
經濟利益。因此,一些技術和經濟發達的國家都投入了大量
資金,在其本土或在中國建立研究基地,或以低廉的價格購
買中國學者的研究成果,或徑直購買其勞力,來進行中文信
息處理的研究。中國作為漢語的故鄉,能不能成為未來中文
信息處理技術的發展的中堅?以漢語為母語的中國學者,能
不能掌握中文信息處理的核心技術?這個問題早已尖銳地擺
在我們面前。我們必須儘快地給以明確的回答。
由於機器翻譯需要有關現代漢語的全部知識,而這些知識一
旦為計算機所“習得”,對中文信息的處理就可以達到相當
程度的自動化,因此現在無論是國內外中文信息產業還是研
究信息處理的專家,都把漢/外機器翻譯定為攻克的目標。
三 目前中國中文信息處理技術發展的態勢
中國的有關科研單位和專家,從來沒有停止過攻克中文信息
處理難關的努力,在國家的幾個科學攻關計劃中都列有信息
處理項目。這些項目都是以解決計算機對自然語言進行理解
問題,也就是以開發智能型的漢語分析系統為奮鬥目標。
當前這類研究基本上都是在語料──主要是詞──的統計概
率的基礎上進行的。許多專家已經感覺到,統計概率的路已
經走到盡頭,必須另闢蹊徑,這“蹊徑”就是語義,以詞義
為基礎,與句法規則結合,以句為突破的單位。
朝著這個目標努力,到目前為止,正在進行的眾多研究項目
,大體可以分為三種風格,或者說是三種思路、三個流派。
第一個流派是以傳統計算語言學為基本理論,從詞素分析入手,進而研究詞─短語(詞組)─語段─句子。
概括地說,傳統計算語言學的種種理論和方法,都以語料統
計為基礎。但是,只靠統計概率是不能統攝複雜多變的語言
現象的,因此還需要結合語言規則。為此,中國學術界從西
方計算語言學的眾多理論和方法中吸收了許多營養,例如短
語結構語法、擴充轉移網絡、從屬關係語法和配價語法等。(1)
由許嘉璐主持的國家社會科學“九五”重大項目“信息處理
用現代漢語詞匯研究”的立項和進展或許可以說是當前這一
領域研究最集中突出的例子。
該課題1997年開題,將歷時三年。項目共包含著九個子課題
:
1‧信息處理用現代漢語分詞詞表
2‧歧義切分與部分專有名詞識別
3‧信息處理用現代漢語詞類及標記集規範
4‧漢語詞類兼類問題
5‧現代漢語詞的語法屬性研究(之一)
6‧現代漢語詞的語法屬性研究(之二)──現代漢語動詞電
子詞典的擴充和名詞槽關係
7‧現代漢語知識詞典的建立和詞匯內部語義網絡描述
8‧現代漢語真實文本短語結構的人工標注
9‧現代漢語詞的構造研究
這些課題正在按照預定的進度進行,並已經在不同程度上取
得了比較理想的成果,(2)並將於2000年底結題。
這一課題是純粹的基礎性研究,而且應該說,單就詞匯領域
而言,它也還是不夠完整的基礎性研究。雖然這九個子課題
是中文信息處理技術所需要解決的重要問題,但是要把這些
成果集成,形成可供使用的平臺,還需要做相當艱苦的努力
;而且即使這些成果集成了,也只是為今後的研究奠定一定
的基礎,因為要讓計算機理解漢語的詞,還需要解決詞的意
義如何概括、表達(用計算機可以“讀”的符號)等問題。
在解決了詞的問題之後,才能進入句的領域,而要解開句子
的奧祕,除了要弄清楚句子結構規律,關鍵問題也是語義。
到目前為止,包括“信息處理用現代漢語詞匯研究”在內的
研究還沒有正式進入意義領域。而對語義,以統計概率為主
要方法,是難有作為的。在已有成果的基礎上今後應該走什
麼路?國內外都還沒有找到有十分把握的途徑。
第二個流派是HNC理論。
出於對傳統研究方法(詞→短語→句→句群→篇章)是基於
西方語言而建立的,其總體與漢語實際不適應的考慮,黃曾
陽先生提出了概念層次網絡理論(HNC)。(3)
HNC理論認為,計算語言學界源於圖靈標準而採用的句法分
析和句法語義分析所提出的標準各有偏低和偏高的不足,不
是描述人的語言感知過程的適當模式,因為“思維的機制絕
不是語法或句法,而是概念聯想網絡的建立、激活、擴展、
濃縮與存儲”,從而提出計算機對漢語的處理不應該以圖靈
檢驗為標準,而應該以對語言模糊的消解能力為第一標準。(4)
“自然語言的語句呈現出無限和不確定的表現特徵,……在
其背後是否存在一種有限和確定的語句結構?人們對此進行
過多方面和多層次的探索。”傳統語言學、喬姆斯基理論、
依托於數理邏輯理論的句法語義分析、依托於隱馬爾科夫模
型等的各種統計處理,各有自己的答案。對自然語言特性的
把握必須是微觀和宏觀並重的,對語句特性的把握更是如此
。上述四種答案“與語言微觀和宏觀特性的聯繫大體依次呈
現出反變和正變的趨向。”HNC的答案是:應該描述語言感
知過程,為此,應從語言的深層入手,以語義表達為基礎,
把自然語言所表述的知識劃分為概念、語言和常識三個獨立
的層面,建立語義完備性的概念表述數學表示式和語句的語
義表述模式。人的語言交流過程,就是消解“模糊”的過程
。因此,HNC把消解模糊作為自然語言理解初級階段的標準
(就書面而言,有詞的多義模糊、語義塊構成的分合模糊、
指代冗缺模糊),即以消解模糊為攻克的第一步。(5)
HNC認為,漢語以“字義基元化,詞義組合化”方式構造新
詞,因此可以構建概念表述體系,亦即概念層次網絡。HNC
同時認為自然語言無限的語句可以用有限的句類物理表示式
來表達。“語句的宏觀特性可以用語句的句類表示式來表達
,語句的微觀特性可以用語義塊的構成表示式來表達。”
(6)他們據此設計了局部聯想網絡解決詞匯層面問題,設
計了全局聯想網絡解決句類和語義塊問題(句類是語句的語
義類型)。據HNC課題組的研究,自然語言共有7個句類:
作用、過程、轉換、效應、關係、狀態和判斷。每個句類有
自己的句類表示式,基本句類表示式共57個。此外,自然語
言還有單個全局特徵語義塊的混合類和兩個或多個全局特徵
語義塊的復合句類。理論上二者應有3192+57×56+57×3192+
3192×3192=10377192種。但是常見的混合句類只有理論值的十
分之一左右,在計算機上是可以解決的。從理論上說,HNC
的句類分析是對大腦語言感知過程的初步模擬,應該接近人
的語言過程,但這需要長時間的逐步完善。
現在HNC課題組正按照“語義塊感知和句類假設、句類檢驗
、語義塊構成分析”三步曲策略努力工作,期望能研究和開
發出具有“自知之明”(即能在譯文疑點處自動做出標記並
給出多種解決方案)的漢/英互譯系統。這一策略在規模較
小的知識庫支持下已經取得可喜結果。而其準確性最終要在
更大的知識庫支持下,在大規模語料中運行才能得到信度較
高的印證。這正是這一課題當前工作的難點所在。
第三個流派是基於內涵模型論的語義分析。
這一流派的理論設計,是陸汝佔教授提出的。其出發點是考
慮到對中文信息處理的研究單純走語法的路已經難以有突破
性結果,歸根結底,要深入到語義層面。朝著意義精細方向
考慮,就會產生兼類過多和概括力不夠以及歧義、模糊、不
確定等困難。換言之,漢語表達式的意義僅指稱外延對象,
沒有涉及內涵性質,因此存在一個語句中的同一詞語表達式
的多個出現,都指稱相同的外延對象。怎麼辦呢?應該在一
個邏輯句義框架下來分析詞匯及其分類,只要能明白表達句
義,不必過於精細,也就是用邏輯框架來處理詞匯理論。基
於這一考慮,該課題組將漢語表達式抽象成數學表達式,恰
當地表示內涵和外延義,然後把這些語義表示在計算機內進
行處理,亦即把漢語表達式與計算機數據結構之間直線聯結
,改變為漢語表達式─抽象數學表示─數據結構三者的間接
聯結。課題組稱之為基於形式方法──模型論的漢語語義計
算理論。
根據這一理論設計,句義分析的流程為:語句→切分→標注
→句法分析→句法樹→同構的語義樹→邏輯公式→模型解釋
。顯然,從“切分”到“句法樹”,與受圖靈檢驗啟發而進
行的研究一致;其特色就在於建立“同構的語義樹”,特別
是進入“邏輯公式”並作出“模型解釋”。陸汝占教授認為
,語句要轉換成邏輯式,應從漢語語句謂語動詞結構著手。
因為句法分析是語義分析的前提,句法分析又要靠語義特徵
。具體設想是:先構造一種句子的邏輯式之間的中介形式“
函子”(functor),以表示謂語動詞連同支配成分一起構成
的語句核心,表現句義的基本要素。函子加上時態、模態算
子就可以表示語態,構成句子的基本邏輯含義。對於計算機
自動處理中文信息來說,漢語的缺省(省略和隱含)都是難
點。因此基於內涵模型論的理論對這一點格外重視,但是至
今除了利用上下文語境知識外,也還沒有找到很好的解決策
略,而語境知識的形式化也是十分複雜的問題。
說從“切分”到“句法樹”和現在通常的解決方法一致,只
是就總體和順序而言,實際上基於內涵分析的語義解釋理論
對於“詞”、“句”等有著自己的理解。
以上三個流派都正在進行過程中,進展情況不一。第一個流
派,不同單位和個人已經在一些局部取得了較好的成績,面
臨著如何集成和如何解決詞義、句子問題;第二個流派設想
和計劃比較龐大,在規模不夠大的知識庫內,已經得到部分
技術實現,面臨著繼續擴大知識庫、進行相當於“中試”或
一定規模生產的過程,以便檢驗和完善其理論和技術設計;
第三個流派,理論設計還較粗略,雖然用這一理論已經解決
了一些實用問題,但是要證明它可以適用於整個現代漢語,
還需要進一步推敲、實驗、細化。
值得注意的是,第二、第三種思路都很重視中國傳統語言學
,特別是訓詁學的經驗和成果,或從中得到啟發,或借用其
對詞語的訓釋。這是有道理的。中國的傳統語言學,雖然在
很長時間裏與語文學難以徹底區分,但是古人對語言的體味
觀察入微,其中包含著一定的哲理和對語言環境的關心,這
些往往反而是不“懂”語言的計算機所需要的。
四 現代漢語研究滯後的原因
(一) 現代漢語本身的難度
1‧
漢語缺乏狹義的形態。西方語言的形態,對於計算機來說就
是標記;漢語沒有這種標記,就需要人深入把握詞的種種規
律,把這些規律形式化,其實就是人為地作出標記。因此,
漢語的特點一方面使得西方計算語言學一些成果和經驗不能
完全適用於它,另一方面增加了計算機“分辨”詞素、詞、
詞組的難度(在書面語,字和字之間等距離也是造成這一難
題的重要原因)。
2‧
語法靈活。即缺乏狹義的形態,漢語句子中各個成分之間的
關係一靠詞序,二靠“意合”,三靠虛詞。但是,詞序雖同
可能意義迥異;虛詞並非非用不可,特別是在口語裏,虛詞
更少,因此虛詞只能是解決詞與詞、句與句關係問題的輔助
手段;意合則更為麻煩,其中包含著許多語言環境、語言背
景和語言風格知識以及缺省問題,如何全面把握有關意義的
諸項因素,並把它形式化,是最大的難題。
3‧
語義靈活。從詞匯層面說,一詞多義、同音詞、同義詞、近
義詞已經是很麻煩的事;從句義層面說,情況更為複雜:一
方面語法的靈活主要來源於語義的靈活;另一方面同一結構
可以表達不同的意思,同一意思可以用不同結構表達。即使
我們把詞義和句法都分析清楚了,“教給”計算機了,它還
是難以“理解”整個的句子。
(二)現代漢語研究的弱點
1‧
長期以來,我們的研究基本上是為人際交流服務的。人的聯
想、類推等能力構成了人對語言的特殊感知能力,這極大地
補足了研究的空白。要把過去研究的成果完全移植到不會舉
一反三的計算機上是不行的。必須建立起計算機適用的語言
分析體系。換言之,漢語言學家沒有為中文信息處理作好語
音分析的準備。
2‧
長期以來,對漢語的研究方法基本上是例舉性的,而非窮盡
的;材料和對象基本上是書面的,而非口語的。計算機所面
對的,是任意性的、不可預期的語言材料,它必須窮盡式地
處理這些材料,因此由例舉法得到的結論是不適用的。另外
,書面語語法比較規範,句式變化較少;反之,口語則因說
者的方言影響、文化水平、語言環境等方面的差異而變化靈
活。
(三)研究環境的缺乏
(1)研究分散而重覆
和其他一些行業一樣,中文信息處理界也存在著低層次重覆
的問題。這不但分散了力量,而且潛伏著缺乏統一規範和標
準的危險。例如,語料庫、電子詞典、詞的切分,詞類研究
等等,許多家搞,而每家所做的規模都不大,即難以適應大
規模語料的需要,也難以深入。
(2)投入相當不足
這裏據說的投入,主要提指人員所消耗的經費。應該說,近
些年中國科學技術人員的待遇已經有了相當大的提高,但是
,現在外國大公司大舉進軍中文信息技術領域,他們憑借著
雄厚的財力,以相對於中國國內無法競爭的報酬吸引去大量
的年輕的人才。現在堅持在科研第一線的年輕人,都是靠一
顆熾熱的愛國心在拼搏。對於這些年輕人來說,未來的生計
──贍老育小──也是時刻要考慮的問題,因此能否在基礎
研究的長期奮鬥中堅持下去,依然是個疑問。中文信息界深
深地感到了威脅。
(3)從總體而言,現代漢語研究領域和計算機領域的隔絕
狀態並沒有出現根本性的改變。這可以說是個致命的弱點。
隔絕,使兩個領域的英雄們都無用武之地;同時這也極大地
阻礙了語言學、計算機學一起向著所需要的一切學科(如心
理學、邏輯學、人腦科學等)延伸。
五 消除瓶頸的戰略
要消除中文信息處理的瓶頸,首要的關鍵是要漢語言學界和
計算機學界兩支隊伍緊密地聯合起來,開展面向中文信息處
理基礎研究和應用研究。如前所述,中文信息處理需要的,
並不是現在漢語學界已有知識的照搬:有的方面需要根據計
算機的“能力”去總結漢語的規律,在一定程度上,還需要
研究者拋開傳統語言學的固有習慣和方法;有的方面則需要
填補上已有知識的不足。為長遠計,我們需要大批“兩棲學
者”,應該加緊這類人才的培養;在目前,則需要兩支隊伍
的密切合作。我們高興地看到,北京大學、清華大學、上海
交大、山西大學、科學院的一些研究所,已經開始了這種結
合,而且在實際研究、培養新型人才、探索新的研究路數諸
方面都取得了可喜的成績。漢語言學與計算機結合所帶來的
,絕不僅僅是中文信息處理的長足進步,漢語研究本身也將
獲益良多。
其實,僅僅有語言學和計算機科學的結合還是不夠的。上文
所介紹的三個流派,基本上都是抓住了問題的兩端:語言和
計算機。從根本上說,要想使計算機像人腦那樣工作,就要
按照人腦運用語言時的活動機制去“武裝”計算機。而至今
為止,我國的人腦科學不沒有取得可供計算機科學使用的成
果,同時,無論是計算機界還是語言學界,對人腦科學的關
心也很不夠。從當前的實際出發,我們只好還是集中力量在
語言學和計算機科學的結合上多下功夫,以期為解決中文信
息處理瓶頸問題作出階段性的成績。
六 對操作過程中一些問題的思考
1‧
必須採取集體攻關的辦法。語言之複雜,漢語之複雜,就決
定了任何研究單位都不可能獨自解決中文信息處理的全部問
題,必須多個單位緊密合作,集體攻關。中國學術界曾經有
過分工合作、集體攻關的傳統,近年來在許多地方已經淡漠
了,現在學科的發展又提出了這一問題,需要我們打破“新
”的風氣,重新養成更新的習慣。
2‧
可以用“百花齊放,百家爭鳴”的方針,不拘一格,幾種風
格齊頭並進,即相互競爭,又彼此取長補短。從現在不同流
派研究的情況看,可以作出這樣的判斷:不但任何研究單位
不能獨立自解決中文信息處理的問題,而且即使是多個單位
合作,如果使用單一的方法,也不能達到預期的目的。例如
,對詞和句進行處理時,就既要充分利用統計概率方法的成
果,又要重視運用詞匯和句子規則,還要注意語言邏輯學的
重要作用。
3‧
採用科學的管理辦法。無論開展這一研究所需要的資金從哪
裏來,也不管這一研究歸屬於哪個部門,研究的參與者來自
多少單位,對其管理都應該是科學的現代化的。所謂科學的
,主要是指要按照科學研究的規律管理。例如實行首席科學
家制,人事、經費、責任,都由首席科學家承擔;又如,課
題的立項,要嚴格論證,統一評測標準,嚴格檢查,嚴格驗
收,採取迴避制,排除一切人情、關係的干擾。
4‧
既要爭取國家的支持,又要儘量與企業合作。面向中文信息
處理的現代漢語研究,是純基礎性的研究。根據社會主義市
場經濟的規則,科學研究,包括基礎研究的投資主體應該是
科技型的企業。但是國家在這中間的作用不可忽視:國家有
支持基礎研究的責任和義務。特別是在我國,企業和企業家
還不成熟,無力也無意識在基礎研究方面投入巨額資金,因
而國家的責任要比經濟發達的國家更為重大。這一兩年,在
企業界出現了一些新氣象,不少企業,特別是包括信息產業
在內的高新技術產業,開始向研究開發投入越來越多的資金
。我們有理由相信,為了中國中文信息處理事業的發展,國
家和企業都會越來越重視支持基礎研究,學術界應該及時地
同時爭取這兩個方面的支持。
5‧
既要出成果又要出人才。
6‧
中文信息處理事業將是長期的。我們的目標是讓計算機越來
越接近人腦的機制。要達到這一目標,恐怕需要幾代人甚至
更多時間的不懈努力。因此,薪火之傳至為重要。我們應該
採取有力措施,在使中文信息處理技術大踏步前進的同時,
這一領域新型人才也大量的不斷地湧現。
7‧
允許失敗。科學研究是在不斷失敗─研究─再失敗─再研究
的循環往復中前進的。面向信息處理的現代漢語基礎研究既
是科學研究活動,就要允許失敗。不能設想某一種理論和方
法從一提出來就一路順風地直達彼岸。從某種角度講,失敗
也是一種成功:其中必有合理的因素;造成失敗的原因就是
財富,可以成為今後的借鑒。
我在1995年曾經預期:“應用研究的成果所帶給社會的,有
可能不只是具體的具有應用價值的學術成果,還將有對整個
語言文字學價值的生動顯示,有對基礎研究成果的檢驗,有
下一階段基礎研究的問題的單子和努力的方向,其社會效應
則必然是整個語言文字學的研究得到社會的重視,從而得到
加強,語言學也將逐漸繁榮,並真正成為先行科學。”時隔
五年,我依然抱著同樣的熱望。特別是在中文信息處理領域
,我的信心更足,因為中國知識分子報國的熱情和天生的對
漢語的語感,是得天獨厚的。只要有一定的外力,這一優越
條件就可以產生極其巨大的能量,做出驚人的成績。(8)
-------------------------------
附注
(1)
參看馮志偉著《應用語言學綜論》,廣東教育出版社,1999年,312頁。
(2)
《語言文字應用》2000年第1期有專欄《“信息處理用現代
漢語詞匯研究”課題中期成果匯報》,由各個子課題負責人
分別撰文介紹研究進度情況,可以參看。又,“歧義切分與
部分專有名詞識別”的成果又見於劉開瑛著《中文文本自動
分詞和標注》,商務印書館,2000年。
(3)
HNC是英語Hierarchical Network of Concepts 的簡稱。參看《
HNC(概念層次網絡)理論》,清華大學出版社,1998年11月。
(4)
見黃曾陽先生給許嘉璐的信,載《HNC(概念層次網絡)理論》,411頁,清華大學出版社,1998年
(5)
《HNC理論與自然語言語句理解》,《中國基礎科學》1999
年第2─4期合刊。
(6)
同上。
(7)
關於中文信息處理要面對的現代漢語的特點,有許多學者做
過詳盡的分析。最近的一篇,也是我認為論述得較好的一篇
,是段慧明等人寫的《大規模漢語標注語料庫的製作與作
用》,載《語言文字應用》2000年第2期,可以參看。
(8)
許嘉璐著《未成集──論新時期語言文字工作》,201頁,
語文出版社,2000年。
页:
[1]