湘里妹子学术网

 找回密码
 注册
查看: 4104|回复: 4

自然語言處理開放資源平臺

[复制链接]
发表于 2003-12-2 15:35:18 | 显示全部楼层 |阅读模式
文章主題: 自然語言處理開放資源平臺
發表時間: 2003年10月18日 11時53分  
發表作者:   劉群、張浩(中國科學院計算技術研究所)、白碩(國家計算機
與網絡信息安全管理中心) 撰
来源:《語言文字應用》,2002/04,50~56頁
本文工作受國家973項目支持

-------------------------------------------------------------------------------------------------------


【內容提要】

中國自然語言處理研究在一定程度上處於一種低水平重覆狀
態。由於缺乏一些公共的基礎設施,很多研究工作都要花費
大量的精力從底層模塊做起,造成研究工作難以深入。本文
提出,可將開放式的開發模式應用於自然語言處理領域,並
給出了一個面向中文的自然語言處理開放資源平臺的設計方
案。這個平臺能夠共享源代碼、語料庫、詞典、學術論文等
各種資源,並支持協作式的項目開發。隨著參與者的增多和
項目的發展,這個平臺一定會為我國自然語言處理的研究提
供有力的支持。

零 引言

  中國的自然語言處理研究在一定程度上處於一種低水平
重覆狀態。由於缺乏一些公共的基礎設施,很多研究工作都
要花費大量的精力從底層模塊做起,造成研究工作難以深入
。近些年來,隨著Linux等開放源碼軟件的驚人發展,開放式
開發的思想正在逐漸深入人心(Raymond,1997)。開放的
好處不僅體現在成品上,更體現在過程中。只有當開發過程
成為開放式的以後,該領域的工作者才能以最自然的方式形
成最大規模的協作,朝著一個共同的目標努力,把一個個好
的思路貢獻出來,使得一個公共的產品迅速得到演化更新。

  本文提出採用類似Linux的開放源代碼方式,建設一個
自然語言處理的開放資源平臺。這種方式的好處不僅僅在於
開放和共享,我們認為一個更大的好處在於,可以吸引一批
真正有志於此領域的研究工作者,大家通力協作完成一些大
家在孤立狀態下難以完成的工作。

  本文還將探討建設一個面向中文的自然語言處理開放資
源平臺的若干問題,包括其目標、意義和組織形式、整體設
計,以及平臺之上的項目管理,並介紹該項工作目前的進展
情況。

一 目標與意義
1‧1 中國自然語言處理面臨的問題

  近年來,中國的自然語言處理研究取得了很大的進展。
不過,一些深層次的問題也顯得更加突出。自然語言處理研
究的對像是人類語言。而這個對象體系龐大,從詞法層次、
句法層次、語義層次到語用層次,現象紛繁複雜,任何個人
或研究小組都只能將研究精力集中在某個小範圍內,而不可
能面面俱到。然而,自然語言問題本身的複雜性又決定了自
然語言處理的任何問題都是互相交織在一起的,任何一個問
題都很難與其他問題完全割裂起來處理。所以,對於自然語
言處理研究來說,一套公用的基礎設施就變得非常必要。否
則,我們要進行大量的低水平重覆開放,並且總是處在爭執
不下的局面,難以提高這個領域的處理水平。而這個問題在
中國的自然語言處理研究中顯得尤為突出。這主要體現在以
下幾個方面:

(1)缺少公用的語言資源。
語言資源,包括詞典、語料庫、規則庫等等,是自然語言研
究不可或缺的工具。目前,英語的語言資源已相當豐富,詞
典、語料庫、詞法分析、句法分析、命名實體分析等很多基
礎性的研究領域都有了可共享的資源,這使得相關的研究工
作起點很高,工作容易深入。不可否認,中國的自然語言處
理領域,各種自然語言處理的基礎資源建設也有了長足的進
步。其中比較著名的語言資源包括:北京大學計算語言學研
究所開發的《現代漢語語法信息詞典》;北京大學計算語言
學研究所、人民日報社和富士通公司聯合開發的《人民日報
標注語料庫》;董振東先生的《知網》;梅家駒先生的《同
義詞詞林》。這些資源對中文信息處理的研究起到了極大的
推動作用。不過,與英語相比較,我們可以得到的可共享資
源還是要少得多。僅舉一個簡單的例子,漢語的人名識別問
題非常重要,可是卻沒有一部公用的人名詞典供大家研究之
用。

(2)缺少公用的軟件模塊。
一些公用的底層軟件模塊對於自然語言處理來說也是必不可
少的。不用說詞法分析、句法分析這樣的複雜模塊,一些更
底層的簡單模塊,比如詞典檢索、漢字代碼處理等等,都要
耗去編程者很多的精力。這種狀況極大地妨礙了中國自然語
言處理研究的進展,一個明顯的問題就是,幾乎所有從事相
關研究工作的人都要自己開發一套分詞系統,這就導致中國
的分詞研究低水平重覆式地長盛不衰,而一些更加深入的研
究工作,如句法分析、語義分析等等,卻總是難以深入。

(3)
缺少公用的測試平臺。重視評測,是目前自然語言處理研究
的一個重要特點。公共的測試平臺可以使大家的研究工作有
一個互相比較的基準,避免在低水平上重覆研究,而可以集
中精力探索有突破性的新方法。目前國際上一些著名的評測
,如MUC、TREC、CoNLL等,都極大地促進了相關領域的
研究工作。漢語的自然語言處理研究中就很缺少這種公用的
平臺。例如漢語的詞語切分,雖然研究已經非常多,但由於
缺少公用的測試平臺,大家的研究工作缺乏可以比較的基礎
。雖然在國家863、973項目的範圍內都組織過一些評測活動
,這些評測活動也都對相關的研究工作起到了很大的促進作
用,但是由於這些評測的數據、程序、規範都沒有做到完全
公開,後續的研究工作無法沿用這些評測進行比較,這也使
得這些評測的影響受到了一定的局限,還沒有形成真正意義
上的公共測試基準(benchmark)。

(4)缺少公用的文獻資料庫。
對於中國的研究者來說,雖然一般而言,閱讀英語文獻都不
成問題。但是要比較全面的掌握相關研究的最新動態,要閱
讀大量的文獻資料,還是要付出比西方學著多得多的精力。
特別是對一些初次進入此領域的研究者來說,往往有點無從
下手。建立一個比較完備的文獻資料庫,對於從事此領域研
究的人來說,無疑是非常有益的。

(5)缺少交流合作的機制。
過分分散也是中國自然語言處理研究所面臨的重要問題。當
然這裏有很多的客觀原因,並不容易解決,例如缺乏經費的
支持、單位之間的合作涉及知識產權問題等等。由國家相關
管理部門(如自然科學基金委、863、973專家組等)出面,
統一牽頭組織攻克一些大的研究課題,是一個好的解決辦法
。不過,對於這樣一個涉及眾多單位的大型研究課題來說,
項目的組織管理工作是非常重要的。從另一個方面看,“開
放源碼”和Linux的成功,為我們指明了另一條可行的道路。

1‧2 開放源代碼的含義

  “開放源碼(open source)”的概念由公益組織“開放
源碼促進會(OSI)”(參考文獻[6])所定義,對這類軟件
用戶有使用、修改、複製的自由,因此這類軟件的許可證
(license)的宗旨往往與傳統商業軟件相反,旨在保護用戶
的使用權力。軟件的作者樂意共享其勞動成果,也歡迎同
行參與對該軟件的批評與改進。

  根據OSI的定義,一個“開放源碼”的軟件,該滿足以
下條件:(1)自由重發佈;(2)提供源代碼;(3)允許
再開發;(4)原作者的代碼完整性;(5)沒有對個人或群
體的歧視;(6)沒有對應用領域的歧視;(7)發佈許可證
;(8)許可證不能針對某個產品;(9)許可證不能限制其
他軟件。

  “開放源碼”的軟件又稱為“自由軟件(free software)”。所謂的“自由”,也並不是完全沒有限制。
“開放源碼”軟件的傳播通過一定的許可證來進行規範。有
很多種不同的“開放源碼”軟件的許可證形式,其中最常見
的是GPL許可證(參考文獻[7])和FreeBSD許可證。

  Linux的成功已經證明,開放源代碼是一種有效的軟件開
發方式。開放源代碼不僅僅適合於小型軟件,對於操作系統
這樣的大型複雜軟件同樣適用。實際上,開放源代碼已經形
成了一整套完整的軟件開發模式,並有相應的工具軟件(都
是自由軟件),可以支持互聯網上眾多的互不相識的人們共
同開發一個完整的軟件。

  對於我們來說,開放源代碼方式最具有吸引力的地方在
於:通過這種方式可以組織眾多分散的自然語言處理研究者
、愛好者,利用他們的業餘時間來做一些對於推動我國自然
語言處理研究有益的事情。

1‧3 自然語言處理開放資源平臺的目標和意義

  我們提出的自然語言處理開放平臺和“開放源代碼”還
不完全是一回事。因為在我們設想的開放平臺上,不僅僅有
源代碼,還有各種形式的資源,因此我們稱之為“開放資源
平臺”。對於自然語言處理的資深研究者來說,我們希望為
他們提供一個發佈他們的某些(沒有版權問題的)研究成果
的場所;對於自然語言處理的入門研究者來說,我們希望給
他們提供一個學習的環境,提供一個研究工作的起點;對於
自然語言處理的業餘愛好者來說,我們希望給他們提供一個
與專業人士接觸的機會和一個提高研究水平的途徑;對於所
有的自然語言處理研究者來說,我們都希望這是一個互相交
流、共同提高的好地方。

二 開放資源的類型

  建設一個開放資源平臺,首先要把開放資源的類型加以
明確。我們把自然語言處理的開放資源分為兩種類型:一類
稱為靜態資源,一類稱為動態資源。

2‧1 靜態資源

  靜態資源包括以下幾類:(1)源代碼:目前各個領域
都已有大量的開放源碼計劃。在中文信息處理領域方面,我
們只在國外少數幾個網站(Mandarintools,參考文獻[8])找
到了很少的中文處理源代碼,其中最複雜的是一個用Perl語
言編寫的漢語詞法分析器,具有初步的詞語切分和人名識別
功能,正確率不高。其他方面幾乎都還是空白。(2)軟件
工具:各種以可執行程序形式(不含源代碼)提供的應用軟
件和工具軟件。(3)詞典:各種類型的詞典是做計算語言
學研究不可缺少的工具,如分詞詞典、人名地名詞典、語義
詞典、拼音詞典等等。現在真正可用的詞典資源還是非常缺
少的。(4)語料庫:多種形式的語料庫也是計算語言學研
究的基礎。如漢語切分標注語料庫、語義標注語料庫、雙語
語料庫、樹庫等等。(5)標準。(6)論文:指正式發表的
學術論文。(7)技術報告:指正式發表的技術報告。(8)
技術資料(非正式發表):指非正式發佈的技術資料,如各
種課程講義、學術報告、工程技術文檔、技術規範等等。這
些文檔的重要性不亞於任何一種正式發表的論文和技術報告
。推動自然語言處理作為一門學科的發展,迫切地需要各種
形式知識的積累。實際上,Linux下面的文檔計劃和源碼計劃
的同步開展已經提供了成功的案例。(9)對於文檔類資源
,開放平臺應提供完善的管理和檢索功能。(10)網絡鏈接
:由於版權問題,我們不可能也沒有必要把所有有用的資源
都放在這個平臺上。對於一些網上資源,可採用網絡鏈接的
方式提供給用戶,並給出簡短的文字說明。

2‧2 動態資源

  所謂動態資源,也稱為項目,就是以前面所說的開放源
代碼形式進行組織的工程項目。項目的開發是一個動態的過
程:人員上是動態變化的,時間上有起點和終點,並且按照
項目開發的一般過程分為幾個階段。不過,我們這裏的項目
所開發的,不僅僅是一個軟件,也完全可以是其他的資源。
例如語言資源(詞典、語料庫)、文檔等等。下面我們通過
兩個例子來說明自然語言處理開放平臺上的資源開放工作:
(1)《Computational Linguistics》論文摘要翻譯項目。大量
閱讀論文是進行科學研究不可缺少的過程。不過由於英文水
平和其他方面客觀條件的限制,大多數國內的學者都很難像
外國研究者那樣掌握那麼多的論文。即使對於一些英文程度
較好的人來說,閱讀英文文獻的速度也大大低於閱讀中文文
獻的速度。因此我們希望通過這個平臺,組織一些項目,翻
譯一批經典學術論文的摘要。由於網上的人員層次較全面,
可以找到各個領域的研究人員,因此這個工作由網上的虛擬
研究小組來承擔,甚至比任何一個具體的研究小組更為合適
。(2)中文樹庫項目。語言資源多種多樣。對於中文的分
詞系統來說,所需的資源包括切分標注好的語料庫、各類型
的專名庫,詞典等;對於句法分析系統來說,除了與詞法部
分共享的詞典資源外,還需要語法規則庫、進行過句法標注
的語料庫──樹庫(Marcus et al‧,1993)。樹庫的開放需
要耗費大量人力物力,其組織管理、規範制定、質量保證都
是非常困難的。和開放源碼的"Given enough eyeballs,all bugs
are shallow"的思想(Raymond,1997)相平行,我們認為,把
語言資源放置於眾人審視的目光之下,最有利於資源質量的
提高,同時也最有利於規模的擴大。同時,吸收眾多的研究
者利用業餘時間,每人貢獻一點力量,也可以用一種低成本
的方式開發出較大規模的樹庫。

  以語料庫資源的級聯式加工模型為例,我們可以設想一
個多機並行,人機互助的語料庫加工過程,如下圖所示。開
放利於發展。語料資源如此,語言知識庫資源也不例外。以
語法規則庫為例,就是需要很多人討論一道兒來調整的知識
庫。可以說,使規則系統完善的最好方法:將其開放,經受
檢驗。

三 平臺的組織形式

  自然語言處理開放平臺以網站形式呈現出來。
3‧1 目錄管理

  為了訪問者查找的方便,平臺上所有的資源以領域分類
目錄的形式進行管理,同時提供站內搜索引擎,可以方便地
進行檢索。我們初步設計的領域分類目錄形式如下:
  (1)總論,包括:學術刊物,會議信息,好書推薦,
網絡資源;
  (2)基礎理論,包括:統計機器學習,漢語語言學;
  (3)語言資源,包括:語料庫,詞典;
  (4)關鍵技術,包括:漢字編碼,詞法分析,句法分
析,語義分析;
  (5)應用系統,包括:文本分類和聚類,信息檢索和
過濾,信息抽取,問答系統,拼音漢字轉換系統,機器翻譯


3‧2 用戶管理

  用戶分為五類:網站管理員、領域負責人、項目負責人
、普通註冊用戶、未註冊用戶。整個網站設置一到多名網站
管理員,負責整個網站的日常維護工作。對於領域分類目錄
中每一個領域,設置一到多名領域負責人,負責該領域資源
的日常維護工作。領域負責人有整理資源、刪除資源、建立
子領域的權限。每個項目設置一個項目負責人,負責管理項
目的開發工作。任何註冊用戶都可以申請設立一個項目並擔
任項目負責人,一旦項目被批准,就可以吸收其他註冊用戶
加入項目並開始工作。普通註冊用戶可以瀏覽、下載、上載
資源,參加項目。未註冊用戶只能瀏覽和下載資源,不能上
載資源,不能參加項目。平臺設立一個論壇,所有註冊用戶
都可以在上面發表文章,進行交流。平臺還提供一個郵件列
表(mailing list)功能,用戶可以按照自己的興趣訂閱郵件列
表,通過郵件方式進行討論。

3‧3 項目管理

項目管理採用成熟的開放源代碼的管理方式。利用版本管理
軟件實現開發人員之間的同步。

四 平臺的實現方案

  平放平臺建立在一個Linux服務器上,客戶端可以使用
Linux、Unix或Windows平臺。開放平臺上的項目運行環境與
平臺本身的操作系統環境無關,可以由項目任意指定。Web
服務器採用Apache服務器,動態頁面通過PHP+MySQL的方
式實現。平臺上所有的靜態資源都通過數據庫MySQL進行管
理。平臺用戶也通過MySQL進行管理,用戶權限控制通過
Linux本身的權限控制實現。MySQL數據庫中主要有以下幾個
數據表:用戶數據表;學科數據表;資源數據表;項目數據
表。

  項目的管理較為複雜,主要通過代碼版本管理軟件CVS
來實現。該軟件用於具體的項目中所有文件的管理,可以實
現文件的歷史記錄保存、版本比較、多人協同開放等等。作
為一個源代碼版本管理軟件,CVS在以Linux為代表的開放源
代碼運動中起到了重要作用。與Microsoft的Visual SourceSafe
相比,CVS有如下優點:1‧支持Internet上的開發,而VSS只
支持局域網上的開發;2‧權限管理功能更強;3‧支持多人
同時Check Out一個文件;4‧免費。源代碼版本管理軟件雖
然是為源代碼管理而設計的,實際上可以用於任何文本或數
據資源的管理,特別適合於文本資源的管理。自然語言處理
面對的是大量的文本,而CVS最適合於對文本並發編輯。用
CVS就可以把項目中的代碼資源、語言資源和文檔資源都統
一管理起來了。

  站內搜索引擎、論壇和郵件列表都利用已有的自由軟件
,結合平臺的具體需要定制而成。例如論壇的用戶與平臺本
身的用戶採用一套管理方式,用戶加入論壇不必另外註冊。
這種定制的能力也是開發源代碼給我們帶來的方便。可以看
到,整個平臺都是在開發源代碼軟件的基礎上實現的。

五 進展

  目前,自然語言處理開放資源平臺已經開始試運行。我
們已經為該平臺註冊了永久域名:www.nlp.org.cn。現階段,
平臺的各項功能還不完善,還沒有完全達到我們預定的目標
,整個平臺正在不斷的完善過程之中。到目前為止,已有註
冊用戶40人。平臺上已有上載的靜態資源28項,項目2個,
分別是:詞法分析器項目和概率句法分析器(白碩,2002)
項目。這兩個項目的初始源代碼都由中科院計算所自然語言
處理研究組提供。其中,詞法分析器已經比較成熟,可以實
現完整的詞語切分、未定義詞識別、詞性標注功能,而且正
確率很高(張華平等,2002;Zhang et al‧,2002)。概率句
法分析器也實現了一個功能相當完善的系統,只是由於訓練
語料庫較小,實驗效果還不太令人滿意。概率句法分析依賴
於樹庫的規模,句法分析器在進一步改進的過程中遇到的最
大問題就是數據稀疏的問題。這個問題的根本解決方案也就
是樹庫的建設。所以與句法分析器項目相伴,我們將會建立
一個樹庫建設項目,初始樹庫是我們曾經開發的一個小規模
樹庫,項目基本構思前面已經介紹過。除了這兩個項目,我
們還將會把我們以前開發機器翻譯系統中積累的一些資源、
文檔也公開出來。另外,我們還打算設計一些項目,徵集一
些志願者作為項目負責人進行開發。

六 總結和討論

  開放式開發的好處已經在軟件技術的各個領域得到了證
明。自然語言處理資源開放平臺的目標就是在本領域探索一
條開放和協作的道路。我們首先把資源加以分類,對各自的
屬性加以分析。在此基礎之上,我們提出了完整的平臺設計
方案並已基本實現。目前平臺已經開通並試運行,已經上載
了一批資源,並啟動了兩個項目。平臺試運行時間不到兩周
,已經吸引了很多研究人員(包括海外研究人員)進行註冊
,並與其他一些專業站點實現了互相鏈接。

  開放式開發的核心是人,網絡只是提供了一種最佳的媒
介。開放平臺的長遠發展需要眾多項目的加入,需要好的思
路的匯集。自然語言開放平臺的真正成功,取決於它能否吸
引到足夠的“人氣”,能否不斷地更新、不斷的發展。真誠
希望我國有志於自然語言處理的研究人員,特別是廣大的學
生,能主動關心這個平臺,為這個平臺的發展出一份力,共
同促進中國自然語言處理研究水平上到一個新的臺階。

致謝

感謝計算所軟件室自然語言處理組的李繼鋒、張華平、王樹
西、李素建、王長勝等,大家熱烈的討論促進了這項工作的
開展,大家的寶貴意見都在文章中得到了體現。特別感謝張
奕滔同學,作為平臺的主要建設者,他做出了更為詳細的設
計並加以實現,付出了辛勤的勞動。感謝室主任程學旗老師
的大力支持。
-------------------

【參考文獻】

[1]
Eric,S‧Raymond‧1997‧Cathedral and Bazzar
http://www.tuxedo.org/esr/writings/cathedral-bazaa
[2]
M‧Marcus,B‧Santorini,and M‧Marcinkiewicz‧1993‧Building a Large Annotated Corpus of English:The Penn Treebank
Computational Linguistics,19(2):313─330,1993
[3]
張華平,劉群‧基於N─最短路徑方法的中文詞語粗分模型[J]‧中文信息學報,2002年16卷5期,77─84
[4]
Kevin Zhang(Zhang Hua─Ping),Qun Liu(Liu Qun),Hao
Zhang(Zhang Hao)‧2002‧Automatic Recognition of Chinese Unknown Words Based on Role Tagging;19th International Conference on Computational Linguistics,First SigHan Workshop
;2002─9;臺北
[5]
白碩,張浩‧角色反演算法[J]‧軟件學報,已錄用
[6]
OSI,開放源代碼的定義,
http://opensource.org/docs/osd-sim-chinese‧php
[7]
GNU,許可證,http://www.gnu.org/licenses/licenses.cn.html
[8]
Mandarintools,http://www.mandarintools.com
发表于 2003-12-2 17:48:18 | 显示全部楼层

..

此網在↓
http://www.nlp.org.cn/
Server太慢,資料更新亦慢;喜歡用JAVA。
更奇特的是,此站不接受臺灣人註冊,原來這個也是國家機密ㄚ?
所以,我從不鳥它。
发表于 2004-1-14 11:06:42 | 显示全部楼层

声明

本人是上面提到的"中文自然语言处理开发平台(http://www.nlp.org.cn)”管理员,在此特别声明:我们对来自世界各地的注册者绝对一视同仁,注册被拒绝的原因只有以下几种可能:注册信息不完整(要求使用真实的姓名、单位);重复注册;邮件地址有误,无法收到注册确认信件。事实上,本站已有注册用户近2000人,其中不少是来自台湾。

水电工恐怕对我们有些误会,我们的网址用PHP开发,没有使用Java。
原来的机器比较老,有些慢,现在换了个服务器,虽然还是一部旧机器,不过速度应该快多了。现在网站每天都有200多人次的下载量。欢迎水电工和其他网友来我们的网站交流。当然我们的网站还是有很多问题,特别是界面还不是很美观,我们会逐步改进的。另外,本站以收集资源为主,讨论交流为辅,所以用户会感觉更新比较慢一些。

[ 本贴由 cnlp 于 2004-1-14  11:36 最后编辑 ]
发表于 2004-1-14 12:59:54 | 显示全部楼层

..

這聲明對我沒實際用處,我收到貴站的E-Mail內容似乎不是這樣;或許您
應先問問使用者情況再查您的Log才有用。↓
我知道前99隻烏鴉是黑色的,所以第100隻一定也是黑色的(休姆斷頭台)
另提Java的使用在Download處,慢且常出錯。
貴站的努力我很讚賞,原本也有些意見與程式想交流;惟已無心於此。
发表于 2004-1-17 21:31:08 | 显示全部楼层
那就都来妹子论坛交流好了:)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-22 03:16 , Processed in 0.113896 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表