湘里妹子学术网

 找回密码
 注册
查看: 3833|回复: 0

加个空格好不好?—谈谈词界对中文信息处理的重要性(北大中文BBS)

[复制链接]
发表于 2004-4-3 14:49:22 | 显示全部楼层 |阅读模式
http://chinese.pku.edu.cn/bbs/thread.php?tid=12063
水電工按↓
通常語言研究者會把此類討論重點放在符碼特性(拼音/拉丁/漢語..)的
特性上,因為他(她)們對語言太專業與敏感;在下用一個處理Codes
的中性角色略提幾例↓

加空格是方法與手段,對現實中的使用者是不公平的,也不要隨便
就羨慕拼音符碼(在我們Coder來說,中文何嘗不能定義為拼音Codes?
人類的所有符號在我們看來只是2/4/8/16/32/64/128...變碼的數理符號
組合,只是看您如何定義);目前早有小巧的Win32 exe專門處理漢字分
隔之事,而在Server Side,設計者只要改幾個字就可達到分隔目的。

那提倡空格的目的何在呢?簡言之↓
提高NLP操作中的符碼辨視率。

舉個例子:

大陸有位語言學者名叫“沈陽”(未知真住在瀋陽?),如果我把他的文
章用簡轉繁(NLP),翻成繁體後,我的Server永遠搞不清礎這是人名(沈陽
)還是地名(瀋陽)或兩者皆是(沈陽的沈陽/瀋陽的沈陽...歧異)。另在它貼
POST似乎湘里站長討論到“搜尋張萬年”與“搜尋
一(N)張萬年曆(歷)”的問題,則屬較單純的分
詞錯誤現象(也就是該SE的分詞詞庫的人名部份還待加強)。

以上例子可能是老生常談;但在前一個例子,〈中國語文研究學會〉文
獻稿件給了我很大的幫助↓
他們把文稿中的單名人名用‧分隔(沈‧陽),所以我的Server
馬上可判別其為人名。

正如同中國前輩的習慣:水電工 撰(著/譯...),聰明的留一個半型還是全
型的空隔,至今網路時代仍有大用。

所以說空格有用,怎麼用?我比較傾向由詞庫控管者負責:特殊組群↓
人名、地名、廠牌、科學符號.....,但其輸出(OUTPUT)必然要讓使用
者覺得不悖習慣,我認為不是很難的工作。

有人常嘆中文NLP比起西文有特殊困難,但我說個小秘密,在不斷切分
定詞性之餘,別忘了程式還有修正能力(Fix);也就是切完之後,我們還
可讓它進行N次的修正過程。而這一點相對於西文,中文的古今文字修
補的成功機率較高,也就是我提過的字詞窮舉法(這個工作需要對中文
古今文獻的專業人員來作:如有名的“下雨天 留客天...”名句,當古
文有所本,我們就把整段當成定範(Norm),另如“髮(發)理得(的)好”
句亦如是;此時不存在切分問題),此時已較接近AI了。

(但真的死局病句如以前所提“這船只(隻)到香港”、“這只(隻)是..”,
在目前NLP與SE各層面的處理,因難以掌握前後Context的龐大變數,似
乎還難以解決;大陸學者比較少考慮這問題,也許是覺得只是繁簡的小
問題,但如上兩句只是第一層語用的難題,連簡體使用者也將受邏輯上
的選擇性認知差異。第二曾語用即在於“趙雲(云)云:”“衛子雲(云)云:”的Mind Images的塑造差異....此暫不談)

而這個特性,目前微軟/GOOGLE...並未發現,還笨笨的在用機率配價,
而遺憾的是大陸學界目前對此領域的操作效率慢,討論也未及重點,似
有遺憾!
所有思考與操作的比較(Demo)在↓
http://artvine.com.tw/images/uu2.htm
歡迎與Word作字詞分詞校正比較!

[ 本贴由 水電工 于 2004-4-3  17:02 最后编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-5 10:21 , Processed in 0.112847 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表