Re
http://artvine.com.tw/artvineword0u.htm一、現在已經把測試用的漢字→音標母檔,從原來的
7000字美國漢語拼音(也就是朋友們不段指出小錯誤
的版本),抽換為目前的新版本:
(一)首先要說明,大陸官方學術單位並無提供類似基
本資料,增加許多困難:無規範依據、字數數量太少
;目前使用數據為敝書屋整理爬梳而來。希望大陸朋
友多鼓勵當局此類協同研究。
(二)規格:
(A)漢字(一至多音標)=20940字(簡體字,以後若加入
繁體字,將突破59000字)
(B)分詞庫句數=448306句(應該不輸大型研究了)
(C)英漢─漢英(字)詞典共24329句(字)
(D)目前(A)部份已經全部改編為大陸漢語拼音的標準
音標。
二、目前的收穫與缺限:
(一)u的v2/v3/v4音已增加標注(請試試<女兒>)
(二)隨分詞庫的括充,句間分詞將較精密。
(三)新字庫補入後應不至於有缺字缺音標問題。
(四)音標的分格號'目前還沒辦法在
分詞情況下解決(請試試<女兒>);必需等連結字典後
才能解決。
(五)由於要過濾近448000筆分詞資料,運算速度將會
較慢;請試以大字數資料測試!
三、TODO
(一)輸出效果的改善。
(二)字典檔運用的思考。
(三)加入搜尋功能。
敬請多多抓錯並提供意見!