湘里妹子学术网

 找回密码
 注册
楼主: Artvine

國際音標(IPA)從ITT抽取至HTM的展示(測試成功!)

[复制链接]
 楼主| 发表于 2003-11-6 00:15:35 | 显示全部楼层

Re

http://artvine.com.tw/artvineword0u.htm

一、現在已經把測試用的漢字→音標母檔,從原來的
7000字美國漢語拼音(也就是朋友們不段指出小錯誤
的版本),抽換為目前的新版本:
(一)首先要說明,大陸官方學術單位並無提供類似基
本資料,增加許多困難:無規範依據、字數數量太少
;目前使用數據為敝書屋整理爬梳而來。希望大陸朋
友多鼓勵當局此類協同研究。
(二)規格:
(A)漢字(一至多音標)=20940字(簡體字,以後若加入
繁體字,將突破59000字)
(B)分詞庫句數=448306句(應該不輸大型研究了)
(C)英漢─漢英(字)詞典共24329句(字)
(D)目前(A)部份已經全部改編為大陸漢語拼音的標準
音標。

二、目前的收穫與缺限:
(一)u的v2/v3/v4音已增加標注(請試試<女兒>)
(二)隨分詞庫的括充,句間分詞將較精密。
(三)新字庫補入後應不至於有缺字缺音標問題。
(四)音標的分格號'目前還沒辦法在
分詞情況下解決(請試試<女兒>);必需等連結字典後
才能解決。
(五)由於要過濾近448000筆分詞資料,運算速度將會
較慢;請試以大字數資料測試!

三、TODO
(一)輸出效果的改善。
(二)字典檔運用的思考。
(三)加入搜尋功能。

敬請多多抓錯並提供意見!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-27 21:56 , Processed in 0.090454 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表