湘里妹子学术网

 找回密码
 注册
楼主: Artvine

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
发表于 2003-10-23 18:47:54 | 显示全部楼层
简繁转换的成功率非常高,好东东。纳兰庋的建议不错,如果文言分词能运有到句读上,那以后阅读白文可就省不少事了,呵呵。
发表于 2003-10-23 19:07:43 | 显示全部楼层
不知水电兄现在还需要哪方面的词库?
我们能否帮上什么忙?

我手头上有一个完整的常用词词库(收词14238条,含常用成语)。
不知道对兄有无用处?

另,刚刚在网上寻得一个六万词库:
http://www.inputsoft.com/down/lw_ck6.zip

中文词库素材 v2.5
收词量为:130191
文件大小:2.6M(其中词库文本982K)

    中文词库素材是一个汉语常用词库,收录词汇量超过10万,另外还自带了一个拼音加加输入法,黑马公司的难读字查音工具。利用一些输入法的“词组导入”功能,你可以给自己的输入法扩充词库,让它更好地为你服务。该词库可成功添加到紫光拼音,拼音加加,智能陈桥,五笔字型等多种输入法内,对于习惯词组输入法的电脑用户有很大的帮助.他可以在不改变用户的输入法习惯的同时,大幅度提高打字的速度和效率,对于拼音输入法,它可以大大降低用户使按翻页键的次数,让拼音打字有如行云流水。

下载网址:
http://sd-http.skycn.net/down/zwcksc25.exe

    下载后可使用WinRAR选择性地解压,其中“中文词库素材2.5\词库\标准词库\不含汉语拼音的标准词库.TXT”才是包含十三万词语的词库文本。
    以上均为简体中文输入法中使用到的词库,水电兄就看能否用得上了。
发表于 2003-10-23 19:25:48 | 显示全部楼层

呵呵,有点差异哦:)

水電工 于 2003-10-23 09:26 PM 写道:
其實沒那麼麻煩啦!先看前貼偶的研究態度之一:
無先驗規範→意思不是不用規範,而是不把類似
一般語文研究的『詞性分析』之類的規範來框住
想法(實際上那也只是三大研究途徑之一);我要
的是字詞連接的語意邏 ...



      看来我们的想法与电脑程序语言的编写之间还有点差异,不过没关系,编出来的程序好用就行,至于这“过程“是如何进行的,我等电脑盲就只能闭嘴了:-P

      今晚-------将拭目以待水电工先生的大作,不打算睡觉了!

:-D:-D:-D
 楼主| 发表于 2003-10-24 02:16:32 | 显示全部楼层

Re

已大幅增加日常、電玩與中醫藥詞庫(每日增加)
隨詞庫的增肥,請大家不吝把不合理的字詞列出,
以節省校對的時間!

沛公 軍 霸上,未得 與 項羽 相見 。沛公 左司馬 曹無傷 使人 言於 項羽 曰 :“ 沛公 欲 王 關中 ,使 子嬰 為 相 ,珍寶 盡有之 。” 項羽 大怒 曰 :“ 旦日 饗 士卒 ,為 擊破 沛公 軍 ! ”當是時, 項羽 兵 四十萬 ,在 新豐 鴻門;沛公 兵 十萬 ,在 霸上。范增 說
項羽 曰 :“ 沛公 居 山東 時,貪於 財貨,好 美 姬。今 入關 ,財物 無所取,婦女 無所幸,此 其志 不在 小。吾令 人望 其 氣,皆為 龍虎。成 五彩,此 天子氣 也 。急擊 勿失 !”
--------------------↓
RUBY+Image TEST!
http://www.xlmz.net/forum/viewthread.php?tid=1571

學術單位相關測試↓
北京语言大学计算机科学与技术系(不能動?)
http://www.blcu.edu.cn/jsjdepart/lzy/index.html

中科院計算所軟件室
句法分析在线演示
http://mtgroup.ict.ac.cn/~zhanghao/parclass/parserform.html
汉语词法分析系统ICTCLAS
http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm
在线机器翻译
http://mtgroup.ict.ac.cn/online/
在线互译字典
http://mtgroup.ict.ac.cn/dict/

臺灣大學資訊工程學研究所自然語言處理實驗室
中文斷詞及人名、組織名辨識系統
http://nlg9.csie.ntu.edu.tw/CNE_index.html
臺灣本土語言互譯及語音合成系統
http://nlg3.csie.ntu.edu.tw/systems/TWLLMT/

[ 本贴由 水電工 于 2003-10-24  09:27 最后编辑 ]
发表于 2003-10-24 02:18:59 | 显示全部楼层

太棒了!

继续等待。。。。。。

有空一定来挑刺!节省时间,没错!


:-P:-P:-P
发表于 2003-10-24 18:10:22 | 显示全部楼层

Unicode编码问题已解决^^

不用特殊字体,直接在BBS上显示的国际音标:

øεœæŒ
ηŋΦβðθ
ãẽĩũõỹ
∫כנ
∂Λзç
шÏ

(后面这个可以拿来代替普通话“丝”、‘诗“的韵母)
发表于 2003-10-24 19:44:12 | 显示全部楼层

就这么几个?

偶没记错的话,国际音标一共有103个,其中元音35个,辅音78个,风雪里先生能否全部找来帖上呀?
全部找齐后可以在这里试试用国际音标注音,看看到底好用不?
谢谢!
 楼主| 发表于 2003-10-25 03:49:44 | 显示全部楼层

TEST UNICODE!

wúfèng gāngguǎn(无缝钢管)

huánjìng bǎohù guīhuà(环境保护规划)

jīngtǐguǎn gōnglǜ fàngdàqì(晶体管功率放大器)

Zhōnghuá Rénmín Gònghéguó(中华人民共和国)

Zhōngguó Shèhuì Kēxuéyuàn(中国社会科学院)
---------------------↓
還訴不行
能否把1/2/3/4/5/音標在下面?

[ 本贴由 水電工 于 2003-10-25  03:50 最后编辑 ]
发表于 2003-10-25 08:02:04 | 显示全部楼层
水电先生标注的是汉语拼音呢,
偶是想标注国际音标哟:)
 楼主| 发表于 2003-10-25 11:04:04 | 显示全部楼层

Re

對了,如果ISP是在大陸境內(不含港澳)的話,請把規
格資料E-Mail給我(因為大陸某些網路是連港澳都不通的)
artvine@artvine.com.tw
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-25 19:38 , Processed in 0.065159 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表