湘里妹子学术网

 找回密码
 注册
查看: 91804|回复: 229

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
发表于 2003-10-20 10:09:36 | 显示全部楼层 |阅读模式
漢語分詞標注、眉注、音標與英文詞意對應程式測試
http://artvinedata.com/seggb.htm
http://artvinedata.com/seggb.htm



由於更換主機,以上功能都改置為:

汉语分词标注及字典连结测试(GB)
http://artvine.org/artvineword0gb.htm
汉语分词标注测试(GB/只作分詞和注音)
http://artvine.org/artvineword0u.htm

[ 本帖最后由 mengqinghao 于 2007-7-25 06:13 编辑 ]
发表于 2003-10-20 11:18:55 | 显示全部楼层

谢谢水电仁兄!

水电仁兄提供的这个對應程式我进去试了一试,真的挺方便的!谢谢!
      
      如果再编一个中英文整篇文章的对译程序或中文字词后加注国际音标的程序就更方便了。
      
      对方言研究来说,国际音标的注音很重要。虽然潘悟云先生研究出了一套国际音标注音系统,但如果能有一个像水电兄这套对应程序一样方便的国际音标对应程序的话那简直是解决了方言研究的注音难题。
     
      我想,这个问题肯定是比较复杂的,水电仁兄是吧?



:-O:-O:-O
发表于 2003-10-20 16:58:56 | 显示全部楼层

向尊敬的水电工先生讨教

俺也来试试这个程序吧,哎呀,怎么搞的,明明用的是“字词上方眉注拼音”转换,怎么“移植“到这里就变成了“字词后面加注拼音”了?在水电先生网站里都转换得好好的呢,复制到论坛里就变样了,为何呀?


关guan1于yu2 爱ai4情qing2

艾ai4青qing1

这zhe4个ge4 世shi4界jie4 ,,
什shi2么yao1 都du1 古gu3老lao3 ;;
只zhi3有you3 爱ai4情qing2
却que4 永yong3远yuan3 年nian2轻qing1 。.

这zhe4个ge4 世shi4界jie4 ,,
充chong1满man3 了liao4 诡gui3谲jue2 ,,
只zhi3有you3 爱ai4情qing2
却que4 永yong3远yuan3 天tian1真zhen1 。.

只zhi3要yao4 有you3了le5 爱ai4情qing2 ,,
鱼yu2 在zai4 水shui3中zhong1 游you2 ,,
鸟niao3 在zai4 天tian1上shang4 飞fei1 ,,
黑hei1夜ye4 也ye3 透tou4明ming2 。.

失shi1去qu4 了liao4 爱ai4情qing2 ,,
断duan4了le5 弦xian2 的di4 琴qin2 ,,
没mei2有you3 油you2 的di4 灯deng1 ,,
夏xia4天tian1 也ye3 寒han2冷leng3 。.



关于爱情

艾青
  
这个世界,
什么都古老;
只有爱情
却永远年轻。

这个世界,
充满了诡谲,
只有爱情
却永远天真。

只要有了爱情,
鱼在水中游,
鸟在天上飞,
黑夜也透明。

失去了爱情,
断了弦的琴,
没有油的灯,
夏天也寒冷。
 楼主| 发表于 2003-10-20 22:08:32 | 显示全部楼层
一、這個嚐試只是先看看語文研究中的:
(一)分詞(切分)
(二)中文字詞切分的邏輯推演
(三)順道聯結中英字詞典
字詞的注解,放什麼都可以(包括Images)
But
國際音標一般研究者都是以PC的tte(如潘悟雲教授..)
來使用,無法符合Internet的要求。
如果能在此貼的出來的符號,才能使用;
請貼一些出來。

眉注是以RUBY方式作出,必須在開放HTM的地方或如
FRONTPAGE的編輯器才能使用。

P.S.
貴站的Server在大陸算是快的,最近想在大陸租一分機
(因大陸某些ISP不能連外),是否能惠告規格與價錢?
发表于 2003-10-20 22:35:23 | 显示全部楼层
水电仁兄是说要贴点网络中能显示的国际音标?

    这个好办,但问题是能支持的毕竟不多,在大陆的输入程序中几乎都能找到,没什么新意:P

    倒是以前在一个网页中看到过完整的一套国际音标,应该是调用了某个音标字体才能显示出来的,如果电脑中没有该字体,那也无效。

    PS:商业秘密属内部交流,短消息联络好吗? :-P


:lol::-O|X|
发表于 2003-10-21 08:22:28 | 显示全部楼层
这个程序非常好用,感谢水电工先生。正如湘里妹子所言,能加注国标音标就再好不过了。关于国际音标的显示问题,北大中文论坛那里讨论过许多次,回头找找看。

另外,多音字方面的辨别还需进一步完善,比如上面艾青的诗中“什么”成了shi2yao1 。
发表于 2003-10-21 09:28:35 | 显示全部楼层

俺也发现了一个问题:)

(一)了-------了liao4 :
     
     1、如果带声调是读上声(第三声),不是读去声(第四声);
     2、在这首诗里,最好是读轻声-----le

充chong1满man3 了liao4 诡gui3谲jue2 ,,      

失shi1去qu4 了liao4 爱ai4情qing2 ,,

断duan4了le5 弦xian2 的di4 琴qin2 ,,

      以上三句中的“了”,有两句标的是“liao4“,有一句标的是“le5”,系统是凭什么来辨识或选择多音字的读音的呢?这个问题倒是挺有趣的,俺特想弄个明白呢。请水电工先生回答一下好吗?谢谢!

      当然,在注音时可以标原调,不显示轻声词,但是,像“了”这类字的读音现象的注音问题如何正确地解决呢?




(二)都-----都du1  

什shi2么yao1 都du1 古gu3老lao3 ;;

这里应该读-----dou1,不读du1

也是多音多义字的问题呢。

给水电工先生添麻烦了,盼回音。




:cool::cool::cool:

[ 本贴由 梦的轻波 于 2003-10-21  13:53 最后编辑 ]
 楼主| 发表于 2003-10-21 14:35:24 | 显示全部楼层
感謝大家的測試和寶貴的意見,各位懂語文學的意見更好;
目前把這程式也與北大、清大等學電算語言的朋友討論,
可是得到的只會是自然語言處理的程式演算討論,碰不到
用的問題;可見現在許多新東西的發展要多領域合作的。

一、可能各位太高估在下了,這程式前天才弄出來,急就
章的是用美國華語教學的拼音表來測試(11560字),和大
陸的拼音法是不同的;目前很需要大陸標準版的字音拼音
表,希望各位能幫忙找找!其終極目標是同時幫字詞標注
大陸/ㄅㄆㄇ/美國漢語...音標。只要有母本(如語音學拼音
符號..),在技術上是不難的(隨時可分開測試)。

二、目前所使用的分詞方法算是很先進的,隨時可議據需
求線上改切分;也就是如上貼所問的,一字多音或詞間變
音的變化技術上是可簡單校正的。請比較:(中科院和清
大的都掛了)
北大计算语言所
汉语文本切分与词性标注
http://icl.pku.edu.cn/nlp-tools/segtagtest.htm

三、所提到的北大中文BBS:
语音软件·国际音标IPA字体·学习IPA软件
http://chinese.pku.edu.cn/bbs/thread.php?tid=3398
只找到這些碼:
øεœæŒηŋΦβðθãẽĩũõỹ∫כ  נ∂ Λ з ç
語文學者大概聽不懂我在說什麼?→用那些
PC Win/System tte的Software只能作Print使用,跟在
WORD內造區位碼字一樣,檔案本質是Image;所以在
Internet上不能傳播;我想Unicode內應有資料,等我
有空再去找吧。
发表于 2003-10-21 16:58:01 | 显示全部楼层

斗胆与水电工先生探讨两个问题:)

刚才又去试了一下水电工先生介绍的这个程序http://icl.pku.edu.cn/nlp-tools/segtagtest.htm,与水电工先生的设计程序没有什么区别啊,假如水电工先生的"字词上方眉注拼音"能成功地转贴到网上的话,那将会给中小学特别是小学语文教学带来很大的方便.可惜"上方"转到网上变成了"字词后注音"了.

      我们所要探讨的问题是:      
     
      一、在现代汉语中,语素、字、词和短语的区分问题一直还比较麻烦:
          1、语素和汉字
          2、语素和词
          3、字和词
          4、 语素、字、词和短语
     这些区分不弄清楚,那以上程序对字词的切分就没有科学性,必然就会影响到汉语拼音拼写规则中“分词连写“的问题。
     
     字词的切分如果找不到一个带普遍性的规律,下一步的“(二)中文字詞切分的邏輯推演“就几乎不可能了,至于“(三)順道聯結中英字詞典“,那是建立在前两个方面成功的基础上的“顺带”,我想那转换起来是比较容易的了。

     
     二、如果这个程序主要是解决汉语字词注音的问题,它的必要性可以进一步探讨。因为,目前国内语文教科书及市场上流行的拼音读物给汉字注音可以采用两种方法:
      1、分词连写
      2、不分词连写,一个汉字注一个拼音
以上两种注音方法都是采用------上方(或下方)眉注。
      
      如果可以用第二种方法给汉字注音,那分词(切分)注音主要是解决什么问题呢?意义是什么呢?

      
      国家颁布了《汉语拼音正词法基本规则》(1996--07--01开始实施),其中对双音节词、三音节词、四音节以上表示一个整体概念的名词、 单音节词重叠、动词的ABAB式、形容词的AABB式、四言成语、熟语等等的拼写规则都作了比较明确的规定,我想,可以作为设计以上程序的参考吧?

     也许,电脑的程序设计与我以上谈到的这些根本就风马牛不相及,但不管怎样,我想最终的结果是在于运用。如果设计程序能很好地为语言运用的实际服务,那才是有意义的和有价值的。

     个人浅见,请水电工先生指正。


;|;|;|
发表于 2003-10-21 17:40:43 | 显示全部楼层
国际音标资料集锦:
http://www.xlmz.net/forum/viewthread.php?tid=1551

汉语拼音资料集锦:
http://www.xlmz.net/forum/viewthread.php?tid=1550

声调字母:
ā á ǎ à    ō ó ǒ ò    ē é ě è ê
ī í ǐ ì     ū ú ǔ ù    ǖ ǘ ǚ ǜ ü
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-20 05:49 , Processed in 0.114922 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表