湘里妹子学术网

 找回密码
 注册
楼主: Artvine

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
 楼主| 发表于 2003-10-21 21:31:41 | 显示全部楼层
請問哪種拼音法才對?(A/B偶看不懂)

A.
前一段时间
qián yī duàn shí jiān  

B.
世界在前进
shi-hl jie-qahq zai-v qian-hn jin-aiib

C.
世界在前进
shi4jie4 zai4qian2 jin4
发表于 2003-10-21 22:29:37 | 显示全部楼层

呵呵,我来分析一下

A、
前一段时间
     
     
这个短语可以有两种分析:
   
     1、由三个词组成:前   / 一段   /时间
        理由:可以有“后一段时间”的说法,所以这个短语由三个词组成,如果按汉语拼音正词法分词连写的规则,就要这样注音:
         
           qian2    yi1duan4    shi2jian1

(说明:因为一时找不到带声调的字母了,暂时就用1234代替声调符号吧)

    2、由两个词组成:   前一段 /  时间
       理由:可以把“前一段”看成是一个表示整体概念的三音节结构,表示一个时段,可以这样注音:
      
          qian2yi1duan4     shi2jian1


B.
世界在前进
shi-hl jie-qahq zai-v qian-hn jin-aiib  

     
     这是按一字一音来注的,每个音节短横后面的代号我也看不懂:)会不会是用以表示声调符号的电脑程序语言?

这个短语如果分词连写应该是:世界  / 在 / 前进

            shi4jie4    zai4     qian2 jin4

C.
世界在前进
shi4jie4 zai4qian2 jin4


C种从排列上看不出是分词连写还是一字一注。



:-P:-P:-P
 楼主| 发表于 2003-10-21 23:13:24 | 显示全部楼层
有些問題等下再詳細討論...
版主能否開放我發言的HTML權限?
這樣比較能討論眉注的應用說明。
发表于 2003-10-21 23:33:51 | 显示全部楼层

假设。。。。。。

请问水电仁兄:
      如果完全按照国家颁布的《汉语拼音正词法基本规则》来设计汉语字词的切分,以解决汉语注音既分词连写的问题,在编写电脑程序时不知技术上会不会有什么难度?

      在汉语方言学这个领域,我个人认为最急需解决的就是国际音标的注音问题,不能标注国际音标,方言研究的学术探讨特别是方言语音对比研究几乎不能进行。本人目前正在进行的一个项目就正为此而烦恼着。

      水电仁兄如果能编写一套快捷方便易操作的国际音标注音程序,那简直是对语言学研究的巨大贡献!
发表于 2003-10-21 23:34:07 | 显示全部楼层
HTML代码在论坛里是被禁用的,无法手动开启,更无法对单个人设置该权限。
连管理员都不具备HTML代码的权限呢,水电兄看是否有办法解决?|X|
发表于 2003-10-22 12:31:59 | 显示全部楼层

怎么了?

碰到技术问题讨论不下去了?
那怎么办啊?
不讨论了难道?
那可不行哦:)
 楼主| 发表于 2003-10-22 14:22:55 | 显示全部楼层
這兩天本來想好好寫個說明的,可是一方面忙看技術文獻,
一方面喝酒聽戲賞蓮玩金魚,還要抽空陪美眉談天(這當然
最給它重要);又想先作個例子作實際說明。
但,余生有涯,餘(余)生不多(中文死結A)←
因此五短的先敘述如下BOOK11的蚊子,希望多予鞭笞,皮死而厚已。

研究態度:
反對先驗規範、反對機率主義、反對電腦資源浪費;運用白痴化、使用
乞丐化。

基本工作A.
把所有中文字(原28000字+清大36000字)的字音(包括一字多音)
的拼音作出→PY

基本工作B.
擴增詞庫(原6800句+東抓西偷45000句)→WORD(分詞基準)

基本工作C.
建立字詞典(原28000中文)→字句變化音調整工具→DIC

操作方法:最長句迴歸反洗法
無分詞之字→PY+DIC(所有介系、連接詞...以WORD定義後定變音PY)
已分詞之詞→PY+DIC+WORD(WORD視情況,再定義多一字之句定變音PY)
詞+詞→......+1字重新定義
預期解決99.8%的中文

資料庫運用;涉及速度、擴充性、傳播性
使用CVS為檔案→語言學界太依賴OFFICE,轉檔不變且慢;
TXT:HTM:DOC=1:1.7:16
CVS體積等同於TXT,且可作數值運算(同ACCESS)
擴充性→如WORD可隨時換成IMAGES/特殊符號....
所有資料提供線上增刪的彈性→窮舉法,不用機率。

-------------------------------以上是目前作到的和被看到的

國家規範(6676條)越多越節省我的時間→最長句原則
字、句連綴變音→如上述字+詞或詞+詞解決
戲文:"白"(伯)、"了"(憭3)

例外:中文處理第B.死結:
這船只到香港(簡)→"ONLY" or not?
這船只到香港(繁)→"ONLY"
這傳隻到相港(繁)→"A SHIP"

RUBY是一種在HTML上很簡單的排版方法,但用的人還不多,
原先是要用來處理日文字詞的;如果對教學傳播有用,我很
樂意推廣;會儘快作個範例,對HTML有概念的人都會用的(
也是未來XML的基礎規範),W3C的說明在這兒:
http://www.w3.org/TR/ruby/

如果要作語音學的標注,像上面說的技術,當然不難的。
如果能提供:
PY:語音學字對字拼音資料(符號甚至用IMAGES就好了)
WORD:詞(可免)
DIC:(可免)
↑上述所說可把字轉圖(鬼畫符)的程式,可用在下的懶人DA法:
http://artvine.com.tw/gif2.htm
发表于 2003-10-22 17:44:59 | 显示全部楼层

国际《汉语拼音正词法基本规则》

中华人民共和国国家标准GB/T 16159—1996

--------------------------------------------------------------------------------



汉语拼音正词法基本规则

Basic reles for Hanyu Pinyin Orthography
1996-01-22发布 1996-07-01实施
____________________________________________________________

国 家 技 术 监 督 局 发布


1 主题内容与适用范围

本标准规定了用《汉语拼音方案》拼写现代汉语的规则。内容包括分词连写法、成语拼写法、外来词拼写法、人名地名拼写法、标调法、移行规则等。为了适应特殊的需要,同时提出一些可供技术处理的变通方式。
本标准适用于文教、出版、信息处理及其他部门,作为《汉语拼音方案》拼写现代汉语的统一规范。


2 术语

汉语拼音正词法


汉语拼音正词法的拼写规范及其书写格式的准则。《汉语拼音方案》确定了音节的拼写规则。《汉语拼音正词法基本规则》是在《汉语拼音方案》的基础上进一步规定词的拼写的基本要点。

3 制定原则

3.1 以词为拼写单位,并适当考虑语音、语义等因素,同时考虑词形长短适度。
3.2 基本采取按语法词类分节叙述。
3.3 规则条目尽可能详简适中,便于掌握应用。


4 汉语拼音正词法基本规则

4.1 总原则

4.1.1 拼写普通话基本上以词为书写单位。

rén(人) pǎo(跑) hǎo(好) hé(和) hěn(很)
fúróng(芙蓉) qiǎokèlì(巧克力)
péngyǒu (朋友) yuèdú(阅读)
dìzhèn(地震) niánqīng(年轻)
zhòngshì(重视) wǎnhuì(晚会)
qiānmíng(签名) shìwēi(示威)
niǔzhuǎn(扭转) chuánzhī(船只)
dànshì(但是) fēicháng(非常)
diànshìjī(电视机) túshūguǎn(图书馆)


4.1.2 表示一个整体概念的双音节和三音节结构,连写。

gāngtiě(钢铁) wèndá(问答)
hǎifēng(海风) hóngqí(红旗)
dàhuì(大会) quánguó(全国)
zhòngtián(种田) kāihuì(开会)
dǎpò(打破) zǒulái(走来)
húshuō(胡说) dǎnxiǎo(胆小)
qiūhǎitáng(秋海棠) àiniǎozhōu(爱鸟周)
duìbuqǐ(对不起) chīdexiāo(吃得消)

4.1.3 四音节以上表示一个整体概念的名称,按词(或语节)分开写,不能按词(或语节)划分的,全部连写。

wúfèng gāngguǎn(无缝钢管)
huánjìng bǎohù guīhuà(环境保护规划)
jīngtǐguǎn gōnglǜ fàngdàqì(晶体管功率放大器)
Zhōnghuá Rénmín Gònghéguó(中华人民共和国)
Zhōngguó Shèhuì Kēxuéyuàn(中国社会科学院)

yánjiūshēngyuàn(研究生院)
hóngshízìhuì(红十字会)
yúxīngcǎosù(鱼腥草素)
gǔshēngwùxuéjiā(古生物学家)

4.1.4 单音节词重叠,连写;双音节词重叠,分写。
rénrén(人人) niánnián(年年)
kànkan(看看) shuōshuo(说说)
dàdà(大大) hónghóngde(红红的)
gègè(个个) tiáotiáo(条条)

yánjiū yánjiū(研究研究) chángshì chángshì(尝试尝试)
xuěbái xuěbái(雪白雪白) tōnghóng tōnghóng(通红通红)
重叠并列即AABB式结构,当中加短横。
láilai-wǎng往wǎng(来来往往) shuōshuo-xiàoxiào(说说笑笑)
qīngqīng-chǔchǔ(清清楚楚) wānwān-qūqū(弯弯曲曲)
jiājiā-hùhù(家家户户) qiānqiān-wànwàn(千千万万)

4.1.5 为了便于阅读和理解,在某些场合可以用短横。
huán-bǎo(环保——环境保护) gōng-guān(公关——公共关系)
bājiǔtiān(八九天) shíqī-bā suì(十七八岁)
rén-jī duìhuà(人机对话) zhōng-xiǎoxué(中小学)
lù-hǎi-kōngjūn(陆海空军) biànzhèng-wéiwùzhǔyì(辩证唯物主义)


4.2 名词

4.2.1 名词与单音节前加成分(副、总、非、反、超、老、阿、可、无等)和单音节后加成分(子、儿、头、性、者、员、家、手、化、们等),连写。

fùbùzhǎng(副部长) zǒnggōngchéngshī(总工程师)
fēijīnshǔ(非金属) fǎndàndàodǎodàn(反弹道导弹)
chāoshēngbō(超声波) fēiyèwùrényuán(非业务人员)

zhuōzi(桌子) mùtou (木头)
chéngwùyuán(乘务员) yìshùjiā(艺术家)
kēxuéxìng(科学性) xiàndàihuà(现代化)
háizimen(孩子们) tuōlājīshǒu(拖拉机手)


4.2.2 名词和后面的方位词,分写。

shān shàng(山上) shù xià(树下)
mén wài(门外) mén wàimian(门外面)
hé li(河里) hé lǐmian(河里面)
huǒchē shàngmian(火车上面) xuéxiào pángbiān(学校旁边)
Yǒngdìng Hé shàng(永定河上) Huáng Hé yǐnán(黄河以南)
但已经成词的,连写,例如:“海外”不等于“海的外面”。
tiānshang(天上) dìxia(地下)
kōngzhōng(空中) hǎiwài(海外)


4.2.3 汉语人名按姓和名分写,姓和名的开头字母大写。笔名、别名等,按姓名写法处理。

Lǐ Huá(李华) Wáng Jiànguó(王建国)
Dōngfāng Shuò(东方朔) Zhūgě Kǒngmíng(诸葛孔明)
Lǔ Xùn(鲁迅) Méi Lánfāng(梅兰芳)
Zhāng Sān(张三) Wáng Mázi(王麻子)
姓名和职务、称呼等分开写;职务、称呼等开头小写。
Wáng bùzhǎng(王部长) Tián zhǔrèn(田主任)
Lǐ xiānsheng(李先生) Zhào tóngzhì(赵同志)
“老”、“小”、“阿”等称呼开头大写。
Xiǎo Liú(小刘) Lǎo Qián(老钱)
Dà Lǐ(大李) A Sān(阿三)
Wú Lǎo(吴老)
已经专名化的称呼,连写,开头大写。
Kǒngzǐ(孔子) Bāogōng(包公)
Xīshī(西施) Mèngchángjūn(孟尝君)


4.2.4 汉语地名按照中国地名委员会文件(84)中地字第17号《中国地名汉语拼音字母拼写规则(汉语地名部分)》的规定拼写。
汉语地名中的专名和通名分写,每一分写部分的第一个字母大写。


Běijīng Shì(北京市) Héběi Shěng (河北省)
Yālù Jiāng(鸭绿江) Tài Shān(泰山)
Dòngtíng Hú(洞庭湖) Táiwān Hǎixiá(台湾海峡)
专名和通名的附加成分,单音节的与其相关部分连写。
Xīliáo Hé(西辽河) Jǐngshān Hòujiē(景山后街)
Cháoyángménnèi Nánxiǎojiē(朝阳门内南小街)
自然村镇名称和其他不需区分专名和通名的地名,各音节连写。
Wángcūn(王村) Jiǔxiānqiáo(洒仙桥)
Zhōupǐndiàn(周口店) Sāntányìnyuè(三潭印月)


4.2.5 非汉语人名、地名本着“名从主人”的原则,按照罗马字母(拉丁字母)原文书写;非罗马字母文字的人名、地名,按照该文字的罗马字母转写法拼写。为了便于阅读,可以在原文后面注上汉字或汉字的拼音,在一定的场合也可以先用或仅用汉字的拼音。

Ulanhu(乌兰夫) Akutagawa Ryunosuke(介川龙之介)
Ngapoi Ngawang Jigme(阿沛·阿旺晋美) Seypidin(赛福鼎)
Marx(马克思) Darwin(达尔文)
Neton(牛顿) Einstein(爱因斯坦)
Urümqi(乌鲁木齐) Hohhot(呼和浩特)
Lhasa(拉萨) London(伦敦)
paris(巴黎) Washington(华盛顿)
Tokyo(东京)
汉语化的音译名词,按汉字译音拼写。
Fēizhōu(非洲) Nánměi(南美)
Déguó(德国) dōngnányà(东南亚)

4.3 动词

4.3.1 动词和“着”、“了”、“过”连写。

kànzhe(看着) jìnxíngzhe(进行着)
kànle(看了) jìnxíngle(进行了)
kànguò(看过) jìnxíngguò(进行过)
句末的“了”,分写。
Huǒchē dào le(火车到了。)

4.3.2 动词和宾词,分写。

kàn xìn(看信) chī yú(吃鱼)
kāi wánxiào(开玩笑) jiāoliú jīngyàn(交流经验)
动宾式合成词中间插入其他成分的,分写。
jūle yī gè gōng(鞠了一个躬) lǐguò sān cì fà(理过三次发)

4.3.3 动词(或形容词)和补语,两者都是单音节的,连写;其余的情况,分写。

gǎohuài(搞坏) dǎsǐ (打死)
shútòu(熟透) jiànchéng(建成[楼房])
huàwéi(化为[蒸气]) dàngzuò(当做[笑话])

zǒu jìnlái(走进来) zhěnglǐ hǎo(整理好)
jiànshè chéng(建设成[公园]) gǎixiě wéi(改写为[剧本])

4.4 形容词

4.4.1 单音节形容词和重叠的前加成分或后加成分,连写。
mēngmēngliàng(蒙蒙亮) liàngtángtáng(亮堂堂)

4.4.2 形容词和后面的“些”、“一些”、“点儿”、“一点儿”,分写。

dà xiē(大些) dà yīxiē(大一些)
kuài diǎnr(快点儿) kuài yīdiǎnr(快一点儿)

4.5 代词

4.5.1 表示复数的“们”和前面的代词,连写。

wǒmen(我们) tāmen(他们)

4.5.2 指示代词“这”、“那”,疑问代词“哪”和名词或量词,分词。

zhè rén(这人) nà cì huìyì(那次会议)
zhè zhī chuán(这只船) nǎ zhāng bàozhǐ(哪张报纸)
“这”、“那”、“哪”和“些”、“么”、“样”、“般”、“里”、“边”、“会儿”、“个”,连写。
zhèxiē(这些) zhème(这么)
nàyàng(那样) zhèbān(这般)
nàle(那里) nǎle(哪里)
zhèbiān(这边) zhèhuìr(这会儿)
zhège(这个) zhèmeyàng(这么样)

4.5.3 “各”、“每”、“某”、“本”、“该”、“我”、“你”等和后面的名词或量词,分写。

gè guó(各国) gè gè(各个)
gè rén(各人) gè xuékē(各学科)
měi nián(每年) měi cì(每次)
mǒu rén(某人) mǒu gōngchǎng(某工厂)
mǒu shì(某市) běn bùmén(本部门)
gāi kān(该刊) gāi gōngsī(该公司)
wǒ xiào(我校) nǐ dānwèi(你单位)


4.6 数词和量词。

4.6.1 十一到九十九之间的整数,连写。

shíyī十一() shíwǔ(十五)
sānshísān(三十三) jiǔshíjiǔ(九十九)

4.6.2 “百”、“千”、“万”、“亿”与前面的个位数,连写;“万”、“亿”、与前面的十位以上的数,分写。

jiǔyì líng qīwàn èrqiān sānbǎi wǔshí liù
(九亿零七万二千三百五十六)
liùshísān yìqiānqiān èrbǎi liùshíbā wàn sìqiān líng jiǔshíwǔ
(六十三亿七千二百六十八万四千零九十五)

4.6.3 表示序数的“第”与后面的数词中间,加短横。
dì-yī(第一) dì-shísān(第十三)
dì-èrshíbā(第二十八) dì-sānbǎi wǔshíliù(第三百五十六)

4.6.4 数词和量词,分写。

liǎng gè rén(两个人) yī dà wǎn fàn(一大碗饭)
liǎng jiān bàn wūzi(两间半屋子) wǔshísān réncì(五十三人次)
表示约数的“多”、“来”、“几”和数词、量词分写。
yībǎi duō gè(一百多个) shí lái wàn rén(十来万人)
jǐ jiā rén(几家人) jǐ tiān gōngfu(几天工夫)
“十几”、“几十”连写。
shíjǐ gè rén(十几个人) jǐshí gēn gāngguǎn(几十根钢管)

4.7 虚词


虚词与其他词语分写。

4.7.1 副词
hěn hǎo(很好) dōu lái(都来)
gèng měi(更美) zuì dà(最大)
bù lái(不来)
yīng bù yīnggāi(应不应该) gānggāng zǒu(刚刚走)
fēicháng kuài(非常快) shífēn gǎndòng(十分感动)

4.7.2 介词

zài qiánmiàn(在前面) xiàng dōngbiān qù(向东边去)
Wèi rénmín fúwù(为人民服务) cóng zuótiān qǐ(从昨天起)
shēng yú 1940 nián(生于1940年) guānyú zhège wèntí(关于这个问题)

4.7.3 连词

wǒrén hé nóngmín(工人和农民)
bùdàn kuài érqiě hǎo(不但快而且好)
guāngróng ér jiānjù(光荣而艰巨)
nǐ lái háishi bù lái?(你来还是不来?)


4.7.4 结构助词“的”、“地”、“得”、“之”

dà dì de nǚ'ér(大地的女儿)
Zhè shì wǒ de shū.(这是我的书。)
Wǒmen guòzhe xìngfú de shēnghuó. (我们过着幸福的生活。)
Shāngdiàn li bǎimǎnle chīde, chuānde,yòngde.(商店里摆满了吃的、穿的、用的。)
mài qīngcài luóbo de(卖青菜萝卜的)
Tā zài dàjiē shàng mànmàn de zǒu.(他在大街上慢慢地走。)
Tǎnbái de gàosu nǐ ba.(坦白地告诉你吧。)
Tā yī bù yī gè jiǎoyìnr de gōngzuòzhe.(他一步一个脚印儿地工作着。)
dǎsǎo de gānjìng(打扫得干净) xiě de bù hǎo(写得不好)
hóng de hěn(红得很) lěng de fādǒu(冷得发抖)
shàonián zhī jiā(少年之家)
zuì fādá de guójiā zhī yī(最发达的国家之一)
注:“的”、“地”、“得”在技术处理上,根据需要可以分别写作“d”、“di”、“de”


4.7.5 语气助词

Nǐ zhīdao ma?(你知道吗?)
Zěnme hái bù lái a?(怎么还不来啊?)
Kuài qù ba!(快去吧!)
Tā shì bù huì lái de.(他是不会来的。)

4.7.6 叹词


A! Zhēn měi!(啊!真美!)
Ng, nǐ shuō shénme?(嗯,你说什么?)
Hm,zǒuzhe qiáo ba!(哼,走着瞧吧!)


4.7.7 拟声词


pa!(啪!) huahua(哗哗)
jiji-zhazha(叽叽喳喳) “honglong”yī shēng(“轰隆”一声)
Dà gōngjī wo-wo-tí.(在公鸡喔喔啼。)
“Du-”qìdí xiǎng le.(“嘟——”汽笛响了。)


4.8 成语

4.8.1四言成语可以分为两个双音节来念的,中间加短横。

céngchū-bùqióng(层出不穷) fēngpíng-làngjìng(风平浪静)
àizēng-fēnmíng(爱憎分明) shuǐdào-qúchéng(水到渠成)
yángyáng-dàguān(洋洋大观) píngfēn-qiūsè(平分秋色)
guāngmíng-lěiluò(光明磊落) diānsān-dàosì(颠三倒四)

4.8.2 不能按两段来念的四言成语、熟语等,全部连写。

bùyìlèhū(不亦乐乎) zǒng'éryánzhī(总而言之)
àimònéngzhù(爱莫能助) yīyīdàishuǐ(一衣带水)
húlihútu(糊里糊涂) hēibùliūqiū(黑不溜秋)
diào'érlángdāng(吊儿郎当)


4.9 大写

4.9.1 句子开头的字母和诗歌每行开头的字母大写。(举例略)

4.9.2 专有名词的第一个字母大写。

Běijīng (北京) Chángchéng(长城) Qīngmíng(清明)
由几个词组成的专有名词,每个词的第一个字母大写。
Guójì Shūdiàn(国际书店) Hépíng Bīnguǎn(和平宾馆)
Guāngmíng Rìbào(光明日报)

4.9.3 专有名词和普通名词连写在一起的,第一个字母要大写。

Zhōngguórén(中国人) Míngshǐ(明史)
Guǎngdōnghuà(广东话)
已经转化为普通名词的,第一个字母小写。
guǎnggān(广柑) zhōngshānfú(中山服)
chuānxiōng(川芎) zàngqīngguǒ(藏青果)


4.10 移行

4.10.1 移行要按音节分开,在没有写完的地方加上短横。
………………………guāng-
míng(光明)
不能移作“gu-āgnmíng”。


4.11 标调

4.11.1 声调一律标原调,不标变调。

yī jià(一架) yī tiān(一天) yī tóu (一头)
yī wǎn (一碗) qī wàn(七万) qī běn(七本)
bā gè (八个) qīshàngbāxià(七上八下)
bù qù(不去) bù duì(不对) bùzhìyú(不至于)
但在语音教学时可以根据需要按变调标写。

注:除了《汉语拼音方案》规定的符号法以外,在技术处理上,也可根据需要采用数字或字母作为临时变通标调法。

____________________________

附加说明:
本标准由国家教育委员会、国家语言文字工作委员会提出。
本标准由汉语拼音正词法委员会负责起草。
本标准主要起草人尹斌庸、李乐毅、金惠淑。


:-O:-O:-O

[ 本贴由 柴禾妞 于 2003-10-22  22:03 最后编辑 ]
 楼主| 发表于 2003-10-22 17:52:28 | 显示全部楼层
ǎ出不來
先用12345
再作特殊音標(utf-8)
发表于 2003-10-22 18:07:47 | 显示全部楼层

为什么出不来?

水电工先生是说的第3声---“上声”出不来吗?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-25 15:38 , Processed in 0.063177 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表