湘里妹子学术网

 找回密码
 注册
查看: 6720|回复: 13

【讨论】繁体-简体转换,是否应同时作规范化?

[复制链接]
发表于 2005-3-11 01:26:04 | 显示全部楼层 |阅读模式
如题。
考虑做繁体->简体转换工具,但是有很多字不知道该转换,还是不该转换,如果转,该按什么标准转?
例如:http://www.xlmz.net/forum/viewthread.php?fpage=1&tid=8516&highlight=%2Bgetright

内部处理已经准备用unicode...

[ 本贴由 getright 于 2005-3-11  01:34 最后编辑 ]
发表于 2005-3-11 10:43:26 | 显示全部楼层
一、大陸方面的文字編碼是「多而不當」,長年以來不斷推出新碼規範,可是並未適度配合科技規格整合;相對於臺灣香港Big5碼的「精而不足」,則是缺點各不相讓。在不同使用習慣的制約下,我們很難去理解不同編碼區的困難;比如說,一般中國工程師可能難以理解,四套日文碼為什麼要用JCODE來作橋樑?Big5碼的衝碼情況是如何呢?後者就要說到本站這Discuz的板子了,作者是年輕的大陸工程師,在他的繁體版中,衝碼問題非常嚴重,而且公開宣稱不發展UTF-8版;我想這很可以代表大陸一些設計者的心態─GB中文碼就夠用了;真的嗎?現在大陸有另一批年輕設計者,也開始重視Unicode版本的發展與應用了(如SMF BBS)。在我看來,大陸方面要思考的是大規模資料庫的多語碼搜尋問題(如圖書館、政府資料.....),以後都用GB系統的後遺症會顯現的。

二、印象所及,GB系統的GB12345是包含了GB繁體中文碼的,可是比起CJKV來,仍顯不足(如在另帖說的Unicode2004秋季版的Unihan收錄了84000個碼);另一個問題是,大陸官方是否有這樣的繁簡對照規範呢?我不知道;如果有朋友提出來,我很樂意知道。

三、目前有個更現實的問題,是大陸特別蓬勃的輸入法領域;由於所依靠的尋碼方式(字典檔/Dics...)不同,會造成一字多碼的混亂情況;另一個在處理繁簡轉換的使用者層面,目前簡體使用者的繁簡字混用,也會造成較大的轉換困難。

四、網路世界已有多種繁簡轉換的程式與Classes,大致上是Code to Code的;其中較大的挑戰是在簡→繁的詞語校正(約達文字量的15-20%),這倒是較少人注意的。

五、以Unicode為核心是不錯的想法,如果是Code to Code的情況應沒問題;但若涉及詞語校正的話,要注意字節的計算。

期待分享您的作品!以下是我弄的繁簡轉換區,請參考↓
http://artvinedata.com/images/uu2.htm

P.S.以目前的數據來看,使用者對簡→繁的需求為繁→簡的兩倍。

[ 本贴由 Artvine 于 2005-3-11  10:55 最后编辑 ]
 楼主| 发表于 2005-3-11 14:58:19 | 显示全部楼层
Artvine 于 2005-3-11 10:43 写道:
一、大陸方面的文字編碼是「多而不當」,長年以來不斷推出新碼規範,可是並未適度配合科技規格整合;相對於臺灣香港Big5碼的「精而不足」,則是缺點各不相讓。在不同使用習慣的制約下,我們很難去理解不同編碼區的 ...


这里先举几个例子:
例1:
上海  ([丄,上][海])
台湾  ([台,臺,檯,坮,颱][湾,灣])

例3:
[][𠄌]
[][𪎩]
[&#xF3F9][[𩷶]

例三请使用Firefox,或者试试IE6+hkscs支持。应该可以看到两两对应字型相同的汉字,但是其内码是不同的。

[ 本贴由 getright 于 2005-3-11  16:50 最后编辑 ]
 楼主| 发表于 2005-3-11 16:42:06 | 显示全部楼层

一、大陸方面的文字編碼是「多而不當」,長年以來不斷推出新碼規範,可是並未適度配合科技規格整合;相對於臺灣香港Big5碼的「精而不足」,則是缺點各不相讓。在不同使用習慣的制約下,我們很難去理解不同編碼區的困難;比如說,一般中國工程師可能難以理解,四套日文碼為什麼要用JCODE來作橋樑?Big5碼的衝碼情況是如何呢?後者就要說到本站這Discuz的板子了,作者是年輕的大陸工程師,在他的繁體版中,衝碼問題非常嚴重,而且公開宣稱不發展UTF-8版;我想這很可以代表大陸一些設計者的心態─GB中文碼就夠用了;真的嗎?現在大陸有另一批年輕設計者,也開始重視Unicode版本的發展與應用了(如SMF BBS)。在我看來,大陸方面要思考的是大規模資料庫的多語碼搜尋問題(如圖書館、政府資料.....),以後都用GB系統的後遺症會顯現的。


『大陸方面的文字編碼是「多而不當」』这个要从两方面讨论:
1)文字规范,从繁体到简体在短时间内的多次改变,有成功执行的也有半途废止的,从这方面说的确是乱;
2)字符编码规范,这方面算可以了。从GB2312到GB13000(GBK/微软cp936),然后基本就是GB18030(unicode/ISO 10646)了。
◎GB2312制定时间比较早,但是字符集实际使用中字符数量不足。
◎因为字符不够用,微软等公司弄了GBK,随后“信标委”把这个工业标准定为GB13000。GBK采用双字节编码。
◎随着unicode越来越普及,国家再制定GB18030编码规则,实际上与unicode4兼容,是unicode字符集的其中一种2、4字节编码实例。政府强制要求操作系统支持GB18030编码,实际上是向unicode靠拢。其实现实中微软等厂商并没有在内核使用GB18030,而只是提供一个小软件,实现unicode与GB18030编码的互相转换。

繁体字相对来说在编码方面就比较混乱。例如台湾的“big5”,有n个版本且互相不完全兼容:big5, big5-Eten, big5-cp950, big5+, big5e...
香港看不下去了,制定了HKSCS标准。香港的hkscs是从big5到unicode过渡的有效解决方案。
大陆:GB2312->GBK->unicode
香港:BIG5->HKSCS->unicode
台湾呢?政府没有担起汉字标准化的工作,各种big5编码更是遍地开花,最致命的是没有一种方案可以担起过渡的重任,无论采用何种编码都不能同时兼容以前的编码...
参考《由 堃(方方土) 探討 Big5e 編碼》:http://freebsd.sinica.edu.tw/~statue/hanzi/examp/
参考《我們的BIG-5碼》:http://blog.blueshop.com.tw/abpop23/archive/2005/01/04/1241.aspx
个人认为,现在大陆政府遗漏的工作,应该是『汉字的规范化』,或者叫“汉字的繁体->简体转换”标准制定。

台湾big5类编码最大问题是两个:一个是不能兼容旧版本,另外一个是编码数量不足。

========================================

二、印象所及,GB系統的GB12345是包含了GB繁體中文碼的,可是比起CJKV來,仍顯不足(如在另帖說的Unicode2004秋季版的 Unihan收錄了84000個碼);另一個問題是,大陸官方是否有這樣的繁簡對照規範呢?我不知道;如果有朋友提出來,我很樂意知道。

[color=Black]
引用:http://download.5iyt.com/infoView/Article_504.html
即国家标准GB12345-90,在GB2312-80的基础上增加了35个图形符号和103个汉字。这个不是实际上的工业标准,看来这个的涵盖范围应该比GBK小。
国标新标准GB18030实际上就是unicode的其中一种编码规范,和utf-8,UCS4等类似。GB18030最长支持4字节编码,其2字节编码规则兼容GB13000(GBK)。
简繁对照规则看来没有...官方网站上尽是讨论,讨论了n年,也没看到做任何实质性工作。PS: 链接一下子找不到了。


========================================

三、目前有個更現實的問題,是大陸特別蓬勃的輸入法領域;由於所依靠的尋碼方式(字典檔/Dics...)不同,會造成一字多碼的混亂情況;另一個在處理繁簡轉換的使用者層面,目前簡體使用者的繁簡字混用,也會造成較大的轉換困難。


这个问题,归结到最后,还是因为『汉字的规范化』问题,没有官方规范。官方规范应该指出什么“不规范”字应该对应什么“规范字”,这个工作实际上两岸三地政府都没有做!
因此我才会提出这个问题。:wacko:



========================================

四、網路世界已有多種繁簡轉換的程式與Classes,大致上是Code to Code的;其中較大的挑戰是在簡→繁的詞語校正(約達文字量的15-20%),這倒是較少人注意的。


简体->繁体的确难度比较大。大多数情况是一个简体字可能从多个繁体字演变而来。例如:
一[隻]貓 -> 一[只]猫
[衹]  -> [只]有
繁体转简体,好办。而倒回去就麻烦了。“只”,到底应该转换为“衹”还是“隻”,比较麻烦。


========================================
五、以Unicode為核心是不錯的想法,如果是Code to Code的情況應沒問題;但若涉及詞語校正的話,要注意字節的計算。

也许先做code to code吧。原来考虑是GBK里面做简体、繁体的互相转换,现在看来以前的想法有点过期了。用GBK的原因是因为它是双字节定长编码,这比较好处理。处理完后再转换成big5。但是从现在的角度看,收录的汉字越来越多,GBK的双字节编码肯定不够用了。所以长远打算,unicode才是正道。
现在的unicode4比unicode1复杂了,原来的unicode编码用双字节就行,从2.0开始unicode扩展了字符集,如果用定长编码就要4位了。当然,和上述问题这个就是技术上的小问题了。


========================================
期待分享您的作品!以下是我弄的繁簡轉換區,請參考↓
http://artvinedata.com/images/uu2.htm


谢谢!不过台湾的服务器这里连接太慢了...
不知道您们连接湘里妹子和其他大陆网站速度如何?


========================================
P.S.以目前的數據來看,使用者對簡→繁的需求為繁→簡的兩倍。
哈哈,这个不好说。个人来说,最关注的是“汉字规范化”工作,或者叫“繁->简”转换。
这个工作不作,会有很多问题。例如:
台湾,臺湾,使用了不同的“字”,但是“实际”是一样的。汉字交换、处理、搜索等等,如果不使用某种方式进行“规范化”,肯定会出大问题。
使用那种方式“规范化”呢?不外两种:
1)繁体->简体。
2)简体->繁体。
一方面,汉字一定要进行规范化;另一方面,繁体转简体比较容易,而简体转繁体比较困难,因此我觉得还是把繁体“规范化”到简体比较合适。


PS:这两天头晕晕的,没休息好,语言组织乱七八糟,Artvine君莫笑话。:tongue:

==========================
字符集与编码参考:
big5-cp936:http://www.microsoft.com/globaldev/reference/dbcs/936.htm
HKSCS:http://www.info.gov.hk/digital21/chi/hkscs/terms_1.html
微软实现的HKSCS:http://www.microsoft.com/hk/hkscs/code/HKSCS.htm
注:微软做的码表,我大概对了一下,其扩展字符应该映射到ISO/IEC 10646-1:2000。HKSCS官方网站当前版本字符映射到ISO 10646-2:2001。

gbk:http://www.microsoft.com/globaldev/reference/dbcs/936.htm
gb18030:http://tech.sina.com.cn/s/2001-07-26/1850.html
unicode:http://www.unicode.org

[ 本贴由 getright 于 2005-3-11  17:22 最后编辑 ]
发表于 2005-3-11 17:24:27 | 显示全部楼层
getright 于 2005-3-11 16:42 写道:
谢谢!不过台湾的服务器这里连接太慢了...
不知道您们连接湘里妹子和其他大陆网站速度如何?


我这里进Artvine斑竹的台湾网站速度还可以
但打开有些页面时会时慢时快

不知getright君在何方?
您那里打开湘里妹子学术论坛速度如何?
我论坛有个专门做网速调查的帖子,
欢迎IT专家们多提宝贵意见:whistle:

  [投票] 本站速度调查 (单选)
http://www.xlmz.net/forum/viewthread.php?fpage=1&tid=8827
发表于 2005-3-13 10:15:35 | 显示全部楼层
目前我的Server在加拿大(Linux),下面這個BBS就是用Utf-8的↓
http://www.artvinedata.com/forum/
速度很難說,最近本站在上海的Server似乎是變慢了。
发表于 2005-3-13 12:52:50 | 显示全部楼层
打开这个网址很慢 http://www.artvinedata.com/forum/
发表于 2005-3-13 13:03:45 | 显示全部楼层
我在臺灣很快ㄚ,可能是各地差異吧。目前用的Linux Server管控較好,一次可提供3000人使用(Win2003超過400人就很累),還在學習適應中。
Unicode 補完計畫 (舊稱: BIG5 Extension)
http://leoboard.cpatch.org/cgi-bin/forums.cgi?forum=21
The International Phonetic Alphabet in Unicode
http://www.phon.ucl.ac.uk/home/wells/ipa-unicode.htm
Tips for Phonetic Symbols in Unicode
http://www.personal.psu.edu/staf ... aunicode.html#codes
ipachart
http://hctv.humnet.ucla.edu/depa ... pter1/chapter1.html

[ 本贴由 Artvine 于 2005-3-13  13:17 最后编辑 ]
发表于 2005-3-13 13:58:34 | 显示全部楼层
[iframe] http://www.personal.psu.edu/staff/e/j/ejp10/phon/ipaunicode.html#codes[/iframe]

第三、四个网址就是我要的国际音标,复制下来看看论坛能否正常显示

æ Ash æ  Latin 1 Most browsers
ɐ upside down a ɐ
(250 Hex) Unicode Recommended browsers only
ɑ open a ɑ
(251 Hex)
Unicode Recommended browsers only. May be rendered as /a/ in Netscape.
ɒ upsode down a (rounded a)  ɒ
(252 Hex) Unicode Recommended browsers only
α alpha α
Unicode Many Browsers
NOT Netscape 4.7

Alphabetic Index | Top of Page
B, C and D  - Characters
B Characters  Symbol Name Code  Source Works in...
β Beta β  Unicode Many Browsers
NOT Netscape 4.7
ɓ implosive b &595;
(253 Hex)  Unicode Recommended browsers only
发表于 2005-3-13 14:00:04 | 显示全部楼层
[iframe] http://hctv.humnet.ucla.edu/departments/linguistics/VowelsAndConsonants/course/chapter1/chapter1.html[/iframe]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-28 18:50 , Processed in 0.115951 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表