【讨论】繁体-简体转换，是否应同时作规范化？

getright · 发表于 2005-3-11 01:26:04

如题。
考虑做繁体->简体转换工具，但是有很多字不知道该转换，还是不该转换，如果转，该按什么标准转？
例如：http://www.xlmz.net/forum/viewthread.php?fpage=1&tid=8516&highlight=%2Bgetright

内部处理已经准备用unicode...

[ 本贴由 getright 于 2005-3-11 01:34 最后编辑 ]

Artvine · 发表于 2005-3-11 10:43:26

一、大陸方面的文字編碼是「多而不當」，長年以來不斷推出新碼規範，可是並未適度配合科技規格整合；相對於臺灣香港Big5碼的「精而不足」，則是缺點各不相讓。在不同使用習慣的制約下，我們很難去理解不同編碼區的困難；比如說，一般中國工程師可能難以理解，四套日文碼為什麼要用JCODE來作橋樑？Big5碼的衝碼情況是如何呢？後者就要說到本站這Discuz的板子了，作者是年輕的大陸工程師，在他的繁體版中，衝碼問題非常嚴重，而且公開宣稱不發展UTF-8版；我想這很可以代表大陸一些設計者的心態─GB中文碼就夠用了；真的嗎？現在大陸有另一批年輕設計者，也開始重視Unicode版本的發展與應用了(如SMF BBS)。在我看來，大陸方面要思考的是大規模資料庫的多語碼搜尋問題(如圖書館、政府資料.....)，以後都用GB系統的後遺症會顯現的。

二、印象所及，GB系統的GB12345是包含了GB繁體中文碼的，可是比起CJKV來，仍顯不足(如在另帖說的Unicode2004秋季版的Unihan收錄了84000個碼)；另一個問題是，大陸官方是否有這樣的繁簡對照規範呢？我不知道；如果有朋友提出來，我很樂意知道。

三、目前有個更現實的問題，是大陸特別蓬勃的輸入法領域；由於所依靠的尋碼方式(字典檔/Dics...)不同，會造成一字多碼的混亂情況；另一個在處理繁簡轉換的使用者層面，目前簡體使用者的繁簡字混用，也會造成較大的轉換困難。

四、網路世界已有多種繁簡轉換的程式與Classes，大致上是Code to Code的；其中較大的挑戰是在簡→繁的詞語校正(約達文字量的15-20%)，這倒是較少人注意的。

五、以Unicode為核心是不錯的想法，如果是Code to Code的情況應沒問題；但若涉及詞語校正的話，要注意字節的計算。

期待分享您的作品！以下是我弄的繁簡轉換區，請參考↓
http://artvinedata.com/images/uu2.htm

P.S.以目前的數據來看，使用者對簡→繁的需求為繁→簡的兩倍。

[ 本贴由 Artvine 于 2005-3-11 10:55 最后编辑 ]

getright · 发表于 2005-3-11 14:58:19

Artvine 于 2005-3-11 10:43 写道:
一、大陸方面的文字編碼是「多而不當」，長年以來不斷推出新碼規範，可是並未適度配合科技規格整合；相對於臺灣香港Big5碼的「精而不足」，則是缺點各不相讓。在不同使用習慣的制約下，我們很難去理解不同編碼區的 ...

这里先举几个例子：
例1：
上海  ([丄,上][海])
台湾  ([台,臺,檯,坮,颱][湾,灣])

例3：
[][𠄌]
[][𪎩]
[&#xF3F9][[𩷶]

例三请使用Firefox，或者试试IE6＋hkscs支持。应该可以看到两两对应字型相同的汉字，但是其内码是不同的。

[ 本贴由 getright 于 2005-3-11  16:50 最后编辑 ]

getright · 发表于 2005-3-11 16:42:06

一、大陸方面的文字編碼是「多而不當」，長年以來不斷推出新碼規範，可是並未適度配合科技規格整合；相對於臺灣香港Big5碼的「精而不足」，則是缺點各不相讓。在不同使用習慣的制約下，我們很難去理解不同編碼區的困難；比如說，一般中國工程師可能難以理解，四套日文碼為什麼要用JCODE來作橋樑？Big5碼的衝碼情況是如何呢？後者就要說到本站這Discuz的板子了，作者是年輕的大陸工程師，在他的繁體版中，衝碼問題非常嚴重，而且公開宣稱不發展UTF-8版；我想這很可以代表大陸一些設計者的心態─GB中文碼就夠用了；真的嗎？現在大陸有另一批年輕設計者，也開始重視Unicode版本的發展與應用了(如SMF BBS)。在我看來，大陸方面要思考的是大規模資料庫的多語碼搜尋問題(如圖書館、政府資料.....)，以後都用GB系統的後遺症會顯現的。

『大陸方面的文字編碼是「多而不當」』这个要从两方面讨论：
1）文字规范，从繁体到简体在短时间内的多次改变，有成功执行的也有半途废止的，从这方面说的确是乱；
2）字符编码规范，这方面算可以了。从GB2312到GB13000（GBK/微软cp936），然后基本就是GB18030（unicode/ISO 10646)了。
◎GB2312制定时间比较早，但是字符集实际使用中字符数量不足。
◎因为字符不够用，微软等公司弄了GBK，随后“信标委”把这个工业标准定为GB13000。GBK采用双字节编码。
◎随着unicode越来越普及，国家再制定GB18030编码规则，实际上与unicode4兼容，是unicode字符集的其中一种2、4字节编码实例。政府强制要求操作系统支持GB18030编码，实际上是向unicode靠拢。其实现实中微软等厂商并没有在内核使用GB18030，而只是提供一个小软件，实现unicode与GB18030编码的互相转换。

繁体字相对来说在编码方面就比较混乱。例如台湾的“big5”，有n个版本且互相不完全兼容：big5, big5-Eten, big5-cp950, big5+, big5e...
香港看不下去了，制定了HKSCS标准。香港的hkscs是从big5到unicode过渡的有效解决方案。
大陆：GB2312->GBK->unicode
香港：BIG5->HKSCS->unicode
台湾呢？政府没有担起汉字标准化的工作，各种big5编码更是遍地开花，最致命的是没有一种方案可以担起过渡的重任，无论采用何种编码都不能同时兼容以前的编码...
参考《由堃(方方土) 探討 Big5e 編碼》：http://freebsd.sinica.edu.tw/~statue/hanzi/examp/
参考《我們的BIG-5碼》：http://blog.blueshop.com.tw/abpop23/archive/2005/01/04/1241.aspx
个人认为，现在大陆政府遗漏的工作，应该是『汉字的规范化』，或者叫“汉字的繁体->简体转换”标准制定。
台湾big5类编码最大问题是两个：一个是不能兼容旧版本，另外一个是编码数量不足。

========================================

二、印象所及，GB系統的GB12345是包含了GB繁體中文碼的，可是比起CJKV來，仍顯不足(如在另帖說的Unicode2004秋季版的 Unihan收錄了84000個碼)；另一個問題是，大陸官方是否有這樣的繁簡對照規範呢？我不知道；如果有朋友提出來，我很樂意知道。

[color＝Black]
引用：http://download.5iyt.com/infoView/Article_504.html
即国家标准GB12345-90,在GB2312-80的基础上增加了35个图形符号和103个汉字。这个不是实际上的工业标准，看来这个的涵盖范围应该比GBK小。
国标新标准GB18030实际上就是unicode的其中一种编码规范，和utf-8，UCS4等类似。GB18030最长支持4字节编码，其2字节编码规则兼容GB13000（GBK）。
简繁对照规则看来没有...官方网站上尽是讨论，讨论了n年，也没看到做任何实质性工作。PS: 链接一下子找不到了。

========================================

三、目前有個更現實的問題，是大陸特別蓬勃的輸入法領域；由於所依靠的尋碼方式(字典檔/Dics...)不同，會造成一字多碼的混亂情況；另一個在處理繁簡轉換的使用者層面，目前簡體使用者的繁簡字混用，也會造成較大的轉換困難。

这个问题，归结到最后，还是因为『汉字的规范化』问题，没有官方规范。官方规范应该指出什么“不规范”字应该对应什么“规范字”，这个工作实际上两岸三地政府都没有做！
因此我才会提出这个问题。:wacko:

========================================

四、網路世界已有多種繁簡轉換的程式與Classes，大致上是Code to Code的；其中較大的挑戰是在簡→繁的詞語校正(約達文字量的15-20%)，這倒是較少人注意的。

简体->繁体的确难度比较大。大多数情况是一个简体字可能从多个繁体字演变而来。例如：
一[隻]貓－> 一[只]猫
[衹] －> [只]有
繁体转简体，好办。而倒回去就麻烦了。“只”，到底应该转换为“衹”还是“隻”，比较麻烦。

========================================
五、以Unicode為核心是不錯的想法，如果是Code to Code的情況應沒問題；但若涉及詞語校正的話，要注意字節的計算。

也许先做code to code吧。原来考虑是GBK里面做简体、繁体的互相转换，现在看来以前的想法有点过期了。用GBK的原因是因为它是双字节定长编码，这比较好处理。处理完后再转换成big5。但是从现在的角度看，收录的汉字越来越多，GBK的双字节编码肯定不够用了。所以长远打算，unicode才是正道。
现在的unicode4比unicode1复杂了，原来的unicode编码用双字节就行，从2.0开始unicode扩展了字符集，如果用定长编码就要4位了。当然，和上述问题这个就是技术上的小问题了。

========================================
期待分享您的作品！以下是我弄的繁簡轉換區，請參考↓
http://artvinedata.com/images/uu2.htm

谢谢！不过台湾的服务器这里连接太慢了...
不知道您们连接湘里妹子和其他大陆网站速度如何？

========================================
P.S.以目前的數據來看，使用者對簡→繁的需求為繁→簡的兩倍。
哈哈，这个不好说。个人来说，最关注的是“汉字规范化”工作，或者叫“繁->简”转换。
这个工作不作，会有很多问题。例如：
台湾，臺湾，使用了不同的“字”，但是“实际”是一样的。汉字交换、处理、搜索等等，如果不使用某种方式进行“规范化”，肯定会出大问题。
使用那种方式“规范化”呢？不外两种：
1）繁体->简体。
2）简体->繁体。
一方面，汉字一定要进行规范化；另一方面，繁体转简体比较容易，而简体转繁体比较困难，因此我觉得还是把繁体“规范化”到简体比较合适。

PS：这两天头晕晕的，没休息好，语言组织乱七八糟，Artvine君莫笑话。:tongue:

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
字符集与编码参考：
big5-cp936：http://www.microsoft.com/globaldev/reference/dbcs/936.htm
HKSCS：http://www.info.gov.hk/digital21/chi/hkscs/terms_1.html
微软实现的HKSCS：http://www.microsoft.com/hk/hkscs/code/HKSCS.htm
注：微软做的码表，我大概对了一下，其扩展字符应该映射到ISO/IEC 10646-1:2000。HKSCS官方网站当前版本字符映射到ISO 10646-2:2001。

gbk：http://www.microsoft.com/globaldev/reference/dbcs/936.htm
gb18030：http://tech.sina.com.cn/s/2001-07-26/1850.html
unicode：http://www.unicode.org

[ 本贴由 getright 于 2005-3-11 17:22 最后编辑 ]

湘里妹子 · 发表于 2005-3-11 17:24:27

getright 于 2005-3-11 16:42 写道:
谢谢！不过台湾的服务器这里连接太慢了...
不知道您们连接湘里妹子和其他大陆网站速度如何？

我这里进Artvine斑竹的台湾网站速度还可以
但打开有些页面时会时慢时快

不知getright君在何方？
您那里打开湘里妹子学术论坛速度如何？
我论坛有个专门做网速调查的帖子，
欢迎IT专家们多提宝贵意见:whistle:

[投票] 本站速度调查（单选）
http://www.xlmz.net/forum/viewthread.php?fpage=1&tid=8827

Artvine · 发表于 2005-3-13 10:15:35

目前我的Server在加拿大(Linux)，下面這個BBS就是用Utf-8的↓
http://www.artvinedata.com/forum/
速度很難說，最近本站在上海的Server似乎是變慢了。

湘里妹子 · 发表于 2005-3-13 12:52:50

打开这个网址很慢 http://www.artvinedata.com/forum/

Artvine · 发表于 2005-3-13 13:03:45

我在臺灣很快ㄚ，可能是各地差異吧。目前用的Linux Server管控較好，一次可提供3000人使用(Win2003超過400人就很累)，還在學習適應中。
Unicode 補完計畫 (舊稱: BIG5 Extension)
http://leoboard.cpatch.org/cgi-bin/forums.cgi?forum=21
The International Phonetic Alphabet in Unicode
http://www.phon.ucl.ac.uk/home/wells/ipa-unicode.htm
Tips for Phonetic Symbols in Unicode
http://www.personal.psu.edu/staf ... aunicode.html#codes
ipachart
http://hctv.humnet.ucla.edu/depa ... pter1/chapter1.html

[ 本贴由 Artvine 于 2005-3-13 13:17 最后编辑 ]

湘里妹子 · 发表于 2005-3-13 13:58:34

[iframe] http://www.personal.psu.edu/staff/e/j/ejp10/phon/ipaunicode.html#codes[/iframe]

第三、四个网址就是我要的国际音标，复制下来看看论坛能否正常显示

æ Ash æ  Latin 1 Most browsers
ɐ upside down a ɐ
(250 Hex) Unicode Recommended browsers only
ɑ open a ɑ
(251 Hex)
Unicode Recommended browsers only. May be rendered as /a/ in Netscape.
ɒ upsode down a (rounded a)  ɒ
(252 Hex) Unicode Recommended browsers only
α alpha α
Unicode Many Browsers
NOT Netscape 4.7

Alphabetic Index | Top of Page
B, C and D  - Characters
B Characters  Symbol Name Code  Source Works in...
β Beta β  Unicode Many Browsers
NOT Netscape 4.7
ɓ implosive b &595;
(253 Hex)  Unicode Recommended browsers only

湘里妹子 · 发表于 2005-3-13 14:00:04

[iframe] http://hctv.humnet.ucla.edu/departments/linguistics/VowelsAndConsonants/course/chapter1/chapter1.html[/iframe]

		自动登录	找回密码
密码			注册

【讨论】繁体-简体转换，是否应同时作规范化？

相关帖子

浏览过的版块