Unicode编码

独立寒秋 · 发表于 2003-11-9 23:40:35

Unicode编码
　

国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。
随着国际互联网的迅速发展，要求进行数据交换的需求越来越大，不同的编码体系越来越成为信息交换的障碍，而且多种语言共存的文档不断增多，单靠代码页已很难解决这些问题，于是UNICODE应运而生。
UNICODE有双重含义，首先UNICODE是对国际标准ISO/IEC 10646编码的一种称谓（ISO/IEC 10646是一个国际标准，亦称大字符集，它是ISO于1993年颁布的一项重要国际标准，其宗旨是全球所有文种统一编码），另外它又是由美国的 HP、Microsoft、IBM、Apple等大企业组成的联盟集团的名称，成立该集团的宗旨就是要推进多文种的统一编码。
UNICODE同现在流行的代码页最显著不同点在于：UNICODE是两字节的全编码，对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符，还是汉字的高字节。如果发生数据损坏，某处内容破坏，则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符，最明显的好处是它简化了汉字的处理过程。
UNICODE使用平面来描述编码空间，每个平面分为256行，256列，相对于两字节编码的高低两个字节。
UNICODE的第一个平面，称为Basic Multilingual Plane（基本多文种平面），简称BMP，由于BMP仅用两个字节表示，所以倍受青睐。

图2.1: BMP的最新概貌图
　　其中 A_ZONE为拼音文字编码区，拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码。
　　CJK Extension A 和CJK为汉字区域共计27487个汉字。
　　Y1即彝文，位于O-ZONE保留待将来使用。
　　Hangul即韩文。
　　EUDC为用户私有区，用户可以根据需要自己定义此区的编码。
　　R-ZONE为限制使用区，一些兼容字符、特殊字符均放在此区。
UNICODE定义BMP中的D800-DFFF为代理区（Surrogate Zone）,其中D800-D8FF为高半代理（high surrogate）, DC00-DFFF为低半代理（low surrogate）。从两个区域分别取一个编码，组成一个4字节的代理对来表示一个编码字符，此即为UTF-16。利用UTF-16机制，UNICODE扩充了1024*1024个字符，相应于OO-OF平面，并且将02平面分配给了CJK Extension B。Microsoft在Windows 2000已实现了 UTF-16。
六、维文和维文编码
1、Unicode编码和阿拉伯文编码
多年来，计算机普遍采用美国信息交换标准代码（American Standard Code for Information Interchange,简称ASCII码）来表示字符，这些字符可以是字母，数字，标点符号和控制符。用这种编码来表示英文在内的字符不成问题的，但要表示其它语言文字如，阿拉伯文，中文，日文，维文，哈文…必须进行扩充。在1987年，Xerox Palo Alto研究中心的Joe Becker和Lee Collins，以及Apple公司的Mark Davis试图研究一种适用于多文种处理的字符编码。这种编码很快就得到了许多大公司的支持。这些公司都派代表参加Unicode研究组，Unicode的研究得到了较快的进展。由于Unicode集团的成员都是世界上的主要系统及软件制造商，所以Unicode很快就成为事实上的工业标准。
基于Unicode的系统允许使用65000个不同的字符，足以善盖世界所有语言的所有字母，外加数千种符号。具体安排如下：

其中，General Scripts区单独收录了19种语言文字，包括ASCII,Latin1,Greek,Cyrillic,Armenian,Hedrew,Arabic,Devanagari,Bengali
,Gurmukhi,Gujarati,Oriya,Tamil,Telugu,Kannada,Malayalam,Thai,Lao,
Tibetan,Georgian等语言文字之外，还包括汉语，日语和朝鲜语中的所有大量字符。
Unicode是一种定长的2B多文种字符集编码，它试图善盖现有的有关国家和地区的标准，包括GB2312,CNS11643,JIS 0208和KSC 5601等。Unicode可以表示混合文字资料，也可以保证以前的ISO 10646,如：

这些因素决定了Unicode的设计目标，具体内容如下：
①简单性 Unicode代码是等长的（16b），每两个字节表示一个字符；
②完整性 Unicode要善盖文本中使用的所有字符；
③单义性每个代码明确地表示一个字符。
④正确性在进行与已有字符编码标准间的转换时，不应该丢失任何原文数据。
⑤保真性
2、Unicode的维文编码技术
维文属于阿尔泰语系突厥语组西匈语支，维文以及在中国新疆地区使用的哈萨克，克尔克孜等文种都借用了阿拉伯语和部分波斯文字母。
维文由32个字母组成，而且有120多个字符形式，但它的校对和出现的问题不象中、英文，例如：书写方向相反，维文字的自动选型，维文语法的多变形等。其特点如下：
⑴ 维文的书写方向为从右到左，行向为从上而下。维文的字母有四种不同的书写形式：尾部与下一个字母相连的首写形式、首尾与相邻字母连接的中间形式、首部与上一个字母相连的尾写形式、和首尾与相邻字母都不相连接的独立形式，并且根据字母字中的位置来确定使用何种形式。而汉字用同一大小的形式，英文用大、小两种形式书写。
⑵ 维文的字是由一个或多个字母组成。根据书写规则，这些字母可能前后相连形成一个或几个连体字母段。不但字母宽度不同，而且有时候还增加额外的连字符。如：

⑶用标点符号方向相反。如：

以上这些特点给文对编码带来了一定的困难，但阿拉伯文已有的编码提供了不少信息。
如上论述可知，Unicode中不应该出现重复字符。维文以及在中国新疆地区使用的哈萨克，克尔克孜等文种都借用了阿拉伯语和部分波斯文字母，所以编码时应该从阿拉伯语编码的基础上扩充。因为阿拉伯语已经被Unicode录入。首先看看阿拉伯语目前的编码规则：
阿拉伯语文在Unicode中有基本阿拉伯语(U+0060 to U+006FF)和扩充阿拉伯语(U+FE70 to U+FEFF)两种格式。
其中，不但包含所有阿拉伯语字符和符号以外，还有一定的空间给予用户扩充。

相关资料请访问：
http://www.unicode.org/unicode/standard/translations/uyghur.html
现在Unicode 3.1已经从阿拉伯文基础上增加维文(Unicode 3.1本身包含慰问)，主要录入依据是简单性，完整性，单义性，正确性，保真性。具体如下：

Unicode编码布局
0000..007F; Basic Latin
0080..00FF; Latin-1 Supplement
0100..017F; Latin Extended-A
0180..024F; Latin Extended-B
0250..02AF; IPA Extensions
02B0..02FF; Spacing Modifier Letters
0300..036F; Combining Diacritical Marks
0370..03FF; Greek and Coptic
0400..04FF; Cyrillic
0500..052F; Cyrillic Supplementary
0530..058F; Armenian
0590..05FF; Hebrew
0600..06FF; Arabic
0700..074F; Syriac
0780..07BF; Thaana
0900..097F; Devanagari
0980..09FF; Bengali
0A00..0A7F; Gurmukhi
0A80..0AFF; Gujarati
0B00..0B7F; Oriya
0B80..0BFF; Tamil
0C00..0C7F; Telugu
0C80..0CFF; Kannada
0D00..0D7F; Malayalam
0D80..0DFF; Sinhala
0E00..0E7F; Thai
0E80..0EFF; Lao
0F00..0FFF; Tibetan
1000..109F; Myanmar
10A0..10FF; Georgian
1100..11FF; Hangul Jamo
1200..137F; Ethiopic
13A0..13FF; Cherokee
1400..167F; Unified Canadian Aboriginal Syllabics
1680..169F; Ogham
16A0..16FF; Runic
1700..171F; Tagalog
1720..173F; Hanunoo
1740..175F; Buhid
1760..177F; Tagbanwa
1780..17FF; Khmer
1800..18AF; Mongolian
1E00..1EFF; Latin Extended Additional
1F00..1FFF; Greek Extended
2000..206F; General Punctuation
2070..209F; Superscripts and Subscripts
20A0..20CF; Currency Symbols
20D0..20FF; Combining Diacritical Marks for Symbols
2100..214F; Letterlike Symbols
2150..218F; Number Forms
2190..21FF; Arrows
2200..22FF; Mathematical Operators
2300..23FF; Miscellaneous Technical
2400..243F; Control Pictures
2440..245F; Optical Character Recognition
2460..24FF; Enclosed Alphanumerics
2500..257F; Box Drawing
2580..259F; Block Elements
25A0..25FF; Geometric Shapes
2600..26FF; Miscellaneous Symbols
2700..27BF; Dingbats
27C0..27EF; Miscellaneous Mathematical Symbols-A
27F0..27FF; Supplemental Arrows-A
2800..28FF; Braille Patterns
2900..297F; Supplemental Arrows-B
2980..29FF; Miscellaneous Mathematical Symbols-B
2A00..2AFF; Supplemental Mathematical Operators
2E80..2EFF; CJK Radicals Supplement
2F00..2FDF; Kangxi Radicals
2FF0..2FFF; Ideographic Description Characters
3000..303F; CJK Symbols and Punctuation
3040..309F; Hiragana
30A0..30FF; Katakana
3100..312F; Bopomofo
3130..318F; Hangul Compatibility Jamo
3190..319F; Kanbun
31A0..31BF; Bopomofo Extended
31F0..31FF; Katakana Phonetic Extensions
3200..32FF; Enclosed CJK Letters and Months
3300..33FF; CJK Compatibility
3400..4DBF; CJK Unified Ideographs Extension A
4E00..9FFF; CJK Unified Ideographs
A000..A48F; Yi Syllables
A490..A4CF; Yi Radicals
AC00..D7AF; Hangul Syllables
D800..DB7F; High Surrogates
DB80..DBFF; High Private Use Surrogates
DC00..DFFF; Low Surrogates
E000..F8FF; Private Use Area
F900..FAFF; CJK Compatibility Ideographs
FB00..FB4F; Alphabetic Presentation Forms
FB50..FDFF; Arabic Presentation Forms-A
FE00..FE0F; Variation Selectors
FE20..FE2F; Combining Half Marks
FE30..FE4F; CJK Compatibility Forms
FE50..FE6F; Small Form Variants
FE70..FEFF; Arabic Presentation Forms-B
FF00..FFEF; Halfwidth and Fullwidth Forms
FFF0..FFFF; Specials
10300..1032F; Old Italic
10330..1034F; Gothic
10400..1044F; Deseret
1D000..1D0FF; Byzantine Musical Symbols
1D100..1D1FF; Musical Symbols
1D400..1D7FF; Mathematical Alphanumeric Symbols
20000..2A6DF; CJK Unified Ideographs Extension B
2F800..2FA1F; CJK Compatibility Ideographs Supplement
E0000..E007F; Tags
F0000..FFFFF; Supplementary Private Use Area-A
100000..10FFFF; Supplementary Private Use Area-B
0000..007F; Basic Latin
0080..00FF; Latin-1 Supplement
0100..017F; Latin Extended-A
0180..024F; Latin Extended-B
0250..02AF; IPA Extensions
02B0..02FF; Spacing Modifier Letters
0300..036F; Combining Diacritical Marks
0370..03FF; Greek and Coptic
0400..04FF; Cyrillic
0500..052F; Cyrillic Supplementary
0530..058F; Armenian
0590..05FF; Hebrew
0600..06FF; Arabic
0700..074F; Syriac
0780..07BF; Thaana
0900..097F; Devanagari
0980..09FF; Bengali
0A00..0A7F; Gurmukhi
0A80..0AFF; Gujarati
0B00..0B7F; Oriya
0B80..0BFF; Tamil
0C00..0C7F; Telugu
0C80..0CFF; Kannada
0D00..0D7F; Malayalam
0D80..0DFF; Sinhala
0E00..0E7F; Thai
0E80..0EFF; Lao
0F00..0FFF; Tibetan
1000..109F; Myanmar
10A0..10FF; Georgian
1100..11FF; Hangul Jamo
1200..137F; Ethiopic
13A0..13FF; Cherokee
1400..167F; Unified Canadian Aboriginal Syllabics
1680..169F; Ogham
16A0..16FF; Runic
1700..171F; Tagalog
1720..173F; Hanunoo
1740..175F; Buhid
1760..177F; Tagbanwa
1780..17FF; Khmer
1800..18AF; Mongolian
1E00..1EFF; Latin Extended Additional
1F00..1FFF; Greek Extended
2000..206F; General Punctuation
2070..209F; Superscripts and Subscripts
20A0..20CF; Currency Symbols
20D0..20FF; Combining Diacritical Marks for Symbols
2100..214F; Letterlike Symbols
2150..218F; Number Forms
2190..21FF; Arrows
2200..22FF; Mathematical Operators
2300..23FF; Miscellaneous Technical
2400..243F; Control Pictures
2440..245F; Optical Character Recognition
2460..24FF; Enclosed Alphanumerics
2500..257F; Box Drawing
2580..259F; Block Elements
25A0..25FF; Geometric Shapes
2600..26FF; Miscellaneous Symbols
2700..27BF; Dingbats
27C0..27EF; Miscellaneous Mathematical Symbols-A
27F0..27FF; Supplemental Arrows-A
2800..28FF; Braille Patterns
2900..297F; Supplemental Arrows-B
2980..29FF; Miscellaneous Mathematical Symbols-B
2A00..2AFF; Supplemental Mathematical Operators
2E80..2EFF; CJK Radicals Supplement
2F00..2FDF; Kangxi Radicals
2FF0..2FFF; Ideographic Description Characters
3000..303F; CJK Symbols and Punctuation
3040..309F; Hiragana
30A0..30FF; Katakana
3100..312F; Bopomofo
3130..318F; Hangul Compatibility Jamo
3190..319F; Kanbun
31A0..31BF; Bopomofo Extended
31F0..31FF; Katakana Phonetic Extensions
3200..32FF; Enclosed CJK Letters and Months
3300..33FF; CJK Compatibility
3400..4DBF; CJK Unified Ideographs Extension A
4E00..9FFF; CJK Unified Ideographs
A000..A48F; Yi Syllables
A490..A4CF; Yi Radicals
AC00..D7AF; Hangul Syllables
D800..DB7F; High Surrogates
DB80..DBFF; High Private Use Surrogates
DC00..DFFF; Low Surrogates
E000..F8FF; Private Use Area
F900..FAFF; CJK Compatibility Ideographs
FB00..FB4F; Alphabetic Presentation Forms
FB50..FDFF; Arabic Presentation Forms-A
FE00..FE0F; Variation Selectors
FE20..FE2F; Combining Half Marks
FE30..FE4F; CJK Compatibility Forms
FE50..FE6F; Small Form Variants
FE70..FEFF; Arabic Presentation Forms-B
FF00..FFEF; Halfwidth and Fullwidth Forms
FFF0..FFFF; Specials
10300..1032F; Old Italic
10330..1034F; Gothic
10400..1044F; Deseret
1D000..1D0FF; Byzantine Musical Symbols
1D100..1D1FF; Musical Symbols
1D400..1D7FF; Mathematical Alphanumeric Symbols
20000..2A6DF; CJK Unified Ideographs Extension B
2F800..2FA1F; CJK Compatibility Ideographs Supplement
E0000..E007F; Tags
F0000..FFFFF; Supplementary Private Use Area-A
100000..10FFFF; Supplementary Private Use Area-B
最近Unicode组织推出了Unicode 4.0版本，从Unicode 3.1的基础上增加了阿拉伯文有关的19个字符，其中包括几个维文字符。具体安排如下：

[ 本贴由独立寒秋于 2003-11-10 03:49 最后编辑 ]

独立寒秋 · 发表于 2003-11-9 23:54:17

文章的关键字：
发布人：156ok 发布时间：2002-1-4 9:28:56
-----------------------------------------------------------------------

一、基本概念
穞abGB码
全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。1990年又制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集第一辅助集》，目的在于规范必须使用繁体字的各种场合，以及古籍整理等。该标准共收录6866个汉字（比GB2312多103个字，其它厂商的字库大多不包括这些字），纯繁体的字大概有2200余个。（2312集与12345集不是相交的。一个是简体，一个是繁体）
穞abBIG5编
是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准，包括440个符号，一级汉字5401个、二级汉字7652个，共计13060个汉字。Big-5 是一个双字节编码方案，其第一字节的值在 16 进制的 A0～FE 之间，第二字节在 40～7E 和 A1～FE 之间。因此，其第一字节的最高位是 1，第二字节的最高位则可能是 1，也可能是 0。
穞abGBK编码(Chinese Internal Code Specification)
GBK编码（俗称大字符集）是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK，通过GBK与UCS之间一一对应的码表与底层字库联系。其第一字节的值在 16 进制的 81～FE 之间，第二字节在 40～FE，除去xx7F一线。
穞abUnicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前Unicode是采用16位编码体系，其字符集内容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字20902个，韩文拼音11172个，造字区6400个，保留20249个，共计65534个。
二、一些注解
在此解释一下我们常见的一些汉字内码转换工具：
1、最常见的是GB2Big5和Big52GB转换工具。这里的GB指是GB2312集。
2、 GBK简体兼容GB2312字符集及其编码。不规范理解为GB就是GBK简体。
3、繁体不等同于Big5，在GBK集中也有繁体，GB12345集也有繁体。但这三者的汉字编码方式不同。Windows95/98/NT/2000（简体中）中使用的都是GBK字符集；繁体版使用的是Big5字符集，在简体版中无法正常显示Big5字符，繁体版无法显示GB字符。
4、在IE中，进入Big5码网站（如：台湾网站），如果安装有Big5字符集支持，IE会将Big5网页转换成GBK繁体显示，没有则是乱码。IE以GBK繁体显示时，在网页中输入的汉字应当是GBK繁体，以Big5码显示时（乱码），要输入Big5码字符（输入乱码？先输入GBK简体----GB码，再使用小工具将其转换成Big5，拷贝，粘贴即可）。
5、常见的小工具中，可将Big5转换成GBK繁体的不多，可将GBK简体繁体相互转换的也不多。其原因是，他们是将GB2312字符集与Big5字符集建立了对应关系。

三、内码转换原理及方法
内码转换：就是在不同字符集之间建立一种对应关系。
以GBK2Big5（简繁体都可）
如：让字，在GBK中编码是C8C3。如果我们将GBK码表中的字符变成Big5码格式，则C8C3位上的应该是攍och 让攠字的Big5码字符攠琵攠（琵字不是GBK中的琵，而是攠让攠字的Big5码汉字在GBK环境中显示结果）。这样我们读出要转换的文字，在GBK（已经转换成Big5格式）码表中找到它的位置，取出该位置上的字符，将原字符替换即可。

读写字符不是问题。关键是如何在码表文件中对该汉字进行定位和如何将纯GBK码表转换成Big5格式表示的GBK码表。
问题一、对汉字进行定位。
GBK 代码表（按代码顺序排列） 81-87 88-8F 90-97 98-9F A0-A7 A8-AF B0-B7 B8-BF
C0-C7 C8-CF D0-D7 D8-DF E0-E7 E8-EF F0-F7 F8-FE
81 0 1 2 3 4 5 6 7 8 9 A B C D E F
4 丂丄丅丆丏丒丗丟丠両丣並丩丮丯丱
5 丳丵丷丼乀乁乂乄乆乊乑乕乗乚乛乢
6 乣乤乥乧乨乪乫乬乭乮乯乲乴乵乶乷
7 乸乹乺乻乼乽乿亀亁亂亃亄亅亇亊　
8 亐亖亗亙亜亝亞亣亪亯亰亱亴亶亷亸
9 亹亼亽亾仈仌仏仐仒仚仛仜仠仢仦仧
A 仩仭仮仯仱仴仸仹仺仼仾伀伂伃伄伅
B 伆伇伈伋伌伒伓伔伕伖伜伝伡伣伨伩
C 伬伭伮伱伳伵伷伹伻伾伿佀佁佂佄佅
D 佇佈佉佊佋佌佒佔佖佡佢佦佨佪佫佭
E 佮佱佲併佷佸佹佺佽侀侁侂侅來侇侊
F 侌侎侐侒侓侕侖侘侙侚侜侞侟価侢　

以上是按代码顺序排列GBK码表，共126个区，每区190个汉字。汉字位置的计算如下：
posit = (ch1 - 129) * 190 + (ch2 - 64) - (ch2/128);（第n 个汉字）
posit = posit * 2; （第n个字节）
第一个问题就算搞定。

问题二、将GBK码表用Big5来表示。
我们可以利用现有的工具，如东方快车3000，将GBK码表转换成Big5的格式。但实际中有问题，因为GBK较Big5的汉字要多，那么在GBK中有的字符，而Big5中没有的字符在转换中可能被删除，那上面后码表定位就不能用了。而且实际上几乎无法定位。不过我在网上找到了一个以Big5表示的GBK码表的文本（可能是官方的），字符一个不缺。
这个问题也搞定了。

同样我们可以进行
Big52GBKT（繁体），Big52GBKS（简体），GBKS2GBKT，GBKT2GBKS，GBK2BIG5的转化。这里给出Big5码表格式，和定位算法：
BIG-5 代码表 A0-A7 A8-AF B0-B7 B8-BF C0-C7 C8-CF
D0-D7 D8-DF E0-E7 E8-EF F0-F7 F8-FE
（已被转化成
GBK）B0 ０１２３４５６７８９ＡＢＣＤＥＦ
４虔蚊蚪蚓蚤蚩蚌蚣蚜衰衷袁袂衽衹記
５訐討訌訕訊託訓訖訏訑豈豺豹財貢起
６躬軒軔軏辱送逆迷退迺迴逃追逅迸邕
７郡郝郢酒配酌釘針釗釜釙閃院陣陡　
Ａ　陛陝除陘陞隻飢馬骨高鬥鬲鬼乾偺
Ｂ偽停假偃偌做偉健偶偎偕偵側偷偏倏
Ｃ偯偭兜冕凰剪副勒務勘動匐匏匙匿區
Ｄ匾參曼商啪啦啄啞啡啃啊唱啖問啕唯
Ｅ啤唸售啜唬啣唳啁啗圈國圉域堅堊堆
Ｆ埠埤基堂堵執培夠奢娶婁婉婦婪婀　

定位方法：
if ((ch2 >= 64)&&(ch2 <= 126))
{
posit = (ch1 - 160) * 157 + (ch2 - 64);
posit = posit * 2 - 1;
}
else if ((ch2 >= 161)&&(ch2 <= 254))
{
posit = (ch1 - 160) * 157 + 62 + (ch2 - 160);
posit = posit * 2 - 1;
}

在这里给出GBK2Big5的C++Builder的程序：

fGBK2Big5 = fopen("pureGBK2Big5byOrder.txt", "rb");

unsigned long i,posit;//把gb码转换为gbkT
unsigned char ch1,ch2;
String sContext;
char chr;

sContext = Memo1->Lines->Text;
i=1;
while(i < sContext.Length())
{
ch1 = sContext;
ch2 = sContext[i+1];

if ((ch1 >= 129)&&(ch1 <= 254))
{
if (((ch2 >= 64)&&(ch2 < 127)) ||((ch2 > 127)&&(ch2 <= 254)))
{
posit = (ch1 - 129) * 190 + (ch2 - 64) - (ch2/128);
posit = posit * 2;
if ((posit > 23940*2) || (posit < 0))
{
i++;
continue;
}
fseek(fGBK2Big5, posit - ftell(fGBK2Big5), 1);
fread((void *)(&chr), sizeof(char), 1, fGBK2Big5);
sContext = chr;
fread((void *)(&chr), sizeof(char), 1, fGBK2Big5);
sContext[i+1] = chr;
i +=2;
}
else
{
i++;
}
}
else
{
i++;
}
}

Memo1->Lines->Text=sContext;

相关的文章
C语言库函数（D类字母）
概观C++程序设计语言(6)
程序员与程序经理(1)
轮船问题
获得剩余系统、用户、GDI资源的方法
CIH病毒源代码v1.2
触发器介绍
Winsock错误代码一览表
索引视图
指针变量作为函数参数的问题
此作者其它的文章
在C程序中显示汉字
怎样写hack程序
对象和对象的定义
WinNT & Win2K下实现进程的完全隐藏
用VB编写ASP组件
程序员的成功之路
几种常用开发工具的比较
C语言函数中利用指针引用可变参数的方法
C语言库函数（A类字母）
软件测试的基本方法

houyian 给这篇文章做了以下评价：

独立寒秋 · 发表于 2003-11-9 23:57:10

2001-9-6 动网先锋

术

中文与英文用ASCII码一个字节表示不同，它使用两个字节来表示。事实上，在文本文件中保存的就是每个汉字对应的两个字节编码，而显示问题由中文操作系统自动解决。
汉字编码并不统一，我们使用的是GB码，而台湾地区使用的是BIG5码。BIG5码文件中保存的是汉字相应的BIG5编码，GB码文件中保存的是汉字相应的GB编码。所以转换工作的关键是有一个记录每个BIG5编码对应GB编码的码表文件。
GB码编码规则是这样的：每个汉字由两个字节构成，第一个字节的范围从0XA1－0XFE，共96种。第二个字节的范围分别为0XA1－0XFE，共96种。利用这两个字节共可定义出 96 * 96＝8836种汉字。实际共有6763个汉字。
BIG5码编码规则是这样的：每个汉字由两个字节构成，第一个字节的范围从0X81－0XFE，共126种。第二个字节的范围分别为0X40－0X7E，0XA1－0XFE，共157种。也就是说，利用这两个字节共可定义出 126 * 157＝19782种汉字。这些汉字的一部分是我们常用到的，如一、丁，这些字我们称为常用字，其BIG5码的范围为0XA440－0XC671，共5401个。较不常用的字，如滥、调，我们称为次常用字，范围为 0XC940－0XF9FE，共7652个，剩下的便是一些特殊字符。
制作码表文件的原理是这样的：首先将所有的GB编码写入一个文件，然后，使用具有GB码到BIG5码转换功能的软件，如UCDOS下的CONVERT.EXE，将文件转换为BIG5码文件，即得到码表文件。
下面的程序可将全部国标码写入文件gb.txt(以下全部程序用foxpro书写，可很容易的转换成其他语言)

fp = fopen("gb.txt",2)
for i=161 to 247
for j=161 to 254
=fwrite(fp,chr(i)+chr(j))
next
=fwrite(fp,chr(13)+chr(10))
next
=fwrite(fp,chr(26))
=fclose(fp)

文件的组织形式：行对应编码的第一字节，列对应编码的第二字节。使用时请注意编码的偏移量，如汉字“啊”GB编码0xb1a1第一字节0xb1(177)第二字节0xa1(161)所以他应该在文件的第(177-161=16)行第((161-161)*2=0)列。
运行CONVERT.EXE将gb.txt转换成BIG5码的文件，这样就可得到按GB码组织的BIG5码表文件big5.txt。反之亦可得到按BIG5码组织的GB码表文件。

转换的思路是这样的：(用foxpro书写)
首先将码表文件装入数组
fp = fopen("big5.txt")
i = 0
do while feof(fp)
i = i+1
dime dict
dict = fgets(fp)
enddo
=fclose(fp)
其次将待转换的文本装入变量
create cursor temp (mm m)
append blank
append memo mm from textfilename
text = mm
然后扫描文本，替换所有的GB编码
temp = ""
i = 1
do while i < len(text)
ch = substr(text,i,1)
if isascii(ch) && 若是ASCII码
temp = temp+ch
i = i+1
else
ch1 = substr(text,i+1,1)
big5 = substr(dict[asc(ch)-161+1],(asc(ch1)-161)*2+1,2)
temp = temp+big5
i = i+2
endif
enddo
最后将在temp中得到转换后的文本

需要注意的是，在foxpro中数组指针是以1开始，substr函数的起始位>=1。
foxpro大家应该都会，看得懂的。转换好的big5.txt(17k)无法张贴。如有需要，请与我联系。email: czjsz_ah@stats.gov.cn

独立寒秋 · 发表于 2003-11-9 23:59:31

用Python实现GB与BIG5码的转换
作者：limodou 最后修改日期：2001/12/4

GB码与BIG5是中国人常用的两种编码集。GB码为大陆使用，BIG5为香港与台湾使用。每个编码都由2个字符构成，高字节在前，低字节在后。下面我将使用Python实现的编码转换的程序向大家作一个介绍。关于编码的一些知识大家可以去网上查找，本人不再赘述。 GB码是大陆使用的编码集。以前使用的为GB-2312编程，它只有常用字，字数有限。后国家制定了新的GBK编码，汉字已经达到了2万多。GBK完全兼容原GB-2312编码，也就是说一个GB2312的编码在GBK上是一模一样的。这里所介绍的转换是以GBK为基础的，因此适用性很广。GBK编码中不仅包括了原GB-2312编码，同时也包括了许多简码的繁体码，同时还有许多的符号与不常用汉字。GBK编码的范围是：高字节从0x81到0xFE，低字节从0x40到0xFE，同时不包括0x7F。这样如果我们将其排成一个矩形，看上去就少了xx7F一根线。

编码的定位
那么如何定位一个GBK码呢？当我们拿到一个编码时，如何判断是不是一个GBK码，如果是GBK码如何定位它的位置呢？

判断一个GBK码应该比较简单，我们只要根据它的有效范围进行判定即可。如:

if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): #is gb char

这里ch1和ch2分别是一个字符的高字节和低字节。

如何定位（为什么要定位我们在后面讲）？首先介绍一下码表。码表是所有编码放在一起形成的，你可以将其放在文件中（这里讲述的是将编码放在文件中）。我们在存放编码时是将有实际意义的编码放在了一起（因为有一些组合是不存在的），而且是按字节大小的顺序放的。根据GBK的编码范围，我们可以设想一个二维坐标，纵坐标是高字节，横坐标是低字节，每一个交叉点上是一个汉字，占两个字节。这样一行上的汉字个数应该为0xFE-0x40+1-1=190（加1是因为要把0x40也算进去。减1是因为要把7F去掉）。定位时，我们先用高字节减去0x81，得到纵坐标偏移量。用低字节减去0x40得到横坐标偏移量。用纵坐标偏移量乘以每个汉字个数，加上横坐标偏移量就得到汉字的偏移量。再乘以2得到字节的偏移量。那么定位算法为:

index=((ch1-0x81)*190+(ch2-0x40)-(ch2/128))*2

上面的算法中有-(ch2/128)。这是因为GBK中没有7F码，因此当ch2小于7F时，ch2/128=0，则表示7F没有计算在内。而当ch2大于7F时，ch2/128=1，则表示多算了7F一值，因此要去掉。由于一个汉字有两个字节，故要乘以2。这样我们就得到一个GBK汉字在码表中的字节位置了。

BIG5是香港和台湾地区使用的编码集。它的范围为：高字节从0xA0到0xFE，低字节从0x40到0x7E，和0xA1到0xFE两部分。判断一个汉字是否是BIG5编码，可以如上对字符的编码范围判断即可。如何定位呢？那么也想象所有编码排列为一个二维坐标，纵坐标是高字节，横坐标是低字节。这样一行上的汉字个数：(0x7E-0x40+1)+(0xFE-0xA1+1)＝157。那么定位算法分两块，为:

if 0x40<=ch2<=0x7E: #is big5 char
index=((ch1-0xA1)*157+(ch2-0x40))*2
elif 0xA1<=ch2<=0xFE: #is big5 char
index=((ch1-0xA1)*157+(ch2-0xA1+63))*2

对于第二块，计算偏移量时因为有两块数值，所以在计算后面一段值时，不要忘了前面还有一段值。0x7E-0x40+1=63。

编码转换
上面，我们已经可以得到GBK汉字和BIG5的字节位置。那么就可以开始进行转换了。对于转换我原以为有一个特别的算法，能够按照两种编码的不同，简单地通过计算就可以得出结果来，其实是不存在这种算法的。真正的做法是通过建立转换码表文件实现的。即对于GBK码表，将原位置上的GBK汉字改成相应的BIG5汉字。对于BIG5码表，将原位置上的BIG5汉字改成相应的GBK汉字。这样，由于原来汉字的位置没有变，但编码已经变成了想要转换的编码。通过计算出原汉字的位置，将转换码表中对应汉字位置的字符取出来，这样就完成了转换（这就是为什么要进行编码定位的原因）。的确，程序是简单的，但真正细致的工作是在建立转换码表上。我们需要从GBK转BIG5的码表文件，和BIG5转GBK的码表文件。好在这一工作已经有人完成了，在网上可以找到这种信息。本人就是在网上找到了这种对应的转换码表，于是完成了一个用Python做的编码转换程序。（想要此程序的可以去作者主页http://pyrecord.126.com上查找）

一个用于编码转换的Python模块的使用介绍
程序文件名为pygb2big.py。命令行:

python pygb2big.py [-u] [-b|-g] inputfile outputfile。

它主要的命令行参数为：-b，表示将GBK转化为BIG5；-g，表示将BIG5转成GBK；-u，显示程序的用法。inputfile为输入的待处理的文件；而ouputfile为结果文件。它带有三个转换码表文件，其中gbk2big.txt为GBK转big5对照表；big2gbk.txt为BIG转GBKcf对照表。另一个为big2gbk-f.txt，只是提供但并未使用，它是将BIG5转换为繁体GBK码。

有了这个转换模块，我们就可以应用于任何需要进行码制转换的地方了。当然，这里只是GBK到BIG5的转换，如果有其它的转换码表文件，我们也可以实现其它的转换功能。

版权所有 limodou(chatme@263.net)，如要转载请保留此信息。

Artvine · 发表于 2003-11-10 01:11:30

一般基於Map的轉碼程式都犯了個粗心之過：兩種碼是不對稱的、GB系統又
常擴充，Map只能滿足基礎的轉換；更別提簡轉繁後的校正工作。

janicle · 发表于 2005-6-5 16:36:09

thank you for share

getright · 发表于 2005-6-21 00:52:30

『UNICODE是两字节的全编码，对于ASCII字符它也使用两字节表示。』
这种说法不正确。unicode是一种字符编码，它为每一个不重复的『字』给出一个编码，具体占用多少字节，要看编码方式。
Unicode编码如UTF-7，UTF-8，UTF-16，UTF-32等等，UTF-16在多时情况下每字符是双字节，但是碰到一些非常用字是4字节。
UTF-8也很常见，特别是在网页上，越来越多使用UTF-8，甚至XML默认也是UTF-8。UTF-8是变长编码。
实际上，UTF-7，UTF-8，UTF-16都是变长编码，只有UTF-32是固定4字节长度的编码。

至于汉字简体、繁体转换，Artvine的意见是非常正确的。
如果要求支持全球所有语种，那么还是用微软的方式更好：
语种编码1<->Unicode<->语种编码2
这样的好处是每添加支持一种语种编码，只要写它与Unicode互相转换的两个功能就可以了...

		自动登录	找回密码
密码			注册

Unicode编码

相关帖子

标题：内码转换技术查看此会员其它文章

GB码和BIG5码的互换技术

用Python实现GB与BIG5码的转换

RE

Unicode编码

相关帖子

标题：内码转换技术 查看此会员其它文章

GB码和BIG5码的互换技术

用Python实现GB与BIG5码的转换

RE

标题：内码转换技术查看此会员其它文章