湘里妹子学术网

 找回密码
 注册
查看: 3807|回复: 3

班氏汉字笔画排序法V1.4

[复制链接]
发表于 2004-8-15 15:31:07 | 显示全部楼层 |阅读模式
班氏汉字笔画排序法

--------
创作者:班门斧、溜溜云

版本:
V1.4(2004年8月14日)
V1.2(2004年7月25日)
V1.0(2004年7月9日)
V0.9(2004年5月8日)

当今,计算技术和存储技术已经达到了似乎无所不能的先进程度,但汉字之无序,仍

然是汉字在键盘输入和信息处理中的最大障碍。汉字排序的各施各法、八仙过海的现

实状态,严重地阻碍了汉语文字信息的交流和共享,更严重的是数码信息的“定量炸

弹”正在向我们逼近(注:全社会积累的不同规范、不同编码的信息数据越多越丰富

,则有朝一日整个系统由于数据之海量与规则标准之混乱而爆发崩溃瘫痪就越惨重)

。十几年来(或者说近百年来,包括电报码、四角号码、部首间接查字法等)无数仁

人志士创造了几千种汉字编码(输入法),已申请专利的就超过二千种。千回百转,

反复折腾,九九归一,反朴归真,最后我们发现汉字最本质又最表面的东西就是它的

笔画,汉字的笔画就是它的最好的编码,只要我们发现它的内在的规律,合理地分组

和科学地排列优先次序,则,笔画就是汉字的最简单最高效的一组线性信息码。

我们创立的班氏汉字笔画排序法,是把汉字按书写笔顺排序,第一笔相当于英文单词

的第一个字母,第二笔相当于英文单词的第二个字母,依此类推。英文字母是有序的

,同样地,我们也发现了汉字笔画中的一种简单的、科学的、严谨的、本质性的序列

规律。(英文字母是一种靠死记的无理码,而我们发现的笔画排序是有规律、有理据

的,相对而言更优异更好记)

主族序列:横、竖、撇、点(捺)、折
说明:首先,我们定义四个简单笔画横、竖、撇、捺为“母笔”,它们按笔势的走向

区分,即左右、上下、右上左下、左上右下,即米字格的基本构成元素。母笔是一切

笔画的基础,其他笔画都只是母笔的派生、变形。点,捺的变形,短的,不要求长度

的、其笔势走向受阻的,谓点;要有一定长度的、其笔势走向不受阻的,谓捺。短笔

优先,点排序在捺前。个别难于区分的,则人为规定、习惯之(在字典和输入法的实

用中,使用者生疏时可以反复试两下)。折笔包括一切非简单笔,是母笔的组合变形

的派生笔画(例如,横折是横和竖的组合),弯钩、斜钩、卧钩作为折笔中的弧形弯

曲特殊笔画,其优先级排在折笔的最后部分。如此这般,我们将汉语文字的构成明确

而严格地析解为递进层次:母笔(四元素,简单有限集、小集)--笔画(准有限集

、模糊有限集、可以有各种不同组合表述的有限集)--部件(相对于字集,是构形

小集、表意小集)--字(相对于部件集,是表意大集)--词(无限集)--句。

子族序列:
-横族:横、提
-竖族:竖、竖钩(左钩,部分字的收笔已经是竖或竖钩难分,故竖钩归入竖族)
-撇族:撇
-点族:点、捺
-折族:
--横起子族:横折、横折钩、横折折、横折提、横折折折、横折折折钩、横折折撇

、横折(右)弯钩、横钩、横撇、横撇折折钩、横撇(左)弯钩
--竖起子族:竖折、竖折折、竖折折钩、竖折撇、竖提、竖弯、竖弯钩
--撇起子族:撇折、撇点
--点起子族:(无)
--弯起子族:弯钩、斜钩、卧钩
说明:关于钩的特殊规定,钩看作一种特殊的“半折”,其地位是一种似有似无的“

准折”,它们与在前(或后)的形似的笔画的关系,在班氏笔画排序法及其制作的各

种二次应用产品中可以就近归并或分立。在折族内部,优先级还是按照横(提)、竖

、撇、点(捺)、折的次序排列,即折笔类之起笔按照横(提)、竖、撇、点(捺)

、折(在这里即是弯)的次序分组,同一起笔的以其第一次折笔的走势又依横(提)

、竖、撇、点(捺)、弯的次序排序,第二、三次再折还是按横(提)、竖、撇、点

(捺)、弯的规律在其下一个层次再排序。横钩与横撇的关系,钩比撇短,故横勾优

先。总而言之,按横、竖、撇、点、折(弯)为主序,折笔中有相同起笔者,其余下

部分再按横、竖、撇、点、折(弯)的规律逐层再排序,这就巧妙地、简单地、严格

地实现了全部汉字的线性排序。

全排列(主要用于字典排序、文献资料管理):1横、2提、3竖、4竖钩、5撇、6点、7

捺、8横折、9横折钩、10横折折(包括横折提)、11横折折折(包括横折折折钩)、

12横折折撇、13横折(右)弯钩(包括“风九飞乙”之折笔)、14横钩、15横撇、16

横撇折折钩、17横撇(左)弯钩(包括走之折)、18竖折、19竖折折(包括竖折折钩

)、20竖折撇、21竖提、22竖弯(包括竖弯钩)、23撇折、24撇点、25弯钩、26斜钩

、27卧钩(用拉丁字母作代码和在标准键盘上排列时,斜钩、卧钩可以合并)。

十码式排列(主要用于手机、遥控器等数字小键盘):1横、2提、3竖(竖、竖钩)、

4撇、5点、6捺、7横折类(横折、横折钩、横折折、横折折折、横折折折钩、横折折

撇、横折右弯钩、横钩、横撇、横撇折折钩、横撇左弯钩)、8竖折类(竖折、竖折折

、竖折折钩、竖折撇、竖提、竖弯、竖弯钩)、9撇折类(撇折、撇点)、10弯类(弯

钩、斜钩、卧钩)。

根据不同的使用要求,还可以有五码、八码、十二码等排列方式。一个独特的优点是

:各种不同码元数的方案中,每一个汉字在字集中的先后次序,还是和在笔画全排列

方案中的次序大体一致。即是只改变字的分组归属,基本上没有改变字与字之间的前

后位置(少量变动,变动距离也不大),比较容易实现汉字资料在不同信息处理系统

中的一致或兼容。特别值得一提的是,在班氏排序的资料库中,所有先写部首的字都

还是严格按部首分组排布的。

笔画序号、代码、代字、呼读表:

序号_代码_代字_呼读_笔画名称
01__A__横__横__横
02__B__提__提__提
03__C__竖__竖__竖
04__D__丁__竖钩_竖钩(丁钩)
05__E__撇__撇__撇
06--F--点--点--点
07--G--捺--捺--捺
08--H--口--横折-横折
09--I--同--同钩-横折钩(包括力钩)
10--J--凹--凹折-横折折(包括横折提,言提)
11--K--凸--凸折-横折折折(包括横折折折钩,乃钩)
12--L--建--建折-横折折撇
13--M--九--九钩-横折(右)弯钩(包括风飞乙钩)
14--N--买--横钩-横钩
15--O--又--横撇-横撇
16--P--扬--扬钩-横撇折折钩
17--Q--陈--耳钩-横撇(左)弯钩(包括走之折)
18--R--区--竖折-竖折
19--S--鼎--鼎折-竖折折(包括竖折折钩,马钩)
20--T--专--专折-竖折撇
21--U--以--竖提-竖提
22--V--四--竖弯-竖弯(包括竖弯钩,儿钩)
23--W--丝--撇折-撇折
24--X--女--撇点-撇点
25--Y--狗--弯钩-弯钩
26--Z--代--斜钩-斜钩
27--Z--心--卧钩-卧钩
说明:1、班氏排序把一些形似的“复杂折笔”如横折折与横折提、风九飞乙钩等归纳

合并,是基于这样一个原理,即这些笔画一般不会在同一个字中同时出现,在两个笔

画编码相似的字的同一个序号上出现的几率也近于零,所以能够把它们一组组合并,

既减少码元总数,又尽量吻合拉丁字母数量,还可以迎合个体人脑对部分字笔画的模

糊处理。没有明显的副作用。至于在各个具体的应用中,如电脑笔画组字或更精细的

资料处理中,不否认风九飞乙钩是不同的笔画(只是它们使用同一个代码M而已)。
2、从表的最后一列“笔画名称”可以看到,班氏排序的先后次序是完全规律化、理据

化的,是一种内在的客观规律的归纳总结。

班氏全息码:班氏笔画排序代码串+汉语拼音字母串=班氏全息码。班氏全息码是一

种两段式代码串。
以“八、人、入”字为例,它们的班氏笔画排序代码都是撇捺(EG),汉语拼音字母

分别是BA、REN、RU,故它们的班氏全息码分别是EG-BA,EG-REN、EG-RU。对于人

们需要的任何一种特定应用,可以选取“班氏笔画排序代码串+第一声母”、“班氏

笔画排序代码第一字母+汉语拼音串”、“班氏笔画排序代码首尾字母+汉语拼音第

一二字母”等等组合。这些应用组合(包括汉语拼音本身)都是班氏全息码的一些特

定子集,对它们的灵活运用在机器处理中是一件非常容易的事情。


附注:
V1.4(2004年8月14日),重排《笔画序号、代码、代字、呼读表》,突显并说明笔画

排序的显性规律。推出班氏全息码。
V1.2(2004年7月25日),调整合并一些笔画,增加简体字“扬、专”的折笔横撇折折

钩、竖折撇。增加“笔画序号、代码、代字、呼读表”。
V1.0(2004年7月9日),明确“短优先”作为一个原则,确定点与捺、横钩与横撇的

优先次序。
V0.9(2004年5月8日),作出笔画的“全排列”和“十码式排列”,基本完成从理论

到实用方案的过渡。
--------------------------------------
(附录1-6略,可以参看以前的版本)


本贴由班门斧于2004年8月15日03:03:37在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

--------------------------------------------------------------------------------
 楼主| 发表于 2004-8-15 15:33:38 | 显示全部楼层

附录

附录1、具体例子通俗解释
以“班氏汉字笔画排序法”编制的字典、辞典、资料库,不再需要索引,直接一次翻找检索条目对象。以“木”字为例,第一笔是“横”,在字典的“横、竖、撇、点、折”五叠纸中的第一叠里;第二笔是“竖”,故在第一叠纸中的第二小叠里;第三笔是“撇”,故翻到这个第二小叠里的第三小小叠;再顺序找到排序第四的“捺”即是。如果要找的是“木字旁”的任何字,则在这个地方按“横、竖、撇、点、折”规律再往后翻几下即可。


附录2、关于拼音、排序及同码字的一组贴子
拼音和排序

以往的语言文字的比较方面的争论,数以千万,可能会使人不得要领,且大多是浅层次的互相揭短,小处着眼。今天和溜溜云讨论这些语言文字的比较问题,归纳了一些要点和共识。

拉丁字母的语言文字的本质特点是拼音和排序,即显式表音和简易统一的排序。其他的都是次要的东西,用长远的、宏观的眼光来看,其他的优缺点都是无关紧要的东西。例如英语词量之臃肿愚笨、屈折词之烦琐、语法之冗余麻烦以及其远离拼音化,其实这些用历史长眼光来看,都会有意无意、潜移默化或可以人为干预地改变的,近代英语词法句法的迅速汉化就是一个证明(复合构词、拼缀构词、某些汉语句式等),很久以后的英语和世界大同语就是同一回事(世界大同语其实就是汉化了的英语)。


汉语汉字的本质特点是有声调(四声)、单音节词素字、方块字结构二维排布。其他的优缺点都是无关紧要的东西,例如字体笔画繁、字数太多、甚至表音性差等等都是可以逐步改善的。


简洁归纳一下,拉丁式的语言文字的本质特点是拼音和排序,汉语汉字的本质特点是有声调(四声)、单音节词素字、方块字二维结构。因此,汉字如果能够解决表音和排序问题,则汉语汉字就是人类终极的最佳语言文字了。反之亦然,拉丁式如果能吸收汉语汉字的这些优点(可能吗?),也是最佳,当然那样其实就是九九归一了。


从大宏观上看,汉语汉字是更有前途的,就看谁、如何解决这个“拼音和排序”的问题。



本贴由值班版主班门斧于2004年4月10日 05:49:39修改过


本贴由班门斧于2004年4月10日05:39:58在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-------------------------


汉字笔画排序法

--------
溜溜云提出汉字可以用笔画排序。

笔画排序,以前我也有过百十次这个念头,但总觉得这念头太幼稚了一点,没往深处想,以为这么高深的东西哪能这么轻易解决啊。觉得有些字的笔画量很繁杂庞大,哪能一笔笔去数啊。

现在慢慢一想,就按“横竖撇点(捺)折”给汉字排序,排完第一笔,再排第二笔,直至末笔,既有条理又简单之极。

再具体一下,提放在横之后,竖勾(左勾)放在单竖之后,长点(捺)放在短点之后。折笔之中,再按横起、竖起、撇起、斜勾、卧勾的顺序排列,如此这般,每个汉字都具有了一个线性的序列结构。

以前的念头一闪而弃的原因之一,就是认为笔画繁多的字序列码会太长。现在细想之下,这个问题不严重呀。一是汉字简化已经进行并且还要继续进行。更关键的是,笔画繁多的字都是由“块”构成的,木字旁、金字旁、竹字头的字,各自会自成一堆,自动归类,这是一个天大的好处。试想一下,如果用这种排序法编一本字典(或资料库),横起笔的字都在这本字典的前面第一叠纸上,竖起笔的字都在这本字典的前面第二叠纸上,木字旁的字在第一叠纸中的第二小叠里。其排序的条理性和简易性决不在英语之下。

从本质上说,这种笔画排序法同时就是部首排序法,这是一个令人欣喜的发现。

一些细节问题可以进一步探讨。


本贴由值班版主班门斧于2004年4月11日 03:24:38修改过


本贴由班门斧于2004年4月11日03:12:53在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-------------------------------------------


极少量的字难以用笔画排序简单区分

--------
极少量的字,如日与曰、末与未、土与士、天与夫、牛与午、由与田、申与甲、人入八、已己巳,难以用笔画排序简单区分,可能要附加一个识别码。但同时我们也注意到,这种情况数量不多,且主要发生在笔画稀少的字里面。

另外,从这里我们也可以看到,二维结构的汉字与一维线性排列的英语是两个本质相异的东西,永远不可能绝对吻合,少量存在问题需特殊处理。


本贴由班门斧于2004年4月11日03:58:59在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-------------------------------------------








本贴由班门斧于2004年7月26日10:26:10在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表. (以上是V1.2版发表,附录3、4、5也同时作为附录发表,参见V1.0版附录)

-----------------------------------------------------------
-----------------------------------------------------------
V1.2版于2004年7月26日10:26:10发表后的跟贴如下:


新版本,好

--------
受到班门斧的汉字笔画排序法的启发,我正在准备组字要用的"笔画表征求意见稿",又看到班氏笔画排序法1.2版,就要改改我的文章了,因为我引用了这份排序法.不过我是为了组字用的,要求不完全一样,尤其不能归并.新版本增加了代字、呼读,代字还要大家讨论,呼读比原有的名字好记,新增加的“扬钩”“力钩”,我准备补上。
汉字笔画数是比英文词字母数多。但常用的字根、字块可当一个单位,王竹淇的新部首大字典就是这么做的。

www.chancezoo.net



本贴由张时钊于2004年7月26日19:20:07在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

-------------------------------------


好象也可以作输入法

--------
一个“部件”打三键,(三键后的省略),依此打完所有“部件”。
码长稍微长了点,记忆规则还得研究。
==============
如果把基本编码扩展到二笔组合,可能是一个不错的方向。这样一来,“月”两键,“木”两键,“十”一键,“口”两键,“日”两键,……

感觉这样较好。5*5=25,基本笔划分粗点,正好。


意码输入法  三甲文


本贴由gaoren于2004年7月26日13:20:12在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

-------------------------------------


一个好的汉字编码,本身就是一个好的输入法

-------
1、一个好的汉字编码,本身就是一个好的输入法(只差软件制作的辛勤劳动)。

2、嫌它的编码太长?错!有没有人嫌打英文词句的编码太长?为什么回到汉字这里,就有人嫌它笔画排列太长?相反,事实上加上软件处理以后,在小小手机上用笔画打字时,目的字出来得意外地快,比我们希望的还快。这个实践也给了我们启示。

3、作为输入法时,一些最常用部件可以设计成一键代表。

3、“如果把基本编码扩展到二笔组合,可能是一个不错的方向。”重大错误!“二笔编码”为何吃不开?它是一个很有科学规律的、严谨高效的机械化处理方法,问题是加重人脑的处理!问题是加重了人脑的处理!!


本贴由值班版主班门斧于2004年7月30日 04:49:20修改过


本贴由班门斧于2004年7月30日04:11:42在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

-----------------------------------------------------------  
 楼主| 发表于 2004-8-15 15:35:40 | 显示全部楼层

附录345

附录3、关于不等长码的一组贴子
码长问题的处理

--------
以前一涉及到按纯笔画编码的念头,就想到一些字的编码会太长,有些字十几笔,惧于此而不再深入探索。但对照一下英语本身,它的词汇也是有很多冗余码(多余字母)的,并不需要追求数量上的绝对最简。四个字母组成单词可以有四十五万七千个,而事实上英语单词的字母多数超过四五个,十几个字母的单词还不少。作为词汇的排序,长就长排,短则短排,不影响其规律性和简易性。再重复一遍,对于有限量的一个词汇集的排序,词汇编码的长短与其排序的规律性和简易性是不相关的。

再看一个例子,汉语拼音(全拼)的排序,用一至六个字母(平均大概是四个吧),总码位是三亿多,只给一千二百多个音节排序(字典),码位冗余极大,但对排序的规律性和简易性没有任何负向影响,一样非常清晰、简单。

由此可见,汉字按笔画顺序编码排序,本身就已经是一种最简单、最有条理性的排序法。历来众人忽视了这种排序法,是浅尝辄止轻易放弃的错失。如果用这种排序法编字典词典或排列管理资料库,不需要正文前的什么查字表,其简单性、直观性、流畅性明显优于现有的拼音字母间接排序法、查部首再查字的二级排序法、四角号码换算排序法等等。

如果用这种笔画排序作输入法编码,也是可行的。当然要作一些特殊的编码技术处理和计算(软件制作)技术处理。要增补一些识别码,也要扬弃一些冗余码。以“每、敏、繁”三字为例,最多地,“每”字七笔,八键可得,则“敏”字九键可得,“繁”字十键可得(证明是可以扬弃几个笔画的)。以上是最原始直接的键法,如果利用“末笔特性”这三个字都可以七键打出。(按“每”字的典型结构,我估计四五码可以筛选出来,未全面验证)。再加上选字、词频、高频简码字、“常见部首一键处理”等等雕虫小技,还可以减少一些键数。编制过输入法的同仁们都知道,“按词输入”又可以大大减少重码,击键数可以减少约一半。因此,笔画排序在键盘输入法方面的可行性、实用性也是毫无疑义的。

一个具体建议。我早已断言过数字小键盘在不久的将来是输入键盘的主流形式,因此,希望汉字笔画排序的规定码元最好不要超过十个,以便日后大小键盘通用。

本贴由值班版主班门斧于2004年4月11日 18:24:33修改过


本贴由班门斧于2004年4月11日14:05:36在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-------------------------------------------



那就花二小时排一排吧
(班门斧注:此贴是对我在2004年4月11日03:12:53发表的《汉字笔画排序法》的回应贴,移到这里一并作答)

--------
那就花二小时排一排吧,也就是五笔字型的模式。
关键是基数定为多少——26个——52个——104——208??

我个人倾向于104个,或者是156个,


本贴由不会于2004年4月12日23:18:41在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-----------------------------------------



羊毛出在羊身上

--------
码元基数不要超过十个,那么码长就会加长;
(10*10*10*10*10*10=100万)
码元基数104个,编码长度3位即可。(104*104*104=100万多呢)


本贴由不会于2004年4月13日17:24:46在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-----------------------------------------




汉字笔画顺序不等长编码

--------
虽然你的帖子言词寥寥,没有详细解说。但从只言片语中,我感到你我说的还不是同一回事。你提到“也就是五笔字型的模式。关键是基数定为多少——26个——52个——104——208??”可见,你说的是五笔字型的模式,还是要用到和依靠五笔字型的字根表(或与五笔字型的模式大同小异的改良型,否则哪来的104、208个码元?)。而我提出的是与此完全不同性质的方案,我的是“汉字笔画顺序不等长编码”,是一种“笔画全拼码”(特别提示,这里是“全部笔画”的“全”,“拼合起来”的“拼”)。

让我们先来看看英文的编码吧。虽然它的编码串就是它的词汇本身,但我们从中可以得到极重要的启发。单词in的编码是两个字母in,单词cat的编码是字母串cat,representative的编码就是representative,长长短短丝毫不影响优先排序的条理性和简易性。同理,汉字笔画码可以是这样的:“横横”就是“二”字,“横竖”就是“十”字,“横竖撇捺横”是“本”字,“横竖撇捺点”是“术”字。笔画码元的数量和优先次序可以人为地规定依次为:横、(提)、竖、(竖勾)、撇、点、(捺)、折(横起、竖起、撇起、弯勾、斜勾、卧勾)。作为字典词典的排序,这二十几种笔画和英文的26个字母的排序功能是完全一样的。有些字的码很长,短码的更多,总之都很有规律,对任何一个条目都很容易直接翻页找到。有理由期望今后的中文字典正文为拼音直接找字,附加笔画码索引表(查找会写不会念的字),或正文为笔画排序直接找字,附加拼音索引表。

再说到这种“笔画顺序不等长编码”在键盘输入法制作中的可行性和实用性,答案是肯定的。码元最多可以取到二十几个(所谓52、104、208个码元是不可能的,那是完全不同本质的其他方案了)。考虑到有些笔画出现的几率很小,可以合并,再兼顾到数字小键盘的适用性,我建议最好取十个码元。

少数字的重码可以增加一个识别码解决。部分字本身的码太长,但作为输入法时可以通过软件制作技术解决,如简码字、高频字先见、自动字频词频调整、扬弃冗余码、按词输入等等。(待续)

本贴由班门斧于2004年4月14日17:31:40在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-------------------------------------------


如果一套汉语笔画体系不能与输入法相结合,它的实用性就大打折扣了

--------
如果一套汉语笔画体系不能与输入法相结合,它的实用性就大打折扣了,做这样一套体系有什么用呢?这不是让大众掌握的东西吧?
汉语的笔画体系十分复杂,这就是二笔输入法为什么不流行的原因。计算起来十分头疼,很费脑子。


本贴由不会于2004年4月15日18:54:03在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.
-----------------------------------------



汉字笔画顺序不等长编码(续)

“不会”先生的贴子说“码元基数不要超过十个,那么码长就会加长;
(10*10*10*10*10*10=100万)。码元基数104个,编码长度3位即可。(104*104*104=100万多呢)”哈哈,这又是牛头不对马嘴的对话。码元基数104个?哪来的104个?先生你动手制作过输入法吗?你利用“国际标准键盘”吗?如果要推翻这种“国际标准键盘”而创立一种更大的键盘,这事情可是闹大了。另外,说到取十个码元,上面我已说过理由,是为了合并那些极小几率的笔画,并且兼顾数字小键盘的适用性。缺点是码长会稍长一点。但这也并非不得了的大问题,新华字典收字八千,《现代汉语词典》收词五万六千,把它们全收进来也可以做到四码打字、五码打词,常见字词两三键就能出来了。所以,作为其“10码元”的派生物输入法,码长也是相当短的。

关于码位总数。对文字改革和输入法制作有一点认识的同仁都知道,码位总数是每个方案的主要指标之一。码位总数不足,则重码严重、分辨率抵,新字新词诞生无门等等。若以二十九种笔画,每字最多二十画计算,可以有超天文数字的组合。仅以十五笔以下“10码元”方案计算,码位总数就是(sorry,我的计算器超限了),仅以十笔以下“10码元”方案计算,码位总数就是100亿!


有极少量字具有相同笔画序列(其笔画部件在二维结构中有方位、短长等多重因素),好在这种情况基本上只出现在三五笔的字中,我们可以对此增添一个识别码。识别码可以是声母首字母(适用于标准键盘和书面资料等),也可以是一种无理码(但可以包含一些字频信息、字型信息等,例如相同笔画的离、接、交,及笔画的短长等关系)。


关于二笔输入法。不错,此法是有一点象我所述说的笔画输入法。二笔输入法把汉字的笔画归纳合并,然后又划分为五类(五笔),再每两两组合成为一码,所得25码比较平均地分配在26个字母键上,其用心确实良苦,也算是一个创造。但偏偏就是这么分分合合,致使使用者“使用起来很费脑子”,这是它一直不能得到大量普及的主要原因。由于它只粗略地把汉字笔画划分为五个基本识别单元,所以它对字的定位准确率远远低于十码的笔画输入法,就是说即使把每字的全部笔画都全输入了,它的重码率还是大大高于十码的笔画输入法。

汉字最本质又最表面的东西就是它的笔画。多年的苦苦寻求多方探索又回到笔画,真有点“踏破铁鞋无觅处,得来全不费功夫”,“众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”的感觉。当然外在原因是现在的软件编制技术有了大大的提高,常用字先见、自动字频词频调整、自动成词提示、用户自组词等等功能的普及应用,进一步提升了笔画输入法的简易性和实用性。以十个码元、十个字提示选字的方式为例,击第一键可以呈现100个字,击第二键可以呈现1000个字,第三键可以呈现10000个字,可知使用笔画输入法,理论上可以在两三次击键内把一般常用字找到。特别值得提出的是,在手机的某几种笔画类输入法(五、六、八、九笔,等等)的实践中,我们已经体验到了笔画打字并不象以前想当然的那么长那么难。简单地认为用笔画给汉字编码太长、太繁的观点是不符合已经体验过的实践证明。

另外,基于我们对社会使用情况的研究分析,我们估计今后人群中专业打字员只有万分之一,主业大量打字者约百分之五,日常打字较多者(有赶时间的强烈要求)百分之十,那么还是有百分之八十五的人,也就是绝大多数人是不需要打字极快,只需要打字简单容易。所以我们断言对于汉字来说,等长码盲打口号可以叫得山响,但它不是输入法的主流,而笔画输入法会更适合社会需要(在软件设计上发展,笔画输入法也有实现盲打的前景)。



附录4、张时钊先生贴及答贴
我的建议

--------
我分不清文改派和苍颉派,只看到关于汉字的是非争论十分激烈,在汉语拼音和输入法论坛,经常对骂,没有一点内容和意义,浪费大家的精力和时间,对谁都无益。我建议双方:
1、考虑反方意见,容忍反对意见,求同存异:个人条件不同,从不同的侧面看问题,意见难免相左。因为一个人常相信和重视自己熟识的,所以要发现新东西,必须多问为什么,即考虑反面意见。由于惰性,自己考虑不到,却常在对方意见中可以得到新启发。真理之所以愈辩愈明,就是因为会相互启发。实在无法统一的,可以存异,等待时间证明。
2、力求说清自己观点,少空话,多提供事实和理由:适当重申自己的观点可能有必要,但重复过多,尤其是无新意、无新事实的口号、广告,决不会“重复千边就成真理的”。很多人是从反面读广告的:做广告就说明卖不出去。自己都说自己的输入法好,因为最熟识自己。但说能够二键一字或一键一字,我是不会去看的,因为用字母键,一键最多26个字,二键最多676字,如果只对特殊的字句,我还可以一键拷贝一万字呢。
3、多做实事,从自己开始,争取更多人来实现自己的理想。指望国家来强制推广是要落空的。不如自己多研究,得出更好的成果,考虑更好的推广方案,逐步普及自己的观点和方法。我没学会五笔,在当时它也不是最好的,陈爱文的表形码更科学。但王码是成功的,确实为中文信息化立了大功。我说一件对我印像很深的往事,就可看出王永民有多么厉害。1986年全国微机展览时,王码因其前测试中作了弊,前半月不准参展。但半月期限一过,第二天一早,楼上楼下,处处都是介绍王码的摊位。王码占有率那么高,好像没有一句关于王码的广告词。
关于汉字和拼音文字的是非,更难定论。某种条件下,汉字比拼音文字难学,但在另一种条件下,汉字反而易学易记。主张拼音文字的,如果提出成熟的好方案,且已使很多人乐于使用(这是最重要的!),它可能成为平常使用的简易文字,但不可能消灭汉字。吕先生提出注重试验再逐步推广,这是唯一的途经。如果有成效,原来反对的,也会悄悄地使用的。汉字并不是没有任何问题,我认为有三个问题急需解决:1、乱码;2、排序和捡索;3、非常用字的输入。最近草君发起的投票,分项不合理,恐得不出有效的结论。所有文字都是在发展中,都是要变化的,而且,没有那一种敢称得上是十全十美的。



本贴由张时钊于2004年6月24日11:49:01在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

-------------------------------------------


汉字存在问题及其解决

--------
“汉字并不是没有任何问题,我认为有三个问题急需解决:1、乱码;2、排序和捡索;3、非常用字的输入。”还有,4、表音化和简化改革(这两化现阶段应集中表现为强形声化运动。汉字简化不应停止,而是要进一步抓紧、加强,但新阶段的汉字简化,主要任务不再是笔画数量的减少,而是“好学易记”之简化--形声化即是其主要方式之一)。
张时钊先生的“笔画组字”方案解决了以上1、3两个问题(当然还要改进、发展)。我的汉字笔画排序法解决了第二个问题(要听取各方意见,不断完善)。我们正在积极展开第四个问题的战斗。另外,郭致平先生的一批新论著对挽救、推广汉语汉字有很大的理论指导意义。


本贴由班门斧于2004年6月27日05:21:32在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.


本贴由班门斧于2004年7月10日05:19:19在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表. (以上作为V1.0版的附录发表)

-----------------------------------------------------------------


-------------------------------------------


附录5 (对班氏笔画排序V1.0版的跟贴)
笔画顺序相当于英文字母顺序

--------
我是第一次看到班门斧的笔画排序法,原来3月前早已提出。这排序对我很有用。我在选定笔画时,由于没有国家标准,也没考虑笔画本身的顺序。而这笔画顺序相当于英文字母顺序,是很重要的。班氏排序,对于折笔的顺序的处理,比另一些作者按顺时针或反时针区分,要科学和合理。班氏选的笔画是26个,我压为25个,好像在笔画种类上,大家差异不大,就是没有公认的标准。我们要把它建立起来,在实际应用上建立起来。我的软件,本来就考虑可以交换笔画次序的,以后可按此顺序更改。我希望班门斧能再考虑如何改改笔画的名称,使它们简单又有意义,还叫得响,以后还可考虑给一个代表符号,可以做标题次序和公式中的字母用。
使用班氏笔画排序,无字库汉字的笔画顺序就是自然的字典顺序。不过这里还有两个问题要研究:1、字根顺序与笔画顺序不一致(如“戈”先写横,而其余部分却最后写);2、笔顺习惯常有不同,如果死守一个标准,必增加学习的记忆负担,可能要考虑某种容错原则。
不但输入码应不等长,用无字库时,汉字内码也不等长。这一来,字之间就要有间隔键(软件应可使大部分情况可省),词之间则用另一个间隔键,分词输入也解决了。
我现在用首尾笔画输入字根,“点竖撇”等三笔画,按第二笔,“横”更按第三笔,分配到很少作首笔的笔画上。目前的安排,比已公布的软件更易于输入,软件的新版本不久再公布。

www.chancezoo.net



本贴由张时钊于2004年7月10日16:52:55在乐趣园〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.

-------------------------------------------
发表于 2004-8-15 17:48:52 | 显示全部楼层
http://www.chancezoo.net/
歡迎來到本區!老實說,對此領域研究,我才是門外漢呢!
這有個美國的Chinese Character Dictionary,也涉及些筆劃問題,請參考。
http://www.mandarintools.com/chardict.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-5-19 00:57 , Processed in 0.074556 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表