汉字彝文甲骨文金文东巴哥巴文统一直检法的初步构想

金百合 · 发表于 2005-11-21 17:02:46

当前，计算机和网络应用扩展之快，对人们生活渗透之深，使人们强烈地感受到一个全新的社会型态已经来临。在过去的几年里，我国民族文字如藏、蒙、朝、维等的计算机处理取得了引人注目的成绩，在很多方面有了突破。为了让中华民族的灿烂文化在信息时代发挥其应有的作用，包括各民族古今文字在内的中华字符集和中华字符集大平台等搭建工作已经提上议事日程。当前，数字图书馆、电子字典、电子词典等新兴电子读物对我国的民族文字字库制作和检索也提出了迫切的要求。
本文试尝就汉字、彝文、甲骨文、金文、纳西东巴文哥巴文的构件外形处理提出探讨意见，敬祈专家指教。
一　应重视中华大字符集的统一检索问题
对于民族语言中的表音文字，因表音文字字母多则数十个，少则20几个，字库制作难度相对不大，检索则按照字母硬性规定顺序查寻即可。对于非表音字母文字，由于字量大，除了现代汉字的计算机处理研究较快外，其它很多方面相对滞后，尤其是像甲骨文、金文、彝文、纳西东巴文哥巴文等还有不少问题亟待解决。
每一种文字都蕴藏着丰富的内在信息，包括其各自的构形特点、语言影响、物质环境影响和人文因素，等等。非表音字母文字的构形复杂，其内在信息更加丰富，现代汉字是这样，彝文也是这样，纳西东巴文和甲骨文、金文等也不例外。
从信息处理的长远发展目标来看，大中华字符集无疑应该在信息化的起步阶段尽可能考虑到有利于将来的普及使用，无论是人口少的民族文字，还是目前应用不广的古文字，都应该让其尽可能走出小圈子和单纯的专家研究使用的小范围，让这些中华民族灿烂文化的重要载体在信息时代有机会发挥更大的作用和影响。我国几种非表音字母文字的检索和计算机输入，如果任其检索和输入法各自画地为牢，自成一统，势必给使用者造成极大的记忆负担。如果能以一套统一方法进行直检，无疑将会产生良好的社会效益和经济效益。
从当前的情况来看，要解决这个问题必须从检索实际需要出发进行必要的创新，以最终的检索效率来检验方法是否可行，而不是抱住成规或文字学研究上的条条框框不放。
检索方法的确定反过来也会促进标准字符集的制作。胡乔木同志在回顾汉字简化时提到：“我们不能再像过去那样单纯考虑如何减少汉字的笔画和汉字字数，零零碎碎地去搞这个字怎么简化，那个字怎么简化；而是要研究和提出一些重要的原则，全盘解决汉字的整理和简化，以适应汉字信息化的要求。”他总结了汉字简化的十四条方法和原则，其中，第十四条是：“在简化汉字时，要尽量使得简化字便于检索。……例如‘为’字，究竟归入哪个部首，很难决定。”胡乔木同志20多年前的这个讲话还值得我们认真反思。今天，若确定标准字符时只求复古和“逼真”，不顾及使用和检索，如对一些似离非离、似连非连、似直非直、似弧非弧的笔画不作界定，势必留下永久的不必要的麻烦。
二　汉字、彝文、甲骨文等文字检索法的现状
非表音字母文字中每一种文字的数量都相当大，未经处理无法在字典里按一目了然的顺序排列，做到可以像表音文字那样实现在字典里方便快捷地直检。
据了解，单就甲骨文而言，目前其不重复的单字字数已发现的共有4000多个，其中已释读的约有三分之一。而据统计，目前对迄今为止所见的13271个青铜器铭文用字进行初步整理，计有已识和歧释字7032个，未识字2303个。
在彝文中，云南有彝文14200多个，四川有8000多个，贵州有7000多个，广西约有800个。
汉字仅《康熙字典》就收字47043个，1990年的《汉语大字典》收字54678个，1994年的《中华字海》收字86000个。
方国瑜的《纳西象形文字谱》收录纳西东巴文仅独体字和合体字就有2274个，收录的哥巴文音节250个，每个音节有多个符号，常用符号达686个。
汉字的检索方法非常多，常见的有音序、笔画、部首和四角号码等，而输入法本质就是检索法。汉字输入法可谓是“万码奔腾”。音码、形码、音形码数不胜数。在形码中，对国家语委颁布的《信息处理用GB13000.1字符集汉字部件规范》560个基础部件标准，多采取与26个通用键盘键位重复堆叠对应的办法，五花八门，毫无规律可言。与数字键盘10个键位对应又是另一种办法。绝大部分人都须经过较长时间的艰苦努力才能上手。
彝文的检索方法也不少，也有音序、部首等。对于彝文的部首，有25部首、26部首和47部首的划分；近来，结合彝文计算机输入法，有人还提出了93部首和57部首的划分。
纳西东巴文有按义分类的字素检索和国际音标检索等。东巴文有较强的语段文字特征，一个文字对应几个读音，以音标编码检索当然码数会很长。由于东巴文保存有较重的原始图画意味，其笔画多变，还保留着许多素描笔画，笔画规则不统一，对其进行构字单位上的分解，再以此作为形码意义上的码元来输入，此方法还未见。可以说，东巴文的基础构件问题是最难解决的。哥巴文虽然字数不多，但字符与音节不能一一对应，无法按读音输入，有人提出过以131个符号作为基本字根的输入法，对于17个图画性较强的文字，改用其它方法处理。　
由于甲骨文、金文有相当一部分未释读，音义未明，无法隶定，其构件也千变万化，异形字又多，甚至还有合文，从传统的部件思路归纳古文字基础构件，要得到学术界公认将有相当的难度，也需要讨论的时间。而且，随着时间的推移，有关甲骨文、金文的考古新发现肯定会不断增多，其数量也会不断增加。其它的几种文字或多或少也存在这种情况，以一个不完全归纳方法得出的基础部件显然缺乏科学性。
所以，目前，对甲骨文金文的构件只看到有人主张采用拼音作归纳的方法，而且这种拼音还不是读音，因为甲骨文金文的读音更难确定。有专家主张把甲骨文分解为基本字符、取象字符和几何图形字符三级编码单位，将以上字符对应其拼音进行编码以备检索，如字形中的曲线、折线以拼音“quxian（曲线）”、“zhexian（折线）”对应等。应该说，这是一种可行的方法之一，但并非完美无缺，它使用起来还是相当麻烦。对于无对应拼音的甲骨文，清华大学的江铭虎和蔡慧颖两位学者提到可以通过区位码或文献中的编号进行输入。从方便专家研究的角度来说，这些主张有其合理性，但这种输入法不利于超越专家范围的推广使用。
那么，是否可以断定从构件外形方向着手研究是此路不通呢？恐怕不能过早下此结论。因为以上文字除了构件、字素、笔画等等外，还有其它的外形特点有迹可循。
三统一直检法的探讨试尝
如果忽略现代汉字、彝文、甲骨文、金文和纳西东巴文哥巴文构件的行笔方向和具体位置，将所有笔画形成的交点、接点、折点、重合点、封闭空间和离散笔画作为基础单位，以简单的组合方式进行归类，就可非常直观地与0到9的数字直接对应起来，实行了数序化，让使用者只要照形点数即可进行直接检索。
这种抽象化处理还可达到让以上文字在计算机数字键盘和通用键盘以等同的观念编码输入，而且抽象构件与键盘键位一一对应，避免了一键对应多个部件须死记的问题，让没有经过以上文字形、音、义的专门深入学习的一般人也可轻易进行直检。
对以上文字字形外象实行抽象化后进行归纳，可总结为10个抽象构件系列，10个系列名称采用“之乎者也唯其同兮（丽）由于”来命名，这10个字的第一个部件就是其命名的抽象构件。为了方便输入，以下以汉字为例，其它如甲骨文金文（申请号2003101140326）、彝文（申请号2003101042427）、东巴文哥巴文输入法（申请号2003101167846）可参看国家知识产权网站的说明书显示。
10大字象系列中，“之”为有点横竖撇捺中任一单独笔画，且另有与其不相交接的由任意笔画构成的交点、接点、折点、重合点以及有突出、粘连笔画的封闭空间结构之间的组合。“之一”是指有以上任一单独笔画且以上结构数目为一的组合（如“个、广、刂、彳、户、犬、文、书、丹”等），“之二”是指具备以上特征且以上结构数目相加为二的组合（如“讠、辶、宀、之、儿、刁、夕、亡、今、弋、寸、礻、酉”等），“之三”是指具备以上特征且以上结构数目相加为三的组合（如“纟、云、气、戈、玉、歹、尤、衤”等），“之四”是指有具备以上特征且以上结构数目相加为四的组合（如“方、永、戋、衣、甫、辰、戊、见”等），“之五”是指具备以上特征且以上结构数目相加为五的组合（如“马、玄”等），之六是指具备以上特征且以上结构数目相加为六的组合（如“瓦”等），之七是指具备以上特征且以上结构数目相加为七的组合（如“我”等），等等。以下各系列也依此类推。“之”的序数只计以上点数和封闭空间数目，不计散笔数。
“乎”是指由点横竖撇捺中任意二笔及二笔以上不相交接的散笔笔画，且有任意笔画构成的交点、折点、接点、重合点、封闭空间的组合；或者是离散的弧形笔画构成的构件，以及以弧形笔画为主的直笔笔画和弧形笔画相连的笔画。“乎”的序数只计点数和封闭空间数目，不计离散的直笔笔画数；或者是计离散的弧形笔画数以及直笔笔画和弧形笔画相连的笔画段数。
　　“者”是指有由任意三笔以上笔画构成一个重合交接点，且可有其它交点、接点、折点的结构。“者”的序数就是计以上点数。
“也”是指由任意笔画构成交点且可有折点及头尾相接点的构件。“也”的序数是计折点和头尾相接点数。
“唯”指由任意笔画构成没有突出和向外粘连笔画的封闭空间的构件。“唯”的序数是计封闭空间数目。
“其”是指有由任意笔画构成封闭空间且有向外突出、粘连的二笔及二笔以上直接笔画的构件。“其”的序数只计封闭空间数目，不计向外突出和粘连笔画构成的任何结构及数目。
“同”是指由任意笔画构成的有接点且可有折点的构件。“同”的序数只计接点数和折点数。
“兮”指由不相交接的点横竖撇捺散笔笔画构成的构件。在处理汉字、甲骨文、金文时此构件称为“兮”。为了兼顾彝文、东巴文、哥巴文的弧形笔画，上文以撇起笔的“乎”代表撇的同时也代表弧形笔画，为避免与“乎”字相同的第一笔“兮”可能产生的误导，在处理彝文、东巴文、哥巴文时，最好将“兮”改称为“丽”。“兮（丽）”的序数计所有离散的直笔笔画总数。
“由”是指有由任意笔画构成封闭空间且有一笔在封闭空间直接突出或粘连笔画的构件。“由”的序数只计封闭空间数目，不计向外突出和粘连笔画构成的任何结构及数目。
“于”是指由任意笔画构成的同时具备交点和中间接点的构件，该系列可将相关折点数算入序数总数。“于”的序数计以上交点和中间接点数目。
编码按文字构形的先上后下和先左后右的顺序为准。并且有些文字允许几种编码方案并存。为了处理以上10个抽象构件系列归纳后出现的编码上的某些重码，让检索更加细致，还有一个再识别方法，其中，现代汉字、彝文、甲骨文、金文和纳西东巴文哥巴文的再识别方法稍有不同，具体如下：
1.甲骨文金文再识别法：少于四个编码构件单位的取完构件后可加取识别符。取该字中交点、接点、折点和重合点相加总数最多的笔画作为第一识别符，以上点数次之的笔画为第二识别符，再次之的为第三识别符。识别符的序数计该笔画本身的折点数及与其它笔画直接形成的交点、接点、折点和重合点的总数。其中笔画点（捺）、撇（弧形笔画）、横、折、竖与“之、乎、者、也、唯”分别对应，即“之乎者也唯”五字首笔显示其代表的笔画识别符。两笔笔画点数相同时按笔画的先上后下和先左后右顺序取识别符。
2.汉字再识别法：少于四个部件的取完部件后可加取识别符。以末笔作第一识别符，首笔作第二识别符，次笔作第三识别符。其中，点和捺的识别符由“之”代表，撇由“乎”代表，横由“者”代表，折由“也”代表，竖由“唯”代表，“之乎者也唯”五字首笔显示各自代表的笔画识别符。识别符对应的序数计该笔画本身的折点数及与其它笔画形成的交接点数，没有折点和交接点的以1数计。
3.彝文再识别法：按笔画顺序先后，对应键盘编码输入。少于四个构件的取完构件后可加取识别符。因为彝文只有独体字，因此为对应汉字独体字，彝文也以末笔作第一识别符，首笔作第二识别符，次笔作第三识别符。其中，点和捺的识别符由“之”代表，撇和弧形笔画由“乎”代表，横由“者”代表，折由“也”代表，竖由“唯”代表，“之乎者也唯”五字首笔显示各自代表的笔画识别符。识别符对应的字象序数计该笔画本身的折点数及与其它笔画形成的交接点数，没有折点和交接点的以1数计。
4.纳西东巴文哥巴文再识别法：所有序数大于九的字象均当九来计，其它规定与甲骨文、金文识别法相同。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
输入法问题实质也就是检索问题，是对应键盘进行编码以方便在计算机调出使用。以输入法在数字键盘上的编码进行字典排序，就可以实现在字典中的直接检索。
四两键盘等同的编码
在0~9的数字键盘上，1与之、2与乎、3与者、4与也、5与唯、6与其、7与同、8与兮（丽）、9与由、0与于对应。
通用键盘上，Z、A、Q与之一、之二、之三对应，M、L、P与乎一、乎二、乎三对应，X、S、W与者一、者二、者三对应，C、D、E 与也一、也二、也三对应，V、F、R与唯一、唯二、唯三对应， B、G、T与其一、其二、其三对应，N、H、Y与同一、同二、同三对应，M、J、U与兮（丽）一、兮（丽）二、兮（丽）三对应，M、K、I与由一、由二、由三对应，M、L、O与于一、于二、于三对应。“之乎者也唯其同兮（丽）由于”十个构件系列除了乎系列在最右外，其它均按顺序从最左开始向右排列，各系列的数序由一到三从下到上排列，四、五、六与一、二、三重叠，七、八、九与一、二、三也重叠。基本上是以一字象对一键位为原则，而且排列按顺序，一目了然。
举例：如“馥”为“者二唯二同一其一”，即SFNB和32　52　7　6。
规则2举例，如“九”为“也四”，是独体字，所以加取尾笔折笔的交点和折点总数对应的“也四”作识别符，即CC和44　44；如左右结构“晖”为“唯二同二也四”加取部首第三笔短横对应“者二”作识别符，即FHCS和52　72　44　32；如上下结构“晕”为“唯二同二也四”加取最上部件首笔竖笔及其三个接点对应“唯三”作识别符，即FHCR和52　72　44　53；如混合结构“回”为“唯一唯一”加取尾笔的两个接点的长横对应的“其二”作识别符，即VVG和5　5　62；如上下结构“吕”为“唯一唯一”加取首笔两个接点的短竖对应的“唯二”作识别符，即VVF和5　5　52。
　　如词组“编辑”即为“之三之一也四唯一”，即QZCV和13　1　44　5。“优惠卡”为“同一由四同二兮二”，即NMHJ和7　94　72　82。如“独一无二”为“于三兮一于四兮二”，即OMMJ和03　8　04　82。
　五结语
甲骨文、金文等古汉字的历史性决定任何的相关输入法和检索方法对古汉字字数必然具备开放性，必须具有很好的容纳功能才能适应考古新发现不断增加的需要。如去年在陕西眉县出土27件铭文青铜器，总字数在3000字以上，相当惊人。汉字、彝文、纳西东巴哥巴文总字数也是一个有待解决的问题，而“之乎者也唯其同兮（丽）由于”10大构件系列是一个抽象的体系，它允许一字多种编码，兼顾到模糊性，对其它继续整理出来的文字提供了一个归类的可能定位。

		自动登录	找回密码
密码			注册

汉字彝文甲骨文金文东巴哥巴文统一直检法的初步构想

相关帖子