湘里妹子学术网

 找回密码
 注册
楼主: Artvine

[分享]漢語分詞標注、眉注、音標與英文詞意對應程式測試

  [复制链接]
发表于 2003-10-27 12:02:04 | 显示全部楼层

自然语言理解技术及其应用探讨(上)

来源:http://www0.ccidnet.com/school/net//2001/11/14/70_5482.html
( 2001年11月14日 15:03)
湘里妹子学术论坛-www.xlmz.net-2003

随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出象人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。

现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。

第一部分 了解自然语言理解技术
自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。

自然语言处理研究在电子计算机问世之初就开始了,并于 50年代初开展了机器翻译试验。当时的研究方法还不能称作带有"智能"。到了60年代乔姆斯基的转换生成语法得到广泛的认可,生成语法的核心是短语结构规则,分析句子结构的过程就是利用规则自顶向下或自底向上的句法树生成过程。

由于认识到生成语法缺少表示语义知识的手段,在70年代随着认知科学的兴盛,研究者又相继提出了语义网络、CD理论、格框架等语义表示理论。这些语法和语义理论经过各自的发展,逐渐开始趋于相互结合。到80年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法(LFG)、功能合一语法(FUG)和广义短语结构语法(GPSG) 等。

这些基于规则的分析方法可以称之为自然语言处理中的"理性主义"。现有的手段虽然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语言现象,特别是对于整个段落或篇章的理解还无从下手。

与"理性主义"相对的是"经验主义"的研究思路,主要是指针对大规模语料库的研究。语料库是大量文本的集合。计算机出现后,语料可以被方便地存贮起来,利用计算机查找也很容易。随着电子出版物的出现,采集语料也不再成为困难。最早于60年代编制的Brown和LOB两个计算机语料库,分别具有100万词次的规模。进入90 年代可以轻易列举出的语料库有几十个之多,象DCI、ECI、ICAME、BNC、LDC、 CLR等,其规模最高达到109数量级。

对语料库的研究分成3个方面:工具软件的开发、语料库的标注、基于语料库的语言分析方法。采集到以后未经处理的生语料不能直接提供有关语言的各种知识,只有通过词法、句法、语义等多层次的加工才能使知识获取成为可能。加工的方式就是在语料中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。随着标注程度的加深语料库逐渐熟化,成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作,如根据从已标注语料中总结出的频度规律可以给新文本逐词标注词性,划分句子成分等。

语料库提供的知识是用统计强度表示的,而不是确定性的,随着规模的扩大,旨在覆盖全面的语言现象。但是对于语言中基本的确定性的规则仍然用统计强度的大小去判断,这与人们的常识相违背。这种"经验主义"研究中的不足要靠"理性主义" 的方法来弥补。两类方法的融合也正是当前自然语言处理发展的趋势。

自然语言理解系统的发展阶段
自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法;第二代系统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。

第一代自然语言理解系统又可分为四种类型:?

(1)特殊格式系统
早期的自然语言理解系统大多数是特殊格式系统,根据人机对话内容的特点,采用特殊的格式来进行人机对话。1963年,林德赛(R.Lindsay)在美国卡内基技术学院用IPL-V表处理语言设计了SAD-SAM系统,就采用了特殊格式来进行关于亲属关系方面的人机对话,系统内建立了一个关于亲属关系的数据库,可接收关于亲属关系方面的问题的英语句子提问,用英语作出回答。1968年,波布洛(D.Bobrow)在美国麻省理工学院设计了STUDENT系统,这个系统把高中代数应用题中的英语句子归纳为一些基本模式,由计算机来理解这些应用题中的英语句子,列出方程求解,并给出答案。六十年代初期,格林(B.Green)在美国林肯实验室建立了BASEBALL系统,也使用IPL-V表处理语言,系统的数据库中存贮了关于美国1959年联邦棒球赛得分记录的数据,可回答有关棒球赛的一些问题。该系统的句法分析能力较差,输入句子十分简单,没有连接词,也没有比较级形式的形容词和副词,主要靠一部机器词典来进行单词的识别,使用了14个词类范畴,所有的问题都采用一种特殊的规范表达式回答。?

(2)以文本为基础的系统
某些研究者不满意在特殊格式系统中的种种格式限制,因为就一个专门领域来说,最方便的还是使用不受特殊格式结构限制的系统来进行人机对话,这就出现了以文本为基础的系统,1966年西蒙(R.F.Simmons)、布尔格(J.F. Burger)和龙格(R.E. Long)设计的PROTOSYNTHEX-I系统,就是以文本信息的存贮和检索方式工作的。?

(3)有限逻辑系统
有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中,自然语言的句子以某种更加形式化的记号来替代,这些记号自成一个有限逻辑系统,可以进行某些推理。1968年,拉菲尔(B.Raphael)在美国麻省理工学院用LI SP语言建立了SIR系统,针对英语提出了24个匹配模式,把输入的英语句子与这些模式相匹配,从而识别输入句子的结构,在从存贮知识的数据库到回答问题的过程中,可以处理人们对话中常用的一些概念,如集合的包含关系、空间关系等等,并可进行简单逻辑推理,机器并能在对话中进行学习,记住已学过的知识,从事一些初步的智能活动。1965年,斯莱格勒(J.R. Slagle)建立了DEDUCOM系统,可在情报检索中进行演绎推理。1966年,桑普逊(F.B.Thompson)建立了DEACON系统,通过英语来管理一个虚构的军用数据库,设计中使用了环结构和近似英语的概念来进行推理。1968年,凯罗格(C.Kellog)在IBM360/67计算机上,建立了CONVERSE系统,该系统能根据关于美国120个城市的1000个事实的文件来进行推理。?

(4)一般演绎系统
一般演绎系统使用某些标准数学符号(如谓词演算符号)来表达信息。逻辑学家们在定理证明工作上取得的全部成就,就可以用来作为建立有效的演绎系统的根据,从而能够把任何一个问题用定理证明的方式表达出来,并实际地演绎出所需要的信息,用自然语言作出回答。一般演绎系统可以表达那些在有限逻辑系统中不容易表达出来的复杂信息,从而进一步提高了自然语言理解系统的能力。1968-1969年,格林和拉菲尔建立的的QA2,QA3系统,采用谓词演算的方式和格式化的数据(formated data)来进行演绎推理,解答问题,并用英语作出回答,这是一般演绎系统的典型代表。

1970年以来,出现了一定数量的第二代自然语言理解系统,这些系统绝大多数是程序演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的系统是LUNAR 系统、SHRDLU系统、MARGIE系统、SAM系统、PAM系统。

LUNAR系统是伍兹(W.Woods)于1972年设计的一个自然语言情报检索系统。这个系统采用形式提问语言(formal query language)来表示所提问的语义,从而对提问的句子作出语义解释,最后把形式提问语言执行于数据库,产生出对问题的回答。

SHRDLU系统是维诺格拉德(T.Winograd)于1972年在美国麻省理工学院建立了一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、逻辑推理结合起来,大大地增强了系统在语言分析方面的功能。该系统对话的对象是一个具有简单的 "手"和"眼"的玩具机器人,它可以操作放在桌子上的具有不同颜色、尺寸和形状的玩具积木,如立方体、棱锥体、盒子等,机器人能够根据操作人员的命令把这些积木捡起来,移动它们去搭成新的积木结构,在人机对话过程中,操作人员能获得他发给机器人的各种视觉反馈,实时地观察机器人理解语言、执行命令的情况。在电视屏幕上还可以显示出这个机器人的模拟形象以及它同一个真正的活人在电传机上自由地用英语对话的生动情景。?

MARGIE系统是杉克(R.Schank)于1975年在美国斯袒福人工智能实验室研制出来的。该系统的目的在于提供一个自然语言理解的直观模型。系统首先把英语句子转换为概念依存表达式,然后根据系统中有关信息进行推理,从概念依存表达式中推演出大量的事实。由于人们在理解句子时,总要牵涉到比句子的外部表达多得多的内容,因此,该系统的推理有16种类型,如原因、效应、说明、功能等等,最后,把推理的结果转换成英语输出。?

SAM系统是阿贝尔森(R.Abelson)于1975年在美国耶鲁大学建立的。这个系统采用"脚本"(script)的办法来理解自然语言写的故事。所谓脚本,就是用来描述人们活动(如上饭馆、看病)的一种标准化的事件系列。

PAM系统是威林斯基(R.Wilensky)于1978年在美国耶鲁大学建立的另一个理解故事的系统。PAM系统也能解释故事情节,回答问题,进行推论,作出摘要。它除了 "脚本"中的事件序列之外,还提出了"计划"(plan)作为理解故事的基础。所谓" 计划",就是故事中的人物为实现其目的所要采取的手段。如果要通过"计划"来理解故事,就要找出人物的目的以及为完成这个目的所采取的行动。系统中设有一个"计划库"(plan box),存贮着有关各种目的的信息以及各种手段的信息。这样,在理解故事时,只要求出故事中有关情节与计划库中存贮的信息相重合的部分,就可以理解到这个故事的目的是什么。当把一个一个的故事情节与脚本匹配出现障碍时,由于"计划库"中可提供关于一般目的的信息,就不致造成故事理解的失败。例如,营救一个被暴徒抢走的人,在"营救"这个总目的项下列若干个子目的,包括到达暴徒的巢穴以及杀死暴徒的各种方法,就可以预期下一步的行为。同时能根据主题来推论目的。例如,输入故事:"约翰爱玛丽。玛丽被暴徒抢走了。"PAM 系统即可预期约翰要采取行动营救玛丽。故事中虽然没有这样的内容, 但是, 根据计划库中的"爱情主题",可以推出 "约翰要采取行动营救玛丽"的情节。?

上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的自然语言理解系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更加困难的课题,口头自然语言理解系统的研究近年来也有进展。?

我国的发展状况
我国自然语言理解的研究起步较晚,比国外晚了17年。国外在1963年就建成了早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,都以人机对话的方式来实现。?

八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了更多的重视,"自然语言理解和人机接口"列入了新一代计算机的研制规划,研究单位增多了,研究队伍也壮大了。?

关于HNC理论
HNC理论是"Hierarchical Network of Concepts(概念层次网络)"的简称,是关于自然语言理解处理的一个理论体系。它以概念化、层次化、网络化的语义表达为基础,所以称它为概念层次网络理论。HNC理论把人脑认知结构分为局部和全局两类联想脉络,认为对联想脉络的表达是语言深层(即语言的语义层面)的根本问题。

HNC理论的中心目标是建立自然语言的表述和处理模式,使计算机能够模拟人脑的语言感知功能。该理论使自然语言理解获得了突破性的进展,它所蕴涵的精深丰富的思想对人工智能、语言学、计算机科学和认知科学等都具有重要的理论和应用价值,对中文信息处理和汉语研究尤其具有实际意义。

HNC理论完全摆脱了我国现有的这套语法学的束缚,而从语言的深层入手,以语义表达为基础,为汉语理解开辟了一条新路。HNC理论提出了可供工程实现的完整的自然语言理解的理论框架,它是一个面向整个自然语言理解的强大而完备的语义描述体系,包括语句处理、句群处理、篇章处理、短时记忆向长时记忆扩展处理、文本自动学习处理。HNC理论的出发点就是运用两类联想脉络来"帮助"计算机理解自然语言。自然语言的词汇是用来表达概念的,因此,HNC建立的词汇层面的局部联想脉络体现为一个概念表达体系。概念分为抽象概念与具体概念。HNC理论的概念表达体系侧重于抽象概念的表达。对具体概念采取挂靠近似表达方法。HNC理论认为应该从多元性表现和内涵两个方面来描述概念。
它创立了五元组用来表达抽象概念的多元性表现,对抽象概念的内涵采用网络层次符号来表达。其网络层次符号包含三大语义网络:基元概念语义网络、基本概念语义网络和逻辑概念语义网络。HNC的五元组符号和三大语义网络的层次符号组合起来就可完成对抽象概念的完整表达,从而为计算机理解自然语言的语义提供了有力的手段。

自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术几个方面。其中机器翻译(machine translation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。智能搜索引擎在这一领域的研究将使得用户可以使用母语搜索非母语的网页,并以母语浏览搜索结果。语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对词语在语义层次上的理解。人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言接口的革命,同时在家用电器的人性化设计方面有着广泛的应用前景,其技术内涵主要包括语音识别、语音合成两个核心部分。

在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。同时,在分词的过程中,知识库当中的同义词会被逐个匹配并同时提交给语义理解模块使用,这样处理过的句子,不仅提供了原始的句型,还同时搭载了语句的概念部分。

专题:搜出多彩新世界
发表于 2003-10-27 12:02:32 | 显示全部楼层

自然语言理解技术及其应用探讨(下)

( 2001年11月14日 15:03)

第二部分 在搜索技术中的应用
众所周知,随着互联网的迅速发展和广泛普及而导致网上信息爆炸性增长。如何在庞大的互联网上获得有价值的信息已成为网民日益关注的问题。这种以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的的搜索技术的出现为网民快速找到所需信息带来了福音。

但是,2001年,Roper Starch的调查指出,36%的互联网用户一个星期花了超过2个小时时间在网上搜索;71%的用户在使用搜索引擎的时候遇到过麻烦;平均搜索12分钟以后发现搜索受挫;搜索受挫中46%都是因为链接错误;绝大部分(86%)的互联网用户感到应当出现更有效的、准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有四个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;53.3%时间花在从旁人那里获得答案,29%的时间花在亲戚朋友身上,24.3%的是时间花在销售商那里;网上查找答案的,半数以上都不成功;他们每周将花费14.5美元以上,以获取正确的信息。

从这些调查数据中不难看出,尽管搜索服务提供者在研发搜索技术方面已经花费了大量的时间和精力,但是目前的搜索引擎仍然存在不少的局限性,比如信息丢失、返回信息太多、信息无关,这使得网民对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。

由于自然语言理解技术的三方面功能,即机器翻译、语义理解及人机会话技术能够赋予搜索技术更具人性化、方便易用的特点。因此,近年来在搜索界得到了广泛的应用。无论是国内外的搜索引擎,都可以寻觅到语义理解、机器翻译的踪迹。

目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征。它允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。

与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网络交流更加人性化;二是使信息查询变得更加方便、快速和准确。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性。比如国外的搜索引擎Google,,AskJeeves;国内的搜索引擎网易、尤里卡、问一问、21世纪互联、孙悟空、悠游等。在这里我们将重点介绍应用语义理解技术的中文智能搜索引擎。

首先以尤里卡搜索引擎为例简要说明一下这种智能搜索的过程。

实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中,知识库是实现智能搜索的基础和核心。知识库提供的是语义理解中最终将要提供给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所以知识库也需要有良好的适应能力。在语义理解的整个过程中,智能分词技术是最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的信息,这是后期语义分析的质量和速度的重要前提。

加入了知识库处理技术的智能分词能够避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。知识检索可以利用语义分析的结果,对知识库进行概念级的检索,对用户提出问题给出准确度最高、相关度最强的检索结果。比如:"我想在北京找工作?"。首先进行语义理解,在知识库中"找工作"属于求知招聘的范畴,所以分析出用户想查询"在北京求职"。然后利用"在北京求职"这个概念查询知识库,得出答案。

下面我们再来看看各家宣称应用了自然语言理解的搜索技术有哪些特点。

问一问(www.weniwen.com)自然语言检索
问一问是由闻易网科技有限公司(Weniwen Technologies, Inc.)开发的智能搜索引擎。它允许用户以自然的、整句的方式、以汉语或英语发出查询请求。易于快速地、以比较经济的方式扩展到不同的语言。 并可以同时从两种语言中识别出词汇。使用自然语言处理(NLP)技术,与传统的、基于关键词匹配的搜索技术相比,NLP技术可使问一问"理解"请求中的上下文和含义。通过使用NLP技术,问一问可以更准确地检索出适当的信息。尤其适用于旅游/休闲、金融以及消费品工业的、正在寻求可增强消费者通过Internet来访问其信息或进行自动交易的途径的大企业或门户。

21ilink(www.21ilink.com)中文智能搜索引擎
世纪讯联公司开发的基于自然语言处理和人工神经网络的智能互动技术解决了传统信息分类中的一些语意交叉词汇抽象概念、边缘类别的信息查询问题实现了模糊查询。查询过程突出了个性化、人性化。采用了自然语言的语句单元,还可设定地方语言特色。界面更加友好,能够满足不同层次,不同查询目的客户的特殊需求。并能引导查询者快速准确地找到所需要的信息。此项智能搜索技术采用国内独创的中文问答方式,并兼容了其他传统的搜索引擎的查询方式。支持基于概念的信息搜索、行业化、专业化的智能搜索、客户定制的商务模型,还可完成管理、追踪、支付等一系列的供应链的分析、行业研究等咨询项目。实现了多方协作,业务拓展的无缝结合。

此项智能搜索系统是将现代智能计算技术、交换技术、网络技术、数据库技术融为一体,而建成的一个面向客户的,全方位高质量的服务体系。采用了独有的Smart Hit(智能语义)、和Kengine(知识引擎)。开放性、先进性和超前性均大大领先于同类系统。全套系统拥有完整的智能网络接入服务功能,支持各网络平台的语音文字、数据及图像,是一种智能多媒体平台。平台无中断,支持宽频网络,满足对数据库全内容覆盖要求。支持概念检索、动态页面检索。

孙悟空(search.chinaren.com)搜索引擎
孙悟空搜索引擎是ChinaRen开发并拥有自主版权的产品,能按照用户的需求,搜索大陆和港澳台的中文网页。孙悟空搜索不仅可用传统的关键词搜索方式,更是在所有中文搜索引擎里率先采用了提问式搜索,这是ChinaRen研究并实现的一种智能中文处理技术。通过该技术,您可以直接通过提出问题的方式搜索您想要找的内容,这样不仅更符合我们平时的习惯,而且准确率更高。孙悟空搜索引擎拥有强大的搜索能力,提高搜索的智能性和准确性;智能的评价体系,保证检索结果高度相关。

悠游(www.goyoyo.com.cn)中文智能搜索引擎
北京悠游科技开发有限公司(Beijing Goyoyo)成立于1998年10月,是一个以中文自然语言处理技术为基础建立的互联网信息咨询及技术服务网站(www.goyoyo.com)。悠游中文智能搜索引擎通过www.goyoyo.com 提供主要服务。为了更贴近用户的语言使用习惯,凭借先进的自然语言处理技术,悠游中文智能搜索引擎充分考虑到中文语句的表达结构以及丰富多样的词语表达形式,通过"口语化的提问,智能化的结果" ,让用户在查询时只需用口语化的表达方式输入欲查询的关键词、自然语句甚至输入中英文混合语句,选择要查询的网站或网页,单击"搜索"按纽,悠游中文智能搜索引擎就会根据您的查询请求自动分析语句,并且提炼主题,找到满意的答案,满足了广大用户的各种查询需求,使您能够悠闲自得的在网上畅游。

下面举例说明应用了语义理解技术的搜索引擎与传统搜索引擎相比的优势。

1、更高的搜索的易用性
由于智能搜索引擎具有智能分词功能,因此使得查询变得更为简单、易于操作。以网易为例说明:需要搜索"刘德华的最新个人专辑",只需要将整个搜索内容全部输入到搜索框中就可以找到相关的内容;而在传统的搜索引擎中则必须遵守搜索的基本数学规则,输入"刘德华 最新 个人专辑"才能够找到搜索的内容。显然在搜索的易用性方面智能搜索引擎具有明显的优势。

2、搜索结果的范围定位准确
由于采用知识(概念)检索技术,明确和缩小的搜索范围,减少对无用信息的搜索。以尤里卡为例说明:要查找"北京的天气"只需要输入"北京天气"就可以找到相关程度甚高的北京的天气预报,同时还会给出相关的天气的内容。而在传统搜索引擎的查询结果中不但有北京天气的内容,还会给出所有与北京天气字样有关的各种内容,增大了用户查找搜索结果的难度。

3、搜索结果的智能性
由于智能搜索引擎有综合知识库为背景,使得信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异的问题。所谓表达差异就是用户使用不同的词表达同一概念。而知识库中关于同义词的定义正好可以消除这种表达差异带来的检索困难。

从上面的示例及比较不难看出运用了先进的自然语言理解技术后,搜索引擎可以识别并回答用户的问题,使用户摆脱了传统搜索引擎基于关键字的束缚,指引用户更有效更快捷地寻找到所需的资料,同时为用户提供相关的有参考价值的其他内容。由于这些特点,使得智能搜索技术能够在互联网信息检索的各个方面得到广泛的应有。它可以为大型综合搜索引擎提供后台支持,使之具有人性化、交互性的特点。它能够方便的实现垂直搜索引擎的专业类别内搜索。当然它也可以为信息门户网站提供方便快捷的站内信息搜索服务。

专题:搜出多彩新世界
发表于 2003-10-27 12:53:28 | 显示全部楼层

抱歉:)

查了一下,国内也有不少与本讨论题相关的技术文章,但下载受到了限制,很抱歉!
再想想办法看看:)
发表于 2003-11-1 11:09:22 | 显示全部楼层

论汉字繁简与“书同文”

作者:孙剑艺
来源:http://hzdt.xiloo.com/stw1-004.htm

湘里妹子学术论坛-www.xlmz.net-2003

     一、书同文是祖国统一的呼唤

      书同文,就是指文字的相同与统一。随着时代的发展,古今“书同文”的概念也有所区别。古代的文字,无论是用于日常交际还是官方文书等,都是手写的。而自从印刷术产生后,出现了写与印的分家,个人应用与社会应用的界线也比较严格了。故,今天的书同文,主要是指社会用字的书同文,再严格点说,是指印刷用字的书同文。因为“书同文”是历史上形成的固定称说,所以我们仍沿用之。

    书同文历来是一个国家、民族团结统一的象征。《礼记·中庸》载:“今天下车同轨,书同文,行同伦。”那实际是指周王朝大一统时的情形。到了战国时代就不同,那时是“言语异声,文字异形”(许慎《说文解字·叙》。随着秦统一大业的告成,秦始皇进行了一番“一法度衡石丈尺、车同轨、书同文字”(《史记·秦始皇本纪》的工作,书同文的局面又出现了。自秦代的书同文以后,汉字自身又经过了隶变和楷化的演进,发生了很大的变化。唐代统一以后,在重视经学、校理典籍的同时,也对文字进行了一番较大规模的整理厘正,大胆地将后起的楷书立为用字规范,使汉字呈现了一番新的面貌。

    自唐代官定“字样”和雕版印刷的兴起而使楷书定型化以后,汉字又经过了千余年的发展历程。这千余年来,语言和人们的意识都发生了很大的变化,使原来的“正字”显得越来越不“正”,构形理性越来越丧失,而徒具笔画繁杂之外壳。同时,人们为了适应语言和社会的新的发展与书写等的便利,又造出了大量的新字、异体字,就以《康熙字典》来算,我们的汉字已有四万七千多字。汉字经过这千余年的变迁,正字不正,异体繁多,越来越给人们的使用和学习带来诸多不便。而千余年来,也再没有那一个朝代站出来对汉字进行一次整理和规范的工作。

    本世纪初,随着新文化运动的兴起,一批仁人志士痛感于汉字的繁难和汉字系统的庞杂,开始了对汉字的简化整理,并受到政府的重视。1935年民国政府正式公布了《第一批简体字表》。但是由于宣传准备工作做得不够,又于次年下令收回。接下来便是八年抗战、三年内战,这次汉字规范化的运动便搁浅了下来。50年代中华人民共和国政府公布了《第一批异体字整理表》和《汉字简化方案》(后归《简化字总表》),才使汉字重新走上了规范化的大道。遗憾的是,此时,大陆与台湾已处于政治上的分裂与对立状态,文字政策也分道扬镳,不能同步前进了;同时,香港和澳门,由于是历史上遗留下来的问题,也是中国政府的政令行不到的地方。这样,中国九百六十万平方公里大地上,实际上有两种文字制度,现行汉字的印刷正字是“一字两体”,存在着事实上的“书二文”。

    进入新时期以来,大陆率先打开了对外开放的大门,提出了“和平统一祖国”的主张。而今,香港、澳门回归祖国指日可待,台湾与大陆的关系也日渐缓和与密切,各方面的交流日益增多。书同文正是两岸四地交往与祖国统一美好前景的呼唤,自然也应是祖国统一后的必然结果。因为,祖国不统一,文字形体的彼此差异自是无可奈何之事;文字本身虽然没有阶级性,但文字政策却有一定的政治性,当然谈不上书同文。如果祖国统一后,中国政令一统,仍久久不能实现书同文,那就会让全世界人民看笑话,也是与全体中国人民的愿望相违背的。

  

二、书同文是时代发展的要求

  

    语言文字是人类最重要的交际工具,这已成为人所共知的常识。之所以重要,是因为语言文字是人们日常生活中要经常、反复运用的工具。一般说来,文字是记录语言的辅助交际工具,可是进入现代社会以后,文字的重要性又显得尤为突出。现代化时代,社会交往日益频繁,科技、文化等知识日益增多,这些知识又多以书面的形式出现,报纸、杂志、书籍等成了不可缺少的信息产品,是人们进行交流的重要途径。而文字,作为书面语言及信息的载体,其重要性自不待言。这就要求文字的形体要高度规范化和标准化,不然就会给信息产品的制作和交流带来不便。

    就文字的规范化来说,大陆和台湾都重视了这个问题。大陆的文字规范卓有成效不必说.台湾的现行汉字也是进行了一番规范化工作以后的结果,其间也经过了简化和整理。只不过由于客观的原因,台湾的文字规范化无法与大陆协调一致,而是形成了自己的两套标准,一套是印刷正字《常用国字标准字体表》,一套是手写规范《标准行书范本》。所以大陆与台湾(以及港澳),可以说都实现了自己的规范化,达到了相对的统一。但是,从双边交流的角度来看,从祖国统一的高度来看,这样两套规范,就不适应时代发展的要求了,现代化社会是一个讲速度效率的社会。文字工作的效率直接关系到现代化建设的速度。如果我们在日常工作中将大量时间和精力耗费在繁简的选择和转换上,就会影响工作的效率。所以,时代的发展,现代化的社会,对祖国的书同文提出更高的要求。

    随着信息社会、电脑时代的到来,信息已成为一种重要资源,信息处理用的文字标准化也提到日程上来了。文字形体不一致,就会给计算机处理带来不必要的麻烦。印刷技术已表明,同样的字号,笔画繁难的字,清晰度差,阅读性能差,为了印刷清楚,就要加大字号,这样就加大印刷文本的厚度。电脑处理也存在这样的问题,因为无论以什么方式输入,最终结果都是以书面形式输出才能供人使用。计算机处理技术表明,15×16点阵是表示汉字字形的最低信息量。实际证明,经过简化的汉字,如“尝、宝、应、击、粮、响、惊、丽”等,比相应的繁体字,无论在点阵字形的设计还是输出方面,都获得了方便。笔画繁多,就得加大点阵规格才能使字形清晰,但这样就要减少计算机信息的存贮量。特别是现在信息处理技术已经由健盘输入向语音和文字的自动识别过渡,这就对文字的规范化、标准化提出了更高的要求。

    当然,电脑技术的发展,也克服了汉字“难写”的烦恼,一按键盘,马上就可以做到简繁转换。但是,这绝不能成为汉字繁简两套标准并存的理由。由于客观原因,我们的电脑有时不得不进行繁简转换的工作;可是,祖国统一了,我们能老是在电脑上玩这种繁简变换的电子游戏吗?再说,当今的信息处理与交换,需要面向全球。就世界范围来说,要把各文种的字符集,集合为一个全球性通用编码字符集。目前国际标准化组织已提出一个国际标准草案,叫ISO/DIS 10646《信息处理——通用编码字符集》。各国都将根据其要求起草自己的字符集,以便纳入国际标准,促使多文种处理的环境早日实现。那么我们中文这样一个世界上使用人口最多的文种,将来能带着繁简二体的标准进入国际标准吗?答案只能是否定的。我们的汉字是以一个个方块符号来记录词或语素的表意文字,进入电脑本来就比拼音文字稍逊一筹,如果再背着繁简二体的包袱,是难以在现代化世界信息高速公路上奔驰的。有识之士曾断言:21世纪是汉字在世界上发挥威力的时代。不错,但是,作为我们泱泱大国的文字,它应该以规范统一的面目走向世界,而不应长期以繁简双重面孔去发挥威力。

    现代化的基础是教育。文字不统一,首先对教育有极大影响。祖国统一后,我们应尽快使汉字形体统一为一种正字标准,让小孩子有所适从。有人看到台港澳与大陆之间存在着实际上的繁简对立,从统一祖国的角度出发,提出在全国范围内确立繁简皆为现行的合法交际工具。其愿望虽是良好的,但却没有顾及实行起来后的客观效果,那样首先受累的就是教育,特别是基础教育。亿万少年儿童,由于汉字的繁难,只学一套规范正字已感到很吃力,同时学两套,陡然增加了学习负担,怎么会不叫苦连天?孩子们正处在长身体长知识的黄金时代,把大量黄金时间用在学习繁简二体上,岂不影响学习科技文化知识的步伐?繁简皆正,小孩子们应用起来,必然出现“亦繁亦简,忽繁忽简”的情形(社会应用亦复如是),这却如何是好?所以从“救救孩子”的立场出发,我们也要做到文字规范化,并进而实现全国范围内的书同文。

    现代社会是高度文明的社会,文字的规范化对一个国家和民族来说,是其文明程度的一种标志。如前所说,台港澳和大陆相对说来都实现了自己的规范化,但从中华民族一体的角度考虑,这就成了两套规范。当前,国际间的交往日益扩大,世界范围内的信息交换在日益拓宽。国际上的交流和交往,唯独到我们中国这儿得被迫使用和接受两套文字规范。长此以往,外国友人不会不对此“耿耿于怀”,无形中也就影响了我们民族的文明形象。所以,不尽快实现大一统的书同文,不仅与现代文明社会的要求不相适应,面对世人,我们炎黄子孙也自感脸上无光。因此可以说,形势和时代的发展呼唤着书同文!

  

三、书同文前的汉字繁简

  

    全国范围的书同文,毕竟是将来的事,目前我国大地上毕竟存在着繁简两套印刷体并立的客观现状。由于历史的原因,繁简两套规范正字,以前是井水河水两不犯,相互对立,各自为政。但事物总是发展的,对立和隔绝不会永久。“文革”结束后不久,大陆便打开了对外开放的大门,也揭开了与台港澳关系的新篇章。于是,原来的隔绝状态消除了;台港澳与大陆逐渐开始了各个领域的频繁交流。而作为双方最重要的交流工具和信息载体的文字,再相安无事,办不到了。其结果只能是繁简两套印刷规范的接触和交流。既交流,就难免此一规范冲击彼一规范,彼一规范冲击此一规范,这就给双方各自的文字规范化造成影响和困难,也给在新形势下如何搞好文字规范化提出了新课题。

    首先,文字规范化一定要坚持,文字规范无论何时都重要。不能因为开放交流而先自乱标准。这就是说,双方既不能立即放弃自己的规范而改从对方的规范(例如让大陆首先恢复繁体字的主张);又不能首先让对方的规范改从自己的规范(比如我们不能让台港澳的书刊、合同契约、商品说明书等先改成简化字再进来);也不能把两套规范混合起来(例如在全中国搞繁简并用的主张是错误的)。但另一方面又要坚持开放交流,不能因为现行汉字印刷形体的暂时差异而影响双方交流。这就需要灵活对待,具体情况具体分析。比如 1993年4月大陆海协会与台湾海基会举行的汪(道涵)辜(振甫)会谈,最后签署了《汪辜会谈共同协议》等四项协议,各决议都列明,该协议“一式四份,双方各执两份”。四份就是简繁文本各两份,双方分别执简繁文本各一份。这是在比较正式的场合双方交流时采取的最好的折中办法,也是没有办法的办法。

    随着开放交流,双方的规范也就无法像以前那样壁垒森严,而是相互冲撞,相互渗透。比如在大陆,由于台港澳的繁体字不断进来,大陆的某些单位和个人,出于经济或文化等方面的心理,而有意去趋奉,这就造成了大陆某些社会用字的“繁体回潮”。对社会用字的不规范现象,除了加强宣传和管理外,有些地区和单位还总结出了“堵源截流”的经验。“堵源”就是堵住产生不规范用字的源头,除了让新闻传媒率先垂范外,还预先向书法家和牌匾、广告的制作单位做好宣传,使各种信息产品一产生就以规范字的面貌出现。这无疑是很值得提倡和推行且行之有效的办法。但这种堵源只能是堵大陆一方的源,却不能也无法堵台港澳方面的源。由于有台港澳这个“源”在,大陆对不合于本方规范的社会用字,禁止而难以禁死,但搞活又绝不能搞乱。一方面要坚持文字规范化,不能自已搞乱,另一方面又要坚持对台港澳的开放交流。这就是新形势下的文字规范化面临的新问题。

    由于开放交流,大陆的文字规范化难以做到“禁死”,甚至出现了那么一点繁体字的“回潮”,这似乎是不利的一面。但另一方面我们也应该看到,事物总是相互作用的,大陆的规范也影响着台港澳的规范,君不见,在台港澳,简化字却正在“升潮”。据报道,近几年在台湾,大陆的《简化字总表》成了抢手货,台湾《自立晚报》1992年3月13日发表专论,公开提倡推行简化字。香港的一些刊物,为了开通大陆的稿源,也开始提倡“繁简由之”。事情就是这样变化多端。

    这就是说,台港澳与大陆文字上存在的繁简的差异,在交流中发生了“碰撞”,给双边的交流及文字规范化带来了一定的“麻烦”,但从长远看,这又是一件好事。因为如果不交流,差异将永远是差异。相互碰撞和交流的结果就是相互熟悉和接近,并进而达到最终的融合统一。这是书同文前的必然的过渡阶段,也是向着书同文目标的曲折前进。比如黄河在入海的时候,河水与海水也有个相互冲击的阶段,也有“回潮”,但最终还是走向融合与统一。秦代的书同文,中间也经过了交流与融合的过程,经过春秋时期、各诸侯国间相互征伐和兼并,到战国时期,形成了七国争雄的形势,出现了“百家争鸣”的局面。百家争鸣,也必然“百家交流”;各国都在交流,文字也不能例外。不交流,只通本国文字就够了;一交流,由于各国文字的“异形”,即秦大篆与六国古文的并立,自然会遇到不少麻烦。由于特殊需要,如外交家和游说之士甚至要通晓和使用数国文字。因为客观形势如此,不能先统一文字再交流,而是先交流,然后才能统一。怕麻烦也没办法。正是通过这种交流和“碰撞”,各种字形才越来越为大家所熟悉,差异之所在才越来越为大家所体察,为走上最后的统一奠定了基础。战国的七国文字就是这样经过交流和融合,最终走向了统一。

    当前的汉字,一方面各自维持现状,既不放弃自己的规范,也不强迫对方改变规范;一方面又要进行开放交流,特殊情况下采取灵活变通的对策。在开放交流的大潮中,由于客观形势的逼迫,大陆的人们要来一下“识繁”,台港澳的人们则来一下“识简”。虽然“麻烦”这么一下,但这样一来,人们对两种字形的差异所在也就熟悉了;有比较才能有鉴别,各字形的长短得失也就显露出来了、制定共同的标准也就有了选择的基础。繁简的交流,最终也会走向融合和统一,走向书同文。

  

四、书同文的指导思想

  

    前面说,由于中国的现行汉字印刷体存在繁简的差异,所以大陆和台港澳在各项交流和合作中就不能怕麻烦。但是,这种不怕麻烦,是硬着头皮的不怕,因为客观现状如此,而麻烦终归是麻烦。大家对繁与简,不得不硬着头皮去“识”不说,有时还得硬着头皮去“用”。比如前举汪辜会议签协议,本来我们是同一种文字,但却要签一式四份。所以,我们这一代炎黄子孙,也有责任早日消除这种麻烦,尽快实现祖国的书同文。

    那么,书同文的标准又该如何呢?书同文的基础是什么呢?书同文的标准,不能退回到老祖宗那里去找,也不能从外国引进。书同文的基础,只能是中国的现行汉字,包括大陆的现行简化字,台港澳的印刷体以及台湾的手写范本。书同文的标准,只能在此基础上产生。

    可是,我们在现行基础上进行选择的时候,在统一书同文的标准的时侯,总体指导思想应该是什么呢?这不能以个人偏见而论,也不能以政治或其他偏见而论,而是要从历史发展的观点,从便利群众的观点,从符合时代要求的观点来考虑。在这点上,汉字自身形体发展的历史和老祖宗对待此类问题的做法,会给我们以某种启示。

    翻开汉字发展史,我们可以发现,汉字的形体不断在变,其中既有点画的增减、偏旁的更换这样的小变化,又有整个体系面貌的大变化(如隶变)。变的原因不外两条,一是便利书写,二是准确表达。文字是交际工具,是工具就得求便利,所谓“工欲善其事必先利其器”。而书写的材料及工具也是在变的,由龟甲兽骨、竹简布帛以至后来的纸,由刀刻、笔写到印刷。工具材料变了,字的线条笔画就会出现新的风格,人们便在新工具新材料的基础上追求新的便利。这就促使汉字形体发生不断的改变,有时竟变得与原来形貌相异。例如主要基于书写便利而发生的“隶变”,就使古汉字的象形表意性丧失殆尽。文字又是记录语言的。先民们造字之初,绞尽脑汁,尽量使语言中的意义在文字的形体上表现出来,所谓象形、指事、会意,就是形体直接跟意义挂钩的;而语言是有声的,文字是可读的,于是先民们又尽量让汉字形体与语言中的声音挂起钩来,这就是形声字大量产生的原因。《说文》小篆形声字已占 80 %以上,后来更多,以至于有人干脆把我们的汉字叫做“形声体系”。形声体系的汉字就像人有两只手,一只手伸向语义,一只手伸向语音,确乎高明。依义造形,依音造形,这充分体现了我们祖先的聪明智慧和我们汉字的形体之“美”。

    按说,这样的文字是不该变的,这样的“美”是不该丧失的。可是无情的事实表明,汉字原有的那种形体之“美”,却逐渐地退化乃至消失。问题很简单,正因为文字是表达语言的,而语言却是不断地发展演变的,语音、语义都变了,先民们以原来的音与义造的形,其“美”也就自然消失了。比如我们常说的“汉族”“汉语”“汉字”“男子汉”等词语当中的“汉”字,其形、声之“美”早已消失净尽了,但却并非简化所致。其形符“氵”的表义原理在常用义中,随着汉王朝的兴盛,早就不复存在了。在繁体的“漢”中,其右边的声符,也早已表不出声来了。许慎在《说文》中说它是“難(难)省声”,段玉裁则以为是“浅人所改”,认为应该从“堇”声。可是从“堇”声的道理,即使是古音学家也得绕好几个弯子才能得出声来,所以有声也是等于无声。事实证明,还是许慎说得对。中国历史博物馆藏有50年代发现的春秋时期楚国的一枚铜节:鄂君启舟节。上面两次用到“漢”字。确实从“難(难)”。但那样一来更糟。“漢”就成了“灘(滩)”,而《说文》明明另外收有“灘(滩)”字。那么“漢”在过去到底该读han还是该读tan或者别的什么音,“漢”与“灘”古代到底是一个字还是两个字,这只好留待好古之士去考究了。类似这样的构形之“美”消失的例子是不胜枚举的。

    总之,由于时代的发展(书写工具和材料都在发展),语言的演变,人们为了适应新的需要和语言的新变化,便将原来的字形加以改进,这就促成了汉字形体的发展。发展中,有时是在原字的基础上增加偏旁,如:益一溢,前一剪,要—腰,亨一烹等。有人单就这一点说,汉字的发展规律是繁化,听起来也像是不无道理。但是,这是汉字的“孳乳”,是适应语义的分化演变而产生的滋生分化,绝不是单纯的“繁化”,并且这种滋生分化完成以后,它们仍要受“求便利”这条规律的制约,走向趋简的路。所以,笼统说汉字的发展趋势是简化,好像不大全面,要说是在明确表达的前提下尽量求简化,就较为全面了。实际上,汉字正是在这个定律的约束下向前发展。比如“尘、床、达、递、灯、刍、麦、继”等简化字,一千多年前就有了,有的既表达明确,又书写便捷,可以二美兼具。如果繁体和简体表达都不明确怎么办?人们还是愿意选择简体。比如“漢”与“汉”,繁体的那个声符,在其位而不生其效,而徒具书写之繁难,这样就不如用一个同样无理的符号“又”将它顶掉,至少还能得书写便利这一条优点。同样的情况,人们都愿意求简求便,因此汉字的简化就不断在汉字使用者的手头上发生。像“无”、“礼”这样的字,战国时候就这样写了。所以,去繁趋简,应是汉字形体发展的总体趋势。

    历史上的当政者在进行文字规范化的时候,也总是顺应汉字的发展趋势,总的原则也是——趋简。比如秦代的书同文,如果出于政治上或感情上的考虑,将秦国的大篆立为正字也就了事了。但秦始皇并没有简单地这样做,而是让李斯等人以统一前的文字为广泛的基础,兼采六国古文,从而整理成更加简易规整的小篆,作为书同文的标准;并且大胆承认“贱民”们的“隶书”的草率手体地位。这次大规模的文字规范化,其趋简倾向是十分明显的。

    唐代的字样之学是确立楷书正字的又一次文字规范化运动。自秦至唐,汉字又经过了八九百年的发展,其间经过了隶变和楷化两次大的飞跃,但由于种种原因,官方没有对汉字再一次予以正定,隶书在汉代就已成了实际上的正体,但小篆虽早已退出了文字的日常应用,却仍保留着名义的正体地位。唐代是个大一统的时代,也是一个开放的时代,对文字的规范十分重视,有专门官吏来掌管。唐有天下,儒学大兴,太宗诏颜师古考定五经,厘正文字,其后又诏孔颖达撰五经正义。“自五经定本出,而后经籍无异文……每年明经,依此考试,天下士民,奉为圭臬。”(马宗霍《中国经学史》)其正定文字的总的指导思想就是应时致用,即:不求复古,但求利今。颜师古著《字样》,其侄孙颜元孙著《干禄字书》,以及后来张参著《五经文字》,莫不如是。“应时致用”也就包含了“趋繁避简”在内。如张参的《五经文字》,在规范正字的时候,如果遇到两个字形,一个是较多地保留了篆书结构和笔意而较繁的“隶古定”,一个是在此基础上进一步省简的“隶省”,他一般将“隶省”立为正字,例如“?”“搜”二字,前者是《说文》篆文的隶古定,后者是经中相承的隶省,他就把“搜”定为正体。这样一来就更加彻底消除了古文字的影响,使汉字更加笔画化、符号化。经过唐代的这一番规范整理,魏晋以来新兴的楷体就正式成了官立的规范正字,汉字的形体在“去繁趋简”的方向上又迈进了一大步。

    唐代以后,由于官方的以经学取士渐成定规和印刷术的日益兴盛,这种厘定的楷体渐趋于固定和保守。但汉字形体并不是从此不发展了,因为语言、社会仍不断在那里发展,一些表音表义更加合理化、书写也更加简便的字形便不断在民间产生出来。只是由于那些老化的字形,一直赖在那个正字地位上不走,这些新生的优秀字形一直被挤在不登大雅之堂的“俗字”地位,千余年来也再没有哪个朝代的当政者出来把它们“扶正”了。本世纪初,一批爱国的志士仁人,在政府的支持下,曾经进行了一番汉字整理和简化的工作,但由于历史条件所限,结果功亏一篑,没有最后成功。新中国成立后,上承汉字历史发展的优秀成果,下承本世纪前半叶志士仁人及前政府的未竟之业,终于使汉字的整理和简化取得了成功,使汉字的楷体正字在经过唐以来千余年的发展后重放光辉。几十年过去了,实践证明,这一批新的规范正字,尽管还有某些不足之处,但从总体上看,它不只是对汉字的一次整理和简化,而且是对整个汉字体系的一次系统优化!

    鉴古可以知今,鉴往可要知来。我们清楚了汉字形体自身演变的情形,清楚了古人、前人对待汉字形体自身演变的态度以及进行文字规范化时的主导思想,在今天考虑书同文的标准时,对今日的现行汉字形体,就知道该如何对待了。汉字形体发展的总体趋势既然是“去繁趋简”,我们也不能违背它;古人对待汉字的态度既然是“舍繁从简”,我们也不能反其道而行之。否则世界人民会疑惑:难道今天的炎黄子孙还不如一千多年前的唐太宗、两千多年前的秦始皇开明?但从简,并不是说一依大陆简化字为准,而是就总体思想而言。在具体取舍时,大陆字形也要修正,有的可能恢复繁体,台湾手写本《标准行书范本》中的一些优秀分子也可上升为正体。关键是摒除偏见,两岸共识,求同存异向前看。

    总之,我们的书同文,应该是前进的统一,而不能是后退的统一;是对现行汉字的一次更加优化,而不能是相反;是更加符合历史发展和时代要求,而不能是相反。

    我们正处在一个跨世纪的历史时期。我们要对历史负责,对人民负责,对子孙负责。我们这一代跨世纪的炎黄子孙,应该切实肩负起跨世纪的历史责任!

               (济南市山东大学文史哲研究所,250100)

               原载中国社科院《台湾研究》1995年第3期
发表于 2003-11-1 14:09:56 | 显示全部楼层

汉语拼音文字的同音词怎么处理好

来源:http://fhpi.yingkou.net.cn/bbs/1951/messages/10915.html
湘里妹子学术论坛-www.xlmz.net-2003
   
      汉语拼音文字整理词汇,会发现很多同音词和同音同调词。这些词汇,有的可以通过上下文了解其含义,有的则不一定,往往会造成混淆。作为文字应当严格起来。要说一不二。

定型分化同音词,最好采用多种方法。

一、采用不同的标调法会解决一大部分问题。
1、汉语拼音符号标调法,有一定的社会或民众基础,汉语拼音方案在大多数人们心目中有较深刻的印象。如果此方案成立,在各种编辑软件中都会想办法安排打调号的功能。
A ā á ǎ à   e ē é ě è   i ī í ǐ ì   o ō ó ǒ ò   u ū ú ǔ ù   u ü ǘ ǚ ǜ
等都会很方便地输入。这是具有中国特色的文字,在外形上区别于英法德意等文字。
2、字母标调法。新华拼音文字采用 v、 w、 x、 y分别代表一、二、三、四声,标在每个音节的后边。多元字母标调法采用多种字母标注声调,按照既定的规则,每种声调有多种方式标注法,方便于区分同音同调词。标调字母集中标注在词尾。对于双音节词,可以全标调,也可以只标注第一音节,更可以只标注第二音节,不会发生混乱。单音节词和多音节词仿此。
3、用数目字标调,不可久留。因为其方式简单明了,可以暂时作为普及形式。
4、用从编辑软件中随便取来的符号,或从键盘上窃来的符号标调,实在行不通。
5、其他标调法有的可以作为“异拼”方法处理。
除符号标调法外,标调符号都占一个符号位。

二、采用“异拼”的方法区分同音词。“异拼”的形式多种多样。大规律中包含小规律,也可以叫做特例。吸收“国罗”的标调法,吸收或仿照“北拉”的特殊拼法,现代学者创造的拼法,在实际应用中按照“约定俗成”规律形成的拼法,等等。“异拼”方法多种多样,靠大家去创造。
有时为了某种缘故,忽略声调现象。Shaanxi (陕西)区别于山西(Shanxi),可以考虑。“陕西”利用了“国罗”的标调法,习惯成自然。
作为“异拼”,偶尔用“au、 ung”代替韵母“ao、 ong”,好不好?
用“ y”代替“吕”、“女”的韵母或“知、吃、师、日、资、词、斯”的韵母,行不行?
偶尔用“ j、 q、 x”代替“zh、ch、sh”( zhi、 chi、 shi以外),行不行?
用“ g、 k、 h”代替“ j、 q、 x”,行不行?
偶尔用一用尖团音,好不好?
汉语中没有 zho、 cho、 sho音节,异拼中,用其代表zhuo、chuo、shuo音节,可不可以?
看起来多么混乱啊!惯用法,创造或发明,任何语言和文字都会有一些怪现象,天长日久,约定俗成,就会深入人心。害怕了吗?“Look out”!?“异拼”永远是少数。

化学名词、医药名词,可以使用异拼。化学元素,除了常用的以外,可否考虑加上偏旁部首?难矣!

“异拼”要列在词表中。要按正拼排序,加注异拼;同时也按异拼排序,按正拼注音。拼音词汇用汉字解释,将来过渡到汉语拼音文字辞典用汉语拼音文字作解释。
按“异拼”排序,供阅读时使用;按正拼排序,供写作时使用。

汉语拼音文字是汉民族的辅助文字。他以拼写普通话为主,他永远不会取代汉字。它可以逐渐发展、完善。
在他趋于完善之时,它的词汇逐渐固定下来。全部定型化,大家共同遵守。大多数词汇定型为原形,这些词汇基本上没有同音词。

目前全国在学习英语,但是精通英语的人数十分有限!英语永远不是汉民族的语言,也不是汉民族的第二语言。有人在国际学术会议上用英语宣读论文,忘记了自己是炎黄子孙,一副奴才相。同声翻译还得译成汉语,会不会走样?学习英语是为了学习外国、发展经济的需要。大家都说英语,抛弃了汉语,那么汉民族不是变成了“英语国家”的殖民地?
发表于 2003-11-1 14:44:32 | 显示全部楼层

向水电工先生请教一个问题:)

现代汉语教学中,在共同语和方言这一节将要谈到7大方言区的比较,目前教科书主要是以语音做比较条件来谈的。比如黄伯荣、廖序东主编的《现代汉语》(上册):《现代汉语方言语音主要主要特点表》中就是对7大方言从5各方面来进行语音比较的。要进行方言语音比较,就必然离不开国际音标的注音,否则几乎无从下手,也没有价值。


这样一来就要求学生掌握汉语拼音字母与国际音标这两种记音符号,如果这一知识点的基础打好了,还会为下阶段《语言学概论》这门课程的学习带来好处。

      
我想求教的是:能否解决这么一个问题,即在输入一个汉字(词)后,马上能同步转换成汉语拼音和国际音标?就像您系统中汉语拼音和英语同步转换一样

如果能解决这个问题,那将会给语言教学带来很大的方便:-P

水电工先生,要写一个这样的程式一定很难对吗?:-P
但我仍然会满怀信心地盼望着。。。。。。
 楼主| 发表于 2003-11-1 17:20:46 | 显示全部楼层

Try

上面所說的要求不難滿足,先看看這個朋友作的↓
http://www.hokoy.com/Works/Tool/WordYin.aspx
发表于 2003-11-1 17:34:19 | 显示全部楼层

怎么会酱紫的?


zai4 别
bie2 康
kang1 桥
qiao2



xu2 志
zhi4 摩
mo2


qing1 轻
qing1 的
de5 我
wo3 走
zou3 了
liao3 ,


zheng4 如
ru2 我
wo3 轻
qing1 轻
qing1 的
de5 来
lai2 ;




wo3 轻
qing1 轻
qing1 的
de5 招
zhao1 手
shou3 ,



zuo4 别
bie2 西
xi1 天
tian1 的
de5 云
yun2 彩
cai3 。



na4 河
he2 畔
pan4 的
de5 金
jin1 柳
liu3


shi4 
shi4 夕
xi4 阳
yang2 中
zhong1 的
de5 新
xin1 娘
niang2



bo1 光
guang1 里
bao1 的
de5 艳
yan4 影
ying3 ,



zai4 我
wo3 的
de5 心
xin1 头
tou2 荡
dang4 漾
yang4 。



ruan3 泥
ni2 上
shang4 的
de5 青
qing1 荇
xing4 ,


you2 油
you2 的
de5 在
zai4 水
shui3 底
di3 招
zhao1 摇
yao2 ;


zai4 康
kang1 河
he2 的
de5 柔
rou2 波
bo1 里
bao1 ,


wo3 甘
gan1 心
xin1 做
zuo4 一
yi1 条
tiao2 水
shui3 草
cao3


na4 榆
yu2 荫
yin4 下
xia4 的
de5 一
yi1 潭
tan2 ,


bu4 是
shi4 清
qing1 泉
quan2 ,



shi4 天
tian1 上
shang4 虹
hong2



rou2 碎
sui4 在
zai4 浮
fu2 藻
zao3 间
jian1 ,


chen2 淀
dian4 着
zhu4 彩
cai3 虹
hong2 似
si4 的
de5 梦
meng4 。



cheng1 一
yi1 支
zhi1 长
chang2 篙
gao1 ,


xiang4 青
qing1 草
cao3 更
geng1 青
qing1 处
chu4 漫
man4 溯
su4 ,



man3 载
zai4 一
yi1 船
chuan2 星
xing1 辉
hui1 ,


zai4 星
xing1 辉
hui1 斑
ban1 斓
lan2 里
bao1 放
fang4 歌
ge1


dan4 我
wo3 不
bu4 能
neng2 放
fang4 歌
ge1 ,


qiao3 悄
qiao3 是
shi4 别
bie2 离
li2 的
de5 笙
sheng1 箫
xiao1 ;


xia4 虫
chong2 也
ye3 为
wei2 我
wo3 沉
chen2 默
mo4 ,

沉 
chen2 默
mo4 是
shi4 今
jin1 晚
wan3 的
de5 康
kang1 桥
qiao2 !



qiao3 悄
qiao3 的
de5 我
wo3 走
zou3 了
liao3 ,


zheng4 如
ru2 我
wo3 悄
qiao3 悄
qiao3 的
de5 来
lai2 ;


wo3 挥
hui1 一
yi1 挥
hui1 衣
yi1 袖
xiu4 ,



bu4 带
dai4 走
zou3 一
yi1 片
pian4 云
yun2 彩
cai3 。


---------------------------------------------------------------------------------------------------
在水电工先生提供的以上这位朋友http://www.hokoy.com/Works/Tool/WordYin.aspx的程式“汉语拼音”里试了一下,挺有趣,原格式是“梯式”的,转到本论坛却成这个样子了!为何?
这跟水电工先生自己写的程序没什么区别呢。
:-O
发表于 2003-11-1 17:53:37 | 显示全部楼层

这是第二个程式的实验

以上朋友的第二个程式是“国语注音“,这个程式标注的不是国际音标而是注音字母呢!:-P
我所希望的理想却是:能同步转换成“汉语拼音“和“国际音标“!

-------------------------------------------------------------------------------------------------------

ㄗㄞˋ 别
ㄅㄧㄝˊ 康
ㄎㄤ 桥
ㄑㄧㄠˊ



ㄒㄩˊ 志
ㄓˋ 摩
ㄇㄛˊ



ㄑㄧㄥ 轻
ㄑㄧㄥ 的
ㄉㄜ˙ 我
ㄨㄛˇ 走
ㄗㄡˇ 了
ㄌㄧㄠˇ ,



ㄓㄥˋ 如
ㄖㄨˊ 我
ㄨㄛˇ 轻
ㄑㄧㄥ 轻
ㄑㄧㄥ 的
ㄉㄜ˙ 来
ㄌㄞˊ ;



ㄨㄛˇ 轻
ㄑㄧㄥ 轻
ㄑㄧㄥ 的
ㄉㄜ˙ 招
ㄓㄠ 手
ㄕㄡˇ ,



ㄗㄨㄛˋ 别
ㄅㄧㄝˊ 西
ㄒㄧ 天
ㄊㄧㄢ 的
ㄉㄜ˙ 云
ㄩㄣˊ 彩
ㄘㄞˇ 。




ㄋㄚˋ 河
ㄏㄜˊ 畔
ㄆㄢˋ 的
ㄉㄜ˙ 金
ㄐㄧㄣ 柳
ㄌㄧㄡˇ



ㄕˋ 夕
ㄒㄧˋ 阳
ㄧㄤˊ 中
ㄓㄨㄥ 的
ㄉㄜ˙ 新
ㄒㄧㄣ 娘
ㄋㄧㄤˊ



ㄅㄛ 光
ㄍㄨㄤ 里
ㄅㄠ 的
ㄉㄜ˙ 艳
ㄧㄢˋ 影
ㄧㄥˇ ,



ㄗㄞˋ 我
ㄨㄛˇ 的
ㄉㄜ˙ 心
ㄒㄧㄣ 头
ㄊㄡˊ 荡
ㄉㄤˋ 漾
ㄧㄤˋ 。



ㄖㄨㄢˇ 泥
ㄋㄧˊ 上
ㄕㄤˋ 的
ㄉㄜ˙ 青
ㄑㄧㄥ 荇
ㄒㄧㄥˋ ,



ㄧㄡˊ 油
ㄧㄡˊ 的
ㄉㄜ˙ 在
ㄗㄞˋ 水
ㄕㄨㄟˇ 底
ㄉㄧˇ 招
ㄓㄠ 摇
ㄧㄠˊ ;



ㄗㄞˋ 康
ㄎㄤ 河
ㄏㄜˊ 的
ㄉㄜ˙ 柔
ㄖㄡˊ 波
ㄅㄛ 里
ㄅㄠ ,


ㄨㄛˇ 甘
ㄍㄢ 心
ㄒㄧㄣ 做
ㄗㄨㄛˋ 一
ㄧ 条
ㄊㄧㄠˊ 水
ㄕㄨㄟˇ 草
ㄘㄠˇ



ㄋㄚˋ 榆
ㄩˊ 荫
ㄧㄣˋ 下
ㄒㄧㄚˋ 的
ㄉㄜ˙ 一
ㄧ 潭
ㄊㄢˊ ,



ㄅㄨˋ 是
ㄕˋ 清
ㄑㄧㄥ 泉
ㄑㄩㄢˊ ,

ㄕˋ 天
ㄊㄧㄢ 上
ㄕㄤˋ 虹
ㄏㄨㄥˊ



ㄖㄡˊ 碎
ㄙㄨㄟˋ 在
ㄗㄞˋ 浮
ㄈㄨˊ 藻
ㄗㄠˇ 间
ㄐㄧㄢ ,


ㄔㄣˊ 淀
ㄉㄧㄢˋ 着
ㄓㄨˋ 彩
ㄘㄞˇ 虹
ㄏㄨㄥˊ 似
ㄙˋ 的
ㄉㄜ˙ 梦
ㄇㄥˋ 。



ㄔㄥ 一
ㄧ 支
ㄓ 长
ㄔㄤˊ 篙
ㄍㄠ ,


ㄒㄧㄤˋ 青
ㄑㄧㄥ 草
ㄘㄠˇ 更
ㄍㄥ 青
ㄑㄧㄥ 处
ㄔㄨˋ 漫
ㄇㄢˋ 溯
ㄙㄨˋ ,



ㄇㄢˇ 载
ㄗㄞˋ 一
ㄧ 船
ㄔㄨㄢˊ 星
ㄒㄧㄥ 辉
ㄏㄨㄟ ,



ㄗㄞˋ 星
ㄒㄧㄥ 辉
ㄏㄨㄟ 斑
ㄅㄢ 斓
ㄌㄢˊ 里
ㄅㄠ 放
ㄈㄤˋ 歌
ㄍㄜ



ㄉㄢˋ 我
ㄨㄛˇ 不
ㄅㄨˋ 能
ㄋㄥˊ 放
ㄈㄤˋ 歌
ㄍㄜ ,



ㄑㄧㄠˇ 悄
ㄑㄧㄠˇ 是
ㄕˋ 别
ㄅㄧㄝˊ 离
ㄌㄧˊ 的
ㄉㄜ˙ 笙
ㄕㄥ 箫
ㄒㄧㄠ ;



ㄒㄧㄚˋ 虫
ㄔㄨㄥˊ 也
ㄧㄝˇ 为
ㄨㄟˊ 我
ㄨㄛˇ 沉
ㄔㄣˊ 默
ㄇㄛˋ ,



ㄔㄣˊ 默
ㄇㄛˋ 是
ㄕˋ 今
ㄐㄧㄣ 晚
ㄨㄢˇ 的
ㄉㄜ˙ 康
ㄎㄤ 桥
ㄑㄧㄠˊ !



ㄑㄧㄠˇ 悄
ㄑㄧㄠˇ 的
ㄉㄜ˙ 我
ㄨㄛˇ 走
ㄗㄡˇ 了
ㄌㄧㄠˇ ,



ㄓㄥˋ 如
ㄖㄨˊ 我
ㄨㄛˇ 悄
ㄑㄧㄠˇ 悄
ㄑㄧㄠˇ 的
ㄉㄜ˙ 来
ㄌㄞˊ ;


ㄨㄛˇ 挥
ㄏㄨㄟ 一
ㄧ 挥
ㄏㄨㄟ 衣
ㄧ 袖
ㄒㄧㄡˋ ,


ㄅㄨˋ 带
ㄉㄞˋ 走
ㄗㄡˇ 一
ㄧ 片
ㄆㄧㄢˋ 云
ㄩㄣˊ 彩
ㄘㄞˇ 。

------------------------------------------------------------------------------------------------------
水电工先生,给您出难题了是吧?嘻嘻~~~

:-P:-P:-P
 楼主| 发表于 2003-11-1 20:53:16 | 显示全部楼层

如....
á
ā
à
..............
我需要的是比如說把原來a1 a2 a3 a4 a5..
的標準音符幫我印出來(因為我看不懂)
只要把a......z的所有音標(如a的á....u的ú...)字符印出來
(應有27x4(5?))108個字符,就可以在今晚作出來
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-4-27 09:44 , Processed in 0.065453 second(s), 11 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表