普通话水平测试中的评分差异与评分误差

湘里妹子 · 发表于 2006-7-16 12:20:02

作者：龚竞异
来源：http://www.cslanguage.com/NewsView.asp?ConID=536

      普通话水平测试是政府与专门机构主持实施的对应试人运用普通话所达到的标准程度的检测和评定，是一种国家规定的资格考试，具有较强的科学性、严肃性和权威性。测试员的评分必须具备较高的信度，关注测试员的评分信度，探寻提高测试员评分信度的途径，是普通话水平测试工作中迫切需要解决的一个问题。多年来在普通话水平测试的实践中，我们发现一个非常普遍的现象，即不同的测试员对同一应试人测评的分数完全相同的情况是罕见的，而测试员之间存在细微或较小的评分差异却是普遍存在的；同时，我们还发现有时候几个测试员之间最高分与最低分的差距竟达好几分，有的还造成“等”的差别，甚至“级”的不同。对这两种情况，我们称前者为“评分差异”，后者为“评分误差”。为什么会产生“评分差异”和“评分误差”，如何对待“评分差异”和“评分误差”，怎样切实有效地提高普通话水平测试的评分信度，本文拟就此谈一些粗浅认识。

   一、成绩评定的主观性使评分差异不可避免

   普通话水平测试的成绩评定具有主观性特点，测试员之间产生评分差异是不可避免的。

   首先，语音标准的模糊性，决定了成绩评定具有主观性特点。

   就一般意义上的考试而言，其标准答案具有确定性。主考人依据标准答案对应试人所答内容的正误判断，通常情况下不会出现误差。而普通话水平测试则不然，测试采取的是口试形式，所谓的标准答案主要是以一种“语音现象”存在于测试员的头脑之中，测试员要在稍纵即逝的语流瞬间捕捉语音信息，做出正误判断。但是测试员面对的自然语音，实际上是一种模糊变量，正误之间有不断过渡的一系列中介音。究竟怎样算“发音正确”，怎样算“发音缺陷”，怎样算“发音错误”，其划分标准事实上存在于测试员各自的主观意念之中，所谓的“标准答案”并没有一条清晰具体的界限，对于这些语音标准的把握，不同的测试员因其主观认识不同，宽严程度把握不同，在对应试人发音正误做判断时必然也会有所不同。因此说语音标准的模糊性决定了成绩评定带有主观性特点。

   其二，评分标准的模糊性，使成绩评定带有主观性特征。

      自然语言具有模糊性特征，决定了普通话水平测试的评分标准也具有相对的模糊性。尽管这套标准在“量化”方面近年来有很大改进，但仍然是一套定量与定性相结合的评价标准，其中模糊性评价因素占有相当的分量。比如：单音节字词和双音节词语的评分标准，看似有严格、细致的量化标准，但其中模糊性评价因素仍是它的基础。我们不妨选几个“缺陷音”的评判标准为例，声母发音中的：“zh、ch、sh发音靠前”；韵母发音中的：“合口呼、撮口呼韵母圆唇度明显不够”、“复韵母的动程明显不到位”；声调发音中的阴平声调：“保持平调调形，但音高较低”等等，这些都属于“发音缺陷”的评判标准，但是其中的“靠前”、“明显不够”、“明显不到位”、“较低”，都是些模糊性评价语言，不同的测试员对其标准尺度的把握必然不尽相同，即使都是经验丰富的测试员，认识和操作也不可能完全一致。又如，评分的分值标准也不能完全反映语言这个连续模糊变量的实际，比如：字的评分标准，正确为0.1，缺陷为0.05，错误为0，那些介于三者之间的0.09、0.08、0.07、0.06、0.04、0.03、0.02、0.01、0.009、0.008等发音状态在评分标准的分值中没有得到体现，测试员只能在0.1、0.05、0这三个变量中选择；还比如：朗读项中的“方言语调”评价标准分为方言色彩“浓重”、“比较明显”、“略有显露”；说话项中“语音面貌”划分为六个“档”，等等，这些都是综合性考核标准，评分弹性较大，其中虽有量化成分，但无疑仍属模糊性评价，而这种模糊性评分标准必然使成绩评定带上主观性特征。

     其三，评分标准的某种不完善，使成绩评定带上主观性色彩。

      普通话水平测试是我国试行不久的一项新的语言测试，目前尚属研究探索的初创阶段，其评分标准也正处于不断修订和完善之中。由于语音现象的复杂性，目前实施的评分标准还没有覆盖测试中现实出现的所有语音现象。比如：有的应试人读单音节字或双音节词语时速度很快，每个字或词发音不完全，时值很短；有的应试人，读双音节词语时，一字一顿，割裂了词的整体，有“字化”倾向；有的应试人朗读遇到不认识的字时，突然停住琢磨良久才又接着读，虽未造成对语句的肢解或歧义，但停顿时间显然过长。类似情况还有许多，对这些现象如何扣分，评分标准中都没有明确规定，扣不扣分，扣多少分，测试员中见仁见智各不相同，没有统一的做法，评分的主观性由此可见一斑。

      综上所述，普通话水平测试的成绩评定不可避免地带有主观性特点，要完全杜绝测试员之间的评分差异是不可能的，测试员之间出现评分差异是正常现象。但是普通话水平测试的严肃性和权威性要求我们，必须尽量缩小测试员之间的评分差异，必须将评分差异限定在一个正常的范围之中，超出这一范围就应视为“评分误差”，而出现评分误差是不能允许的，因为作业测试员一定要清楚评分误差的“正常范围”有多大。宋欣桥在《普通话水平测试中的评分差异》一文中对这个问题做了专门阐释，他认为这种正常范围的差异反映在以下几个方面：①“在同一等级中的评分差异”；②“在同一评分档或评分段的差异”；③“在低分段非临界的较小差异，或在高分段非临界的细微差异”，这种差异具体如下：“一级差异在0.9分以内，其中甲等差异在0.5分以内，乙等差异在0.9分以内；二级差异在1.5分以内；三级差异在2分以内。”同时，他还解释说“评分差异”是指不同测试员对同一应试人评分中“最高分”与“最低分”之间的非临界差异，不可误解为以平均分值为依据的上下评分幅度。并且特别指出，如果“在同一‘级’中超出‘等’（即甲等和乙等之间）的评分差异虽仍属小的差异，但已经影响到等级的正确评定”，则视为“误差”。据此，我们可以将“评分差异”与“评分误差”两个概念明确区分开来，并且有理由认为是否消灭了评分误差是衡量一个测试员其评分信度高低的根本标志。如果一个测试员在评分中屡屡出现误差，就是一个评分信度低的不合格测试员。

      二、测试员不良主观因素是造成评分误差的主要原因

      普通话水平测试工作是一项专业性强、技术性高、脑力劳动强较大的工作，不但需要测试员本身具有较高素质，而且测试时还要做到全身心地投入。一个测试员如果在测试过程中，受自身素质或者某些因素的影响和干扰，不能准确评定应试人的成绩，就会产生评分误差。导致测试员产生评分误差的原因可能来自业务能力方面，也可能来自心理、情感、生理等方面，但无论哪一种因素最终都是通过测试员主观意识来起作用的，为了便于问题的阐释，我们将这些影响、干扰测试员准确评分的因素统称为“不良主观因素”。

      （一）业务能力因素

      从一定意义上说，测试员每一次对应试人进行的普通话水平测试，其实质也是对自己业务能力和知识水平的检验。一般考试多属“单向检测”，普通话水平测试却属“双向检测”，测试不仅考查了应试人的普通话水平，也检测了主考人即测试员的专业水平，如听音、记音、辩音能力，专业理论基础，测试操作技术等等。测试员业务素质不高，必然会有较多漏记、误判之处，评分就会产生误差。

      “听觉盲点”是影响测试员评分标准性的重要因素。测试员的听音、辩音能力对成绩评定的准确性起至关重要的作用，测试员如果有较多的漏记、误判，说明其“听觉盲点”较多。普通话水平测试彩取的是口试形式，测试员评分完全靠耳听手记，语音稍纵即逝，加之听音、辨音的过程是一个人脑的信息接收和反馈的复杂过程，因此要完全杜绝“听觉盲点”是比较难做到的。但是，一个合格的测试员首先必须具备敏锐的听音辩音能力，这是基本的业务素质要求。如果“听觉盲点”较多，评分信度低，对应试人一些错误的语音信息就会听而不闻，从而造成评判不准确。测试员的“听觉盲点”并不是生理原因造成的，往往是由于其自身未完全消除方音影响，口语不纯，听觉上习惯了某些方音，对应试人发音中的某些错误反应不敏锐造成的。一般说来，一个测试员口语水平越低，听觉上的盲点就越多，而“听觉盲点”越多，其评分误差就越大。因此，测试员要保持自己听音辩音上的高度敏锐性，就必须要注意保持并不断提高自己的普通话口语水平。

      “知识缺陷”也是测试员身上常见的业务能力“不良主观因素”。普通话水平测试是综合教育测量学与现代语音学的多学科应用技术，它涉及语言学的各相关领域。一个测试员不可能门门知识都精通，但是有些最基本的知识必须有所了解，否则仅凭直觉评分，没有理论的指导，对应试人的错误发音就不能准确分析、判断和归类，就会出现评分失误。比如音位学理论，它是普通话水平测试的基础理论之一，“音位”是普通话水平测试中界定字词的“发音正确”、“发音缺陷”或“发音错误”的基本单位，测试员如果对其一知半解，就不可能透彻理解和准确把握评分标准，面对应试人时，就容易被各种错误的语音现象和准确把握评分标准，面对应试人时，就容易被各种错误的语音现象迷惑从而造成误判。

      此外，“操作不规范”也是测试员业务素质不良的一种表现，这里主要是指不按评分标准评分的问题。比如测试员掌握普通话水平测试的评分标准不熟练、不精确而导致评分失误。特别是2002年，省语委对测试评分细则进行了补充修订，但许多测试员未认真学习修订后的评分细则，评分时仍沿袭过去的做法。还有个别测试员执行评分规则有随意性倾向，不严格按照评分规则行事，比如朗读时应试人的停顿未造成词语肢解或歧义就随意扣分；有的为图省力不认真按规定和标准听音、记音，而仅凭大体印象估计给分，类似这样一些错误的做法，都会使评分产生误差。

      （二）心理因素

      普通话水平测试具有个别性特点，需要一个人一个人面对面地进行，测试员和应试人接触虽然短暂，但他们之间已形成了一种简单的人际交往关系。根据心理学原理，人际交往必然伴随双方一定的心理反应与情感体验。测试员面对的应试人职业、年龄、身份、性格各不相同，行为、举止、言谈、仪表各具特色，有讨人喜欢的，有让人生厌的，有令人敬佩的，有使人鄙夷的，测试员往往会不自觉地产生一种以肯定或否定的方式去评价对方的思想倾向和行为动机，从而影响成绩评定的准确性。

   发生在测试员身上的某些负里心理效应，是影响成绩评定的消极因素。比如“首因效应”，即第一印象，它是人际交往中最先发生的影响评价的因素。人们往往根据第一印象对他人进行评价，以至忽视后来得到的与最初印象不协调的表现信息。测试员如果在测试中受此心理影响，某种先入为主的“偏差认知”干扰其评分，误差就可能产生。我们曾听到有的测试员这样议论某一应试人：“他一张嘴，我就知道他是几等。”从这样的话中不是可以窥到“首因效应”的影响子吗？“认同效应”也是影响测试员评分信度的一种消极心理效应。测试员的评分本应依据应试人的语音实际做出评判，但是在“认同效应”的驱使下，测试员可能会因为应试人的某些客观情况或主观感受与自己有相同、相近之处而产生“认同”心理，从而提升对应试人的评价。反之，如果产生“否定效应”，测试员就会在否定心理的驱使下，降低对应试人的评价。

      评分时测试员还可能产生各种心理反应，这些心理反应都将成为影响成绩评定的消极因素。如心理学上称之为“人际吸引力”的心理反应，像仪表性吸引、相似性吸引、接近性吸引等等，这些心理反应都会在不知不觉中对测试员的一种不良心理反应，比如：应试人行动缓慢、发音费力费时、考场纪律不严或应试人不熟悉考试规则等等，造成测试员心浮气躁，情绪波动；测试任务量大时，测试员疲劳生烦，产生焦躁情绪，都会影响测试员评分。此外，测试员的不良心理反应还有多种表现形式，像新测试员缺乏经验，胆怯恐惧，手忙脚乱，顾此失彼，而造成评分失误；老测试员则容易滋生自满心理，自认为资格老，经验足，测试中不认真听记，把该“定量”评判之处变“定性”评判，使评分产生误差，如此等等，不一而足。

      （三）情感因素

      情感因素对人们行为的方向和强度都产生重要影响。普通话水平测试的个别性特点，不仅会给测试员带来心理反应，同时也可能给测试员带来情感体验，特别是有的应试人总想用“情”来“感化”测试员，以达到提高成绩的目的，这些作用于测试员身上的情感因素往往都是干扰性因素，对测试员的评分具有一定的影响力。比如时常有应试人向测试员诉说自己多次未“过关”、恳请“高抬贵手”；也时常有应试人故意告知或显露共领导者身份，希望得到“优待”；还时常有应试人主动“套近乎”，企望网开一面，总而言之，各种情况时有发生。根据笔者的经验，影响测试员客观评分的首要情感因素是“同情”，应试人的某种状况常常会引发测试员的恻隐之心从而情不自禁“高抬贵手”；其次是“厌恶”之情，某些人言谈、举止、行为、仪表引起测试员反感，情不自禁就下笔“狠”些；再有，亲朋好友或熟人同事拜托，被“亲情”所困时，测试员往往不得不笔下留情。此外，应试人好的言谈、举止、仪表有时也会给测试员带来某些好感，特别是当听腻了大量似是而非的所谓“普通话”之后，突然有一个应试人不仅音质好，而且语音的清晰度、流畅度、节奏感、情感量俱佳，听了使人重新领略到普通话的音乐美，这时候测试员往往会油然而生欣喜之情，以至于在愉悦的心情中放松或忽视了应试人语音中的某些不规范因素，造成评分误差。凡此种种，不胜枚举，总之，无论是哪一种“情”，一旦融入测试员笔下，就会成为一种影响测试员评分信度的不良因素。

   （四）生理因素

      在普通话水平测试中，测试员始终处于一种身心高度紧张的状态，每时每刻都需要调动一切感官，眼耳并用，手脑并用。人非机器，总有疲劳倦怠的时候，稍有疏忽，几个音节就滑了过去，很难做到注意力长时间保持高度集中。测试员身体素质不好或精神不饱满时，都难以胜任时间较长的测试工作，即使是身体素质很好的测试员，时间过长也会感到听觉失灵，思维迟钝，漏判、误判之处在所难免，因此，生理原因造成的评分误差也是存在的。

      综上所述，可以看出测试员产生评分误差的原因是多方面的。而且许多误差的产生测试员是不“自知”的，因此测试员出现“评分误差”，不能简单地冠以“水平不高”的结论，而应该认真研究他们处于工作状态时的思维、心理、情感、生理诸方面的活动特点，从中得出正确的结论，总结出规律性的东西，用以指导工作实践。

   三、提升个人素质，消灭评分误差

   目前普通话水平测试工作力度在不断增强，受测人员的范围在不断扩大，国家对越来越多的人员提出了普通话等级达标的要求，并将其纳入许多岗位的任职资格条例之中，这必然使用普通话水平测试工作与千百万人的切身利益发生密切联系，使普通话水平测试工作越来越受到众人关注，而其中成绩评定的信度成为了人们注目的焦点。因此，探寻提高普通话水平测试成绩评定信度的途径，对于推动普通话水平测试工作向纵深发展有着非常重要现实意义。

   由于普通话水平测试员是评分标准的执行人，是普通话等级的评判人，因此，普通话水平测试的成绩评定信度的高低主要取决于广大测试员自身素质的高低。正因为如此，国家对普通话水平测试员的任职条件，从思想素质到业务水平都有明确的要求和严格的规定。作为一个测试员只有全面提升个人素质，始终坚持客观公正的原则，做到消灭评分误差，才能真正满足广大应试人的要求，维护普通话水平测试的客观性、公正性、权威性。全面提升测试员素质必须靠主管部门和测试员个人两个方面的共同努力才能实现。

      一方面有关主管部门要切实加强测试员队伍建设，把全面提升测试员队伍的整体素质作为一件大事来抓。根据测试员队伍中存在的突出问题，有计划地定期安排测试员业务培训；通过各种形式和载体经常举办交流、研讨活动，大力提倡和促进测试员之间的相互学习与交流；建立激励机制，完善奖惩制度，以葆测试员队伍的青春与活力；组建督导员队伍，建立督导工作机制，加强督导工作；对测试员的个人水平和测试工作实行定期考核，对不合格者实行淘汰或停测制度，以激发广大测试员的不断进取精神。总之，要充分运用行政的力量，采取种种有效措施，促进测试员队伍整体素质的全面提高。

      另一方面测试员个人要通过努力加强自身修养和锻炼，全面提升个人素质。测试员在获取了测试员资格证书之后，不仅不应该有半点骄傲自满、故步自封的思想，而且应该更加增强责任感和垂范意识，自觉地从思想、业务、心理、身体等各方面加强修养和锻炼，优化个人素质，以适应测试工作的需要。优化个人素质包括多方面，其中“修德”与“修业”尤为重要。所谓修德，就是要培养起良好的职业道德，每个测试员上岗后的第一课都应该是认真学习测试员工作纪律和有关的规章制度，树立的第一意识应该是敬业、爱岗、遵守纪律，忠于职守，坚持的首要工作原则应该是时时处处秉公评判；所谓修业，就是要“修”提高测评能力之“业”，测评能力是测试员业务能力的综合体现，是职业素质的核心内容，要提高测评能力，就要努力提高个人普通话口语水平，努力夯实专业理论基础，努力增强听音辩音能力，做到科学界定语音正误，准确进行方音归档，最大程度也减少评分中的犹豫困惑和主观臆断，抵制住各种“不良主观因素”的袭扰。

   只要有了这两方面的共同努力，广大测试员的素质就一定会得到全面提高，消灭评分误差的目标就一定会实现，普通话水平测试的评分信度就有了可靠的保证。

lancer22 · 发表于 2007-4-19 12:59:59

的确如此，同样一个人，在北方考级的话可能成绩只有二乙，但是如果来南方考的话可能就拿到二甲了

		自动登录	找回密码
密码			注册

普通话水平测试中的评分差异与评分误差

相关帖子