论普通话水平测试的信度

湘里妹子 · 发表于 2004-8-15 10:03:31

作者：周小兵
来源：http://www.gzedu.gov.cn/yw/07-03.htm　
------------------------------------------------------------------------------------------------------

导言

1994年，国家语言文字工作委员会、国家教育委员会、广播电影电视部联合发出了《关于开展普通话水平测试工作的决定》。（国家语委、国家教委、广电部，1994）此后，推广普通话的工作逐步走向科学化、规范化、制度化，并取得了前所未有的成绩。可以说，普通话水平测试是上个世纪末我国内地推普的最大动力。

当然，7年来的测试实践也使我们看到，普通话水平测试还有许多值得研究的地方，还有不少可以改进的地方。因此，本着与时俱进、实事求是的原则，有必要根据新世纪对推普工作的要求，参照新世纪语言规划的方针政策，对普通话水平测试的性质、内容、标准、具体实施等进行考察和研究，并进行一些适当的修订。其中，有关测试的信度问题，尤其值得我们进行深入细致的考察和研讨。

　

测试信度的含义和内容
1．信度的含义及测定方法

信度是指测试的可靠性，或者说，是测试结果的稳定性。它是测试的基本保证。信度一般包括试卷的制定和试卷的评判两个方面。

测定一份试卷是否可靠，有两种方法：（1）重测法。具体做法是，把同一份试卷让相同的考生考两次。如果分数基本相同，说明试卷的可靠性比较高。反之，则证明试卷的信度不够高。（2）对等法。出两套分量、难度相当的试卷，让相同的考生在一次测试中同时做这两套试卷。如果分数基本相同，说明试卷的信度较高。反之，则说明试卷信度不高。

测定对试卷的评判是否具有信度，一般用重判法。具体做法是，同一份试卷（如作文、口语测试录音带），让不同的判卷人或不同组别的测试员评分。如果差距在允许范围内，证明试卷评判的可靠性较高。反之，则说明判卷方面的可靠性不够高。

2．测试的可靠性系数及其与测试类别的关系

测试的信度可以通过可靠性系数来表达。可靠性系数用 0.0~1.0表示：越接近1，信度越高；越接近0，信度越低。

在语言测试中，我们一般要测评应试人的语言知识和言语技能。但语言知识有语音、词汇、语法、语篇的区别，言语技能也有听、说、读、写的不同，各种语言知识和言语技能的特点、构成不同，会直接影响对其进行测评的方式，同时也就会影响测试的可靠性系数。一般来说，测试语言知识的可靠性系数较高；在言语技能方面，测试阅读的可靠性系数较高，一般可以达到0.85~0.98；听力稍低一些，一般可达0.8~0.9；口语更低，一般为0.7~0.79；写作最低，只有0.6~0.72。

从判卷角度看，测试可以分为客观测试和主观测试。使用多项选择题方式编制的阅读、语法、词汇等项目的试卷，属于客观测试。同样的试卷，其测试结果不会因判卷人的主观差异而有所改变，可以用计算机判卷。口语、作文测试属于主观测试。同样的试卷，测试结果可能因判卷人主观因素的不同而有较大的差异。

试卷的信度在客观测试中更为重要，判卷的信度在主观测试中更为重要。当然，不论是主观测试还是客观测试，试卷和判卷的信度都非常重要，都要进行考察、研究和测定，以保证测试结果的稳定性。

普通话水平测试基本上是口语测试（尤其是在去掉原测试第4部分的“选择、判断”之后）。由于它属于主观测试，跟阅读、听力测试比，其可靠性系数也是较低的。正因为如此，如何保证测试的信度，就显得更为重要了。

　

二．目前的做法

有关普通话水平测试信度的测定，目前很少看到公开发表的研究报告。孙修章（1992）在《〈普通话水平测试标准〉的研制与实践》第4节里，只讨论了对普通话水平测试等级标准可靠性的验证。

但在如何确保测试的信度方面，有关方面制定了一些条文。如：

测试评定的普通话一级甲等，需分批报国家语委普通话培训测试中心复审。复审比例为：10名以内复审1/3，11名~50名以内复审1/5，51名以内复审1/10。（刘照雄，1994，4页）

一些省、市在保证测试可靠性方面也有一些措施。如，各测试站测试评定普通话一级乙等，需分批报省、市语委普通话培训测试中心复审。

此外，还有一些文章讨论了如何科学编制、规范使用普通话水平测试试卷（程明，1997），如何保证判卷评分的质量（宋欣桥，1997）等问题。这些论文根据测试实践中出现的有关问题，从试卷编制和试卷评判两个方面论及了测试的信度问题，提出了不少保证测试信度的做法。

应该说，上述措施的采取，上述论文中谈及的做法，都可以使测试的信度得到一定程度的保证。但是，从测试实践来看，这些措施和做法还是不够的，还未能从根本上解决普通话水平测试的信度问题。

　

三．信度问题考察

普通话水平测试属于主观测试，其信度的保证比较困难。为了对测试的信度进行测定，我们做了一些实验性考察，发现测试中跟信度相关的一些问题，并提出相应的解决办法。

3．1 试卷的信度

我们用对等法做过实验。具体来说，就是挑出两份试卷，在相同时间里对相同的考生进行测试，发现两份试卷的得分有较大的差异。

这里反映出的测试结果不稳定，主要是试卷问题，既挑选出来的两份试卷在难度上有较大的差异。而试卷难度不一，在测试第一、第二部分里有反映，在第三、第四部分（即朗读、说话部分）则更明显。

3．11 “读单音节字词”部分

一般要求是，100个音节，每个声母出现一般不少于3次；每个韵母出现一般不少于2次；方言里缺少或易混淆的酌情增加1?/FONT>2次；声母或韵母相同的要隔开排列；不使相邻的音节出现双声或叠韵的情况。（刘照雄，1994）上海市普通话培训测试中心的程明（1997）也论述过他们在试卷编制上的一些做法。从要求和做法上看，单音节字词声韵调的分布是均匀的。但是从实际编制出来试卷和测试实践来看，至少有4个因素影响了试卷的难易度和测试的可靠性。

（1）相同或相似的音节，反映到书面语里可能是不同的汉字，而这些汉字对应试人的认读来说，难易度相差很大。如同样是考 suī 这个音节，出现的汉字A卷是“虽”，B卷是“睢”，C卷是“尿（尿泡）”，难度差异非常大。如果让同一个应试人来测试，得分就会不一样。[1] 现在的试卷，有不少包含了一般应试人难认的汉字。如果难认字在不同的试卷中分布不均匀，当然会影响试卷的难易度和测试的信度。

（2）多音字词的多寡与处理。由于汉语音节数量极为有限，多音字词的数量非常多。刚开始进行普通话水平测试时，要求试卷尽量少出多音字词。但这一条很难实行。接着就提出，如出现多音字词，只要读准其中一个音即可。后来又有了一种做法，设置具体语境以限定读音。但不管用什么方法，都回避不了一个事实：试卷多音字词的多寡，会影响它的难易度。如使用括号设置具体语境来限定读音，有的试卷有20多处，有的试卷只有几个。

在处理上也有问题。有一份试卷是这样出的：

雨（雨水）

“雨”在普通话口语里当然是读上声。右面的括号说明“雨”读“雨水”的“雨”，是名词，读上声；而不是“雨雨、雨雪”中的前一个“雨”，做动词，读去声。出这样的题目目的何在，效果如何，我不想在这里讨论。[2] 但这样出题，尽管有了括号注明，应试人还是不清楚：这里的“雨”到底是应该读上声，还是按“上上相连，阳平在前”的规则读阳平呢？

（3）词跟语素、音节的区别问题。我们先举一份样卷中最后10个字：

棉瞥戛绳纫咱搜奈而尬

“尬”只是一个音节，单独没有意思，更不能单独使用。“戛、纫、奈”单说的机会也极少，更象不成词语素。不成词语素和没有意义的音节是不能单说、单用的。类似“尬、奈、纫”等音节、语素，绝大多数应试人只有在中小学上语文课时才可能单个地读，在平时交际时不会单独使用。因此，这类语素和音节出现越多，试卷难度越大。

我们做过实验，让大学中文系的10名硕士研究生和讲师读这10个字，结果没有一个人能全部读出它们的正确发音，尽管其中有2名还是普通话水平测试员。有6人能读对“瞥”的发音，另有4人将之读为去声。只有1人能读对“戛”，其余的或读为 gǎ ，或读为 gā。最有意思的是“尬”，所有的人都会“尴尬”的读音，但有4人将“尬”错读为“尴”的发音。这里涉及到汉字的心理认知过程和特点。在交际中，“尴尬”从来不分开用，也从来不单独用。乍一分开，人们只得从声旁去辨别，以确定读音。但这里的声旁“监、介”根据普通话读音也不容易认定，结果他们4人选择了错误的发音。[3]

（4）异读字词。异读字词多的试卷难度会大一些。此外，还有异读与统读的不统一问题。最典型的例子是“荫”。按国家语委、国家教委、广电部审查通过并于1985年发布的《普通话异读词审音表》，“荫”统读为去声，但《现代汉语词典》（中国社会科学院语言研究所词典编辑室，1997）却还是注出平声和去声两个读音。

3．12 “读双音节词语”部分

这部分包含双音节词语50个，目的是：除了考查声韵调之外，还考查上声变调、儿化韵、和轻声的读音。试卷要求，除了跟第一部分相同的内容外，还要有上上相连的词语不少于2次，上声和其他声调相连的不少于4次，轻声不少于3次，儿化韵不少于4次。（刘照雄，1994）

尽管有这些要求，实际编制出来的试卷难度还是有一些差异，有的还比较明显。主要因素有些跟第一部分相同或相似，有些不同。

相同相似的如：

（1）多音词语的多寡。如“教学”，其中的“教”是阴平还是去声？“地下”的“下”，是去声还是轻声？尽管有些试卷也用圆括号设置具体语境以限定读音（如“教学（教学相长）”），但多音词语多的试卷肯定难度大一些。

（2）异读字词的多寡。如（3．11）中举的“荫”，出现在双音节词语中如何读？如“树荫”的“荫”按《现代汉语词典》应读平声，按《普通话异读词审音表》应读去声。

不同的如：

（3）儿化韵的情况。虽然要求每份试卷的儿化韵不少于4次，但出什么样的词语难度是不一样的。这里有两个方面的因素。一是发音难度，对南方人来说，“有点儿”的儿化韵比“金鱼儿”要容易发。二是含儿化韵词汇的认识、掌握、使用。绝大多数含儿化韵的词汇，绝大部分参加测试的南方人从书面语辨认上都没问题，也都可以在日常交际中使用，不论是听还是说，只不过他们在发音时没有、或很难将词汇尾部的儿化韵发出来、或发准而已。但有少数含儿化韵的词汇，绝大部分参加测试的南方人本来就不认识，即使看懂了汉字也不知道是什么意思，当然也从不在交际中使用。遇到这类根本不懂的词汇，让他们发出儿化韵就更困难了。我们做过一些实验，让同样水平的考生读“有点儿、墨水儿、爆肚儿、出圈儿、白醭儿”这5个词语，不少能读对前2个词语的考生，读不对后3个词语。经询问，其中大多不知道后3个词语的意思。

以上讨论了影响第二部分测试信度的3个因素。还有一个问题，就是有无必要花大力气测试儿化韵和轻声的读音？由于这个问题跟本文题目没有直接关系，就不在这里讨论了。

3．13 “朗读”部分

朗读测试的目的是：考查应试人用普通话朗读书面材料的水平，重点考查语音、连读音变（上声、“一”、“不”），语调（语气）等项目。（刘照雄，1994）但我们考察了50篇作品，发现有的篇目缺少一些需要测试的项目。缺少“不”连读音变的，有作品1号，3号，14号，15号，22号，25号，37号，42号，47号，49号。缺少“一”变为去声的，有作品8号，22号。如果抽到这些作品朗读，不但达不到测试的目的，而且难度也会低一些，直接影响测试结果的稳定性。

此外，对南方广大地区来说，儿化韵的发音比较困难。为了考察试卷的难易度，我们对50篇作品进行了统计，发现儿化韵的分布很不均匀。儿化韵有必读和可读可不读两类，前者收在作品后边的“语音提示”里。这里只讨论必读儿化韵的情况。根据初步统计，儿化韵最多的一篇有7个（作品10号），最少的一个也没有（有22篇）。对读儿化韵困难的应试人来说，如果抽到作品10号，分数就会低一些；抽到没有儿化韵的作品，分数就会高一些。

我们将上声（只讨论上上相连的情况）、“一”变为去声、“一”变为阳平、“不”的变调、儿化韵作为5个指标，对50篇作品进行了初步统计，发现其分布不够均匀，会影响朗读部分的评分。下边举两个差别最大的作品。

作品10号：上声变调5次；“一”变去声3次；“一”变阳平9次；“不”变调1次；儿化韵7次。总共25次。

作品42号：上声变调3次；“一”变去声5次；“一”变阳平1次；“不”变调0次；儿化韵0次。总共9次。

不难看出，从需要测试的项目来看，这两篇朗读作品的难度有一定区别，肯定会影响测试的信度。

3．14 “说话”部分

“说话”部分包括50个题目，有的容易一些，有的难一些。在几年的测试实践中我们发现，16题“我的家乡话”，17题“家乡新变化”，23题“谈谈邻里关系”，29题“我的拿手菜”，39题“我最喜爱的一种小动物”，50题“我最喜爱的一种花卉”，对不少应试人来说比较难。这里既有性别差异、好恶选择的因素，也有社会变化的影响。如29题，39题，50题，有的应试人说，他/她根本就不会做菜，或根本就不喜欢小动物，不喜爱花卉。象16题，23题，不少应试人说根本就不懂家乡话；或说现在基本上没有什么邻里关系，回到家里把门一关，极少跟邻居交往。某一类人抽到某一类很难说的题目，肯定会影响说话部分的得分。

对此我们专门做过实验，让同一考生同时说两个说话题目，结果谈“我的业余生活”、“我的妈妈”等题目的分数，比谈“‘我最喜欢的一种花卉”、“谈谈邻里关系”等题目明显要高一些。

判卷的信度
对试卷的评判，可靠性问题更为明显。在测评同一考生时，3个测试员的分数常常有差异。当然，作为主观测试，测试员评分有差异是正常现象，只要不超出差异的许可范围就可以了。宋欣桥（1997）指出：

为了量化评分有所依凭，我们根据测试实践，将等级中正常的非临界评分差异细致描述如下，供测试人员参考：

一级差异在0.9分以内。

甲等差异在0.5分以内。

乙等差异在0.9分以内。

二级差异在1.5分以内。

三级差异在2分以内。

但实际上，几个测试员分数差异，超出上述正常非临界评分差异值的情况不少于30%。而且，分数差距也相当大：三级之内，有的分差达8分；二级之内，有的分差达5分；一级之内，有的分差达2分。

此外，上面只讲了非临界的分差。其实，临界、跨界的分差也应该定出一个可允许的范围，以方便测试的顺利进行，方和对判卷进行合法、有效的监控。

为什么判卷结果如此不稳定呢？由于本文题目限制，我们这里不讨论测试员素质问题；只想探讨判卷的信度跟测试标准的关系。因篇幅有限，只讨论第三、第四部分。

3．21 “朗读”部分

“朗读”部分测评标准有不够明确之处，主要表现在方言语调和

停两方面。

按测试评分的要求，“方言语调一次性扣分：方言语调突出，扣3分；比较明显，扣2分；略有反映，扣1.5分。”（刘照雄，1994）但什么叫“方言语调”？“突出”、“比较明显”、和“略有反映”区别和界限是什么？并没有官方文件明确说明，也没有大多数专家、学者和普通话水平测试工作者认同某种说法。

宋欣桥（1997）提出了“方言语调”基本范围的4个方面：（1）声调（字调）不准确会直接影响到普通话语调；（2）轻重音的方言模式；（3）语调节奏的方言色彩，包括语速、停顿、节拍群与普通话的差异；（4）方言中特有的感叹词、语气助词。但他又提出，第（3）点中语速、停顿已另设项评分；第（4）点提到的内容，在朗读项的作品中一般不会出现。其实只有（1）（2）两点。当然，这两点确实是构成方言语调的重要内容，值得认真研究，并定出具体可行的测评标准。

不幸的是，第（2）点中提到的轻重音格式，不论是普通话的还是方言的，都还没有令人满意的研究成果，只有一些个案描写。当然，就更不可能定出操作性强的测评标准。因此，测试员在测评方言语调时基本上是凭听觉的语感来判断，这就很难避免分差过大的问题了。

关于停顿的评分标准是：“停顿、断句不当，每次扣1分。”这条标准也很难把握，主要原因是什么叫做“不当”。我们知道，停顿不当有多种情况：该短停顿的停顿时间过长，该长停顿的停顿时间太短；长句中未按意群划分来停顿；有标点符号不停顿，没有标点符号反而停顿；读破双音节词或多音节词……很明显，对不同的“不当”，应该有不同的处理。否则，测试结果就会不稳定。在测试实践中我们发现，遇到一些在停顿问题较多的考生，不同的测试员的评分在停顿一个问题上就相差3分。而主要分歧就在于如何处理不同的“不当”。

宋欣桥（1997）提出：“1）停顿造成对一个双音节或多音节词语的肢解。2）停顿造成对一句话、一段话的误解，形成歧义的。这两种在朗读中明显造成停顿“错误”的情况，可以每次扣1分。一般的停顿不当（如停顿虽没有上述两种情况，但每个意群停顿过长，甚至屡有停顿超过3秒钟的情况），一次性扣分以不超过2分为宜。”应该说，上述说明既有科学性，也有可操作性。它给了“停顿、断句不当”以具体含义，解释、区分了几种不同的情况，并给以不同的处理。

可惜的是，这篇文章发表在1997年，时间稍晚了一些；即使发表之后，由于各种原因，有一些测试员也未看能到。

3．22 “说话”部分

这部分测试员的评分差异最大，主要原因在“语音面貌”上。具体来说，在于对“方音不明显”、“方音比较明显”、“方音明显”、“方音重”的区分和把握上。

“说话”部分的“方音”跟“朗读”部分的“方言语调”相似，也是测评难点。不同是，在“朗读”部分，“方言语调”只占3分，测试员的评分差异一般只在半分到1.5分之间。而在说话部分，对“方音”程度的把握不同，可能造成的差异则大得多。我们在测试实践中发现，有的测试员在“语音面貌”一项上的评分差异就在4分以上。抛开测试员的素质，我们认为，标准制定不细是主要原因。

　

四．提高测试信度的措施

4．1 加强对试卷编制的改进和管理。

4．2 加强对测试标准的研制和改进。

4．3 测试实践与科学研究相结合。

4．4 加强对测试员的培训（岗前培训和在岗培训）。

　

附注

[1] 当然，这里也涉及到测试性质问题。

[2] “雨”做动词读去声，是古代汉语的遗迹，在现代汉语里是否存在，我不大清楚。但我们相信，参加测试的人在看到单个的“雨”时，绝对不会考虑“雨”有两个读音，然后在两个当中挑选，可能读成上声，也可能一不留神错选为去声。这样出题其实是试卷制定者在显示自己的古汉语功底而已。

[3] “字”和“词”的界限应该严格区分。只有词和大于词的语言单位才是语言交际的备用单位，才可能在运用中比较自由的使用，才有可能单说、单用。因此，普通话水平测试的第一部分应该只考单音节词，不要考不成词语素，更不要考单独出现时没有意义的音节。这样，才能充分体现普通话水平测试的性质，才能保证测试的信度、效度，才能使普通话水平测试成为推广普通话的动力。不然的话，不少平时可以较好地运用普通话进行交际的人，可能测试过不了关；或在测试第一部分得分较低。而某些普通话不见得好，但认字能力强的人，可能会在第一部分测试中得高分

我们认为，要划清词跟语素、音节的界限，首先应将此部分测试的题目改为“读单音节词”，将原来的“字”删去。这样，不成词语素和没有意义的音节就不能进入单个读的测试范围，就可以更好地体现普通话水平测试的性质。

主要参考文献

国家语言文字工作委员会国家教育委员会广播电影电视部 1994 《关于开展普通话水平测试工作的决定》，载刘照雄主编《普通话水平测试大纲》长春：吉林人民出版社。

国家语言文字工作委员会普通话培训测试中心《语言文字应用》编辑部合编 1998 《普通话水平测试的理论与实践》商务印书馆。

郝德元 1982 《教育与心理统计》北京：教育科学出版社。

刘照雄主编 1994 《普通话水平测试大纲》长春：吉林人民出版社。

盛炎 1990 《语言教学原理》重庆出版社。

宋欣桥 2000 《普通话水平测试员实用手册》商务印书馆。

孙修章 1992 《〈普通话水平测试标准〉的研制与实践》《中国语文》第1期。

王建华主编 2000 《21世纪语言文字应用规范论析》杭州：浙江教育出版社。

中国社会科学院语言研究所词典编辑室 1997 《现代汉语词典》北京：商务印书馆。

周小兵 1997 《第二语言教学论》石家庄：河北教育出版社。

棗?2001 《普通话水平测试性质的思考》提交国家语言文字工作科研“十五”规划论证会论文。

周有光 1999 《卷首语》《语言文字应用》第4期。

（联络：510275 广州市中山大学对外汉语教学中心

电话：020-84113110；传真：84110233；电邮：fltcfl@zsu.edu.cn )

		自动登录	找回密码
密码			注册

论普通话水平测试的信度

相关帖子

浏览过的版块