湘里妹子学术网

 找回密码
 注册
查看: 2794|回复: 0

论普通话水平测试的信度

[复制链接]
发表于 2004-8-15 10:03:31 | 显示全部楼层 |阅读模式
作者:周小兵
来源:http://www.gzedu.gov.cn/yw/07-03.htm 

------------------------------------------------------------------------------------------------------

导 言

    1994年,国家语言文字工作委员会、国家教育委员会、广播电影电视部联合发出了《关于开展普通话水平测试工作的决定》。(国家语委、国家教委、广电部,1994)此后,推广普通话的工作逐步走向科学化、规范化、制度化,并取得了前所未有的成绩。可以说,普通话水平测试是上个世纪末我国内地推普的最大动力。

   当然,7年来的测试实践也使我们看到,普通话水平测试还有许多值得研究的地方,还有不少可以改进的地方。因此,本着与时俱进、实事求是的原则,有必要根据新世纪对推普工作的要求,参照新世纪语言规划的方针政策,对普通话水平测试的性质、内容、标准、具体实施等进行考察和研究,并进行一些适当的修订。其中,有关测试的信度问题,尤其值得我们进行深入细致的考察和研讨。

 

测试信度的含义和内容
1.信度的含义及测定方法

   信度是指测试的可靠性,或者说,是测试结果的稳定性。它是测试的基本保证。信度一般包括试卷的制定和试卷的评判两个方面。

   测定一份试卷是否可靠,有两种方法:(1)重测法。具体做法是,把同一份试卷让相同的考生考两次。如果分数基本相同,说明试卷的可靠性比较高。反之,则证明试卷的信度不够高。(2)对等法。出两套分量、难度相当的试卷,让相同的考生在一次测试中同时做这两套试卷。如果分数基本相同,说明试卷的信度较高。反之,则说明试卷信度不高。

  测定对试卷的评判是否具有信度,一般用重判法。具体做法是,同一份试卷(如作文、口语测试录音带),让不同的判卷人或不同组别的测试员评分。如果差距在允许范围内,证明试卷评判的可靠性较高。反之,则说明判卷方面的可靠性不够高。

2.测试的可靠性系数及其与测试类别的关系

   测试的信度可以通过可靠性系数来表达。可靠性系数用 0.0~1.0表示:越接近1,信度越高;越接近0,信度越低。

   在语言测试中,我们一般要测评应试人的语言知识和言语技能。但语言知识有语音、词汇、语法、语篇的区别,言语技能也有听、说、读、写的不同,各种语言知识和言语技能的特点、构成不同,会直接影响对其进行测评的方式,同时也就会影响测试的可靠性系数。一般来说,测试语言知识的可靠性系数较高;在言语技能方面,测试阅读的可靠性系数较高,一般可以达到0.85~0.98;听力稍低一些,一般可达0.8~0.9;口语更低,一般为0.7~0.79;写作最低,只有0.6~0.72。

   从判卷角度看,测试可以分为客观测试和主观测试。使用多项选择题方式编制的阅读、语法、词汇等项目的试卷,属于客观测试。同样的试卷,其测试结果不会因判卷人的主观差异而有所改变,可以用计算机判卷。口语、作文测试属于主观测试。同样的试卷,测试结果可能因判卷人主观因素的不同而有较大的差异。

   试卷的信度在客观测试中更为重要,判卷的信度在主观测试中更为重要。当然,不论是主观测试还是客观测试,试卷和判卷的信度都非常重要,都要进行考察、研究和测定,以保证测试结果的稳定性。

   普通话水平测试基本上是口语测试(尤其是在去掉原测试第4部分的“选择、判断”之后)。由于它属于主观测试,跟阅读、听力测试比,其可靠性系数也是较低的。正因为如此,如何保证测试的信度,就显得更为重要了。

 

二.目前的做法

   有关普通话水平测试信度的测定,目前很少看到公开发表的研究报告。孙修章(1992)在《〈普通话水平测试标准〉的研制与实践》第4节里,只讨论了对普通话水平测试等级标准可靠性的验证。

但在如何确保测试的信度方面,有关方面制定了一些条文。如:

测试评定的普通话一级甲等,需分批报国家语委普通话培训测试中心复审。复审比例为:10名以内复审1/3,11名~50名以内复审1/5,51名以内复审1/10。(刘照雄,1994,4页)

   一些省、市在保证测试可靠性方面也有一些措施。如,各测试站测试评定普通话一级乙等,需分批报省、市语委普通话培训测试中心复审。

   此外,还有一些文章讨论了如何科学编制、规范使用普通话水平测试试卷(程明,1997),如何保证判卷评分的质量(宋欣桥,1997)等问题。这些论文根据测试实践中出现的有关问题,从试卷编制和试卷评判两个方面论及了测试的信度问题,提出了不少保证测试信度的做法。

   应该说,上述措施的采取,上述论文中谈及的做法,都可以使测试的信度得到一定程度的保证。但是,从测试实践来看,这些措施和做法还是不够的,还未能从根本上解决普通话水平测试的信度问题。

 

三.信度问题考察

   普通话水平测试属于主观测试,其信度的保证比较困难。为了对测试的信度进行测定,我们做了一些实验性考察,发现测试中跟信度相关的一些问题,并提出相应的解决办法。

3.1 试卷的信度

   我们用对等法做过实验。具体来说,就是挑出两份试卷,在相同时间里对相同的考生进行测试,发现两份试卷的得分有较大的差异。

   这里反映出的测试结果不稳定,主要是试卷问题,既挑选出来的两份试卷在难度上有较大的差异。而试卷难度不一,在测试第一、第二部分里有反映,在第三、第四部分(即朗读、说话部分)则更明显。

3.11 “读单音节字词”部分

   一般要求是,100个音节,每个声母出现一般不少于3次;每个韵母出现一般不少于2次;方言里缺少或易混淆的酌情增加1?/FONT>2次;声母或韵母相同的要隔开排列;不使相邻的音节出现双声或叠韵的情况。(刘照雄,1994)上海市普通话培训测试中心的程明(1997)也论述过他们在试卷编制上的一些做法。从要求和做法上看,单音节字词声韵调的分布是均匀的。但是从实际编制出来试卷和测试实践来看,至少有4个因素影响了试卷的难易度和测试的可靠性。

(1)相同或相似的音节,反映到书面语里可能是不同的汉字,而这些汉字对应试人的认读来说,难易度相差很大。如同样是考 suī 这个音节,出现的汉字A卷是“虽”,B卷是“睢”,C卷是“尿(尿泡)”,难度差异非常大。如果让同一个应试人来测试,得分就会不一样。[1] 现在的试卷,有不少包含了一般应试人难认的汉字。如果难认字在不同的试卷中分布不均匀,当然会影响试卷的难易度和测试的信度。

(2)多音字词的多寡与处理。由于汉语音节数量极为有限,多音字词的数量非常多。刚开始进行普通话水平测试时,要求试卷尽量少出多音字词。但这一条很难实行。接着就提出,如出现多音字词,只要读准其中一个音即可。后来又有了一种做法,设置具体语境以限定读音。但不管用什么方法,都回避不了一个事实:试卷多音字词的多寡,会影响它的难易度。如使用括号设置具体语境来限定读音,有的试卷有20多处,有的试卷只有几个。

在处理上也有问题。有一份试卷是这样出的:

雨(雨水)

   “雨”在普通话口语里当然是读上声。右面的括号说明“雨”读“雨水”的“雨”,是名词,读上声;而不是“雨雨、雨雪”中的前一个“雨”,做动词,读去声。出这样的题目目的何在,效果如何,我不想在这里讨论。[2] 但这样出题,尽管有了括号注明,应试人还是不清楚:这里的“雨”到底是应该读上声,还是按“上上相连,阳平在前”的规则读阳平呢?

(3)词跟语素、音节的区别问题。我们先举一份样卷中最后10个字:

棉 瞥 戛 绳 纫 咱 搜 奈 而 尬

    “尬”只是一个音节,单独没有意思,更不能单独使用。“戛、纫、奈”单说的机会也极少,更象不成词语素。不成词语素和没有意义的音节是不能单说、单用的。类似“尬、奈、纫”等音节、语素,绝大多数应试人只有在中小学上语文课时才可能单个地读,在平时交际时不会单独使用。因此,这类语素和音节出现越多,试卷难度越大。

   我们做过实验,让大学中文系的10名硕士研究生和讲师读这10个字,结果没有一个人能全部读出它们的正确发音,尽管其中有2名还是普通话水平测试员。有6人能读对“瞥”的发音,另有4人将之读为去声。只有1人能读对“戛”,其余的或读为 gǎ ,或读为 gā。最有意思的是“尬”,所有的人都会“尴尬”的读音,但有4人将“尬”错读为“尴”的发音。这里涉及到汉字的心理认知过程和特点。在交际中,“尴尬”从来不分开用,也从来不单独用。乍一分开,人们只得从声旁去辨别,以确定读音。但这里的声旁“监、介”根据普通话读音也不容易认定,结果他们4人选择了错误的发音。[3]

(4)异读字词。异读字词多的试卷难度会大一些。此外,还有异读与统读的不统一问题。最典型的例子是“荫”。按国家语委、国家教委、广电部审查通过并于1985年发布的《普通话异读词审音表》,“荫”统读为去声,但《现代汉语词典》(中国社会科学院语言研究所词典编辑室,1997)却还是注出平声和去声两个读音。

3.12 “读双音节词语”部分

   这部分包含双音节词语50个,目的是:除了考查声韵调之外,还考查上声变调、儿化韵、和轻声的读音。试卷要求,除了跟第一部分相同的内容外,还要有上上相连的词语不少于2次,上声和其他声调相连的不少于4次,轻声不少于3次,儿化韵不少于4次。(刘照雄,1994)

   尽管有这些要求,实际编制出来的试卷难度还是有一些差异,有的还比较明显。主要因素有些跟第一部分相同或相似,有些不同。

相同相似的如:

(1)多音词语的多寡。如“教学”,其中的“教”是阴平还是去声?“地下”的“下”,是去声还是轻声?尽管有些试卷也用圆括号设置具体语境以限定读音(如“教学(教学相长)”),但多音词语多的试卷肯定难度大一些。

(2)异读字词的多寡。如(3.11)中举的“荫”,出现在双音节词语中如何读?如“树荫”的“荫”按《现代汉语词典》应读平声,按《普通话异读词审音表》应读去声。

不同的如:

(3)儿化韵的情况。虽然要求每份试卷的儿化韵不少于4次,但出什么样的词语难度是不一样的。这里有两个方面的因素。一是发音难度,对南方人来说,“有点儿”的儿化韵比“金鱼儿”要容易发。二是含儿化韵词汇的认识、掌握、使用。绝大多数含儿化韵的词汇,绝大部分参加测试的南方人从书面语辨认上都没问题,也都可以在日常交际中使用,不论是听还是说,只不过他们在发音时没有、或很难将词汇尾部的儿化韵发出来、或发准而已。但有少数含儿化韵的词汇,绝大部分参加测试的南方人本来就不认识,即使看懂了汉字也不知道是什么意思,当然也从不在交际中使用。遇到这类根本不懂的词汇,让他们发出儿化韵就更困难了。我们做过一些实验,让同样水平的考生读“有点儿、墨水儿、爆肚儿、出圈儿、白醭儿”这5个词语,不少能读对前2个词语的考生,读不对后3个词语。经询问,其中大多不知道后3个词语的意思。

   以上讨论了影响第二部分测试信度的3个因素。还有一个问题,就是有无必要花大力气测试儿化韵和轻声的读音?由于这个问题跟本文题目没有直接关系,就不在这里讨论了。

3.13 “朗读”部分

   朗读测试的目的是:考查应试人用普通话朗读书面材料的水平,重点考查语音、连读音变(上声、“一”、“不”),语调(语气)等项目。(刘照雄,1994) 但我们考察了50篇作品,发现有的篇目缺少一些需要测试的项目。缺少“不”连读音变的,有作品1号,3号,14号,15号,22号,25号,37号,42号,47号,49号。缺少“一”变为去声的,有作品8号,22号。如果抽到这些作品朗读,不但达不到测试的目的,而且难度也会低一些,直接影响测试结果的稳定性。

   此外,对南方广大地区来说,儿化韵的发音比较困难。为了考察试卷的难易度,我们对50篇作品进行了统计,发现儿化韵的分布很不均匀。儿化韵有必读和可读可不读两类,前者收在作品后边的“语音提示”里。这里只讨论必读儿化韵的情况。根据初步统计,儿化韵最多的一篇有7个(作品10号),最少的一个也没有(有22篇)。对读儿化韵困难的应试人来说,如果抽到作品10号,分数就会低一些;抽到没有儿化韵的作品,分数就会高一些。

   我们将上声(只讨论上上相连的情况)、“一”变为去声、“一”变为阳平、“不”的变调、儿化韵作为5个指标,对50篇作品进行了初步统计,发现其分布不够均匀,会影响朗读部分的评分。下边举两个差别最大的作品。

作品10号:上声变调5次;“一”变去声3次;“一”变阳平9次;“不”变调1次;儿化韵7次。总共25次。

作品42号:上声变调3次;“一”变去声5次;“一”变阳平1次;“不”变调0次;儿化韵0次。总共9次。

不难看出,从需要测试的项目来看,这两篇朗读作品的难度有一定区别,肯定会影响测试的信度。

3.14 “说话”部分

   “说话”部分包括50个题目,有的容易一些,有的难一些。在几年的测试实践中我们发现,16题“我的家乡话”,17题“家乡新变化”,23题“谈谈邻里关系”,29题“我的拿手菜”,39题“我最喜爱的一种小动物”,50题“我最喜爱的一种花卉”,对不少应试人来说比较难。这里既有性别差异、好恶选择的因素,也有社会变化的影响。如29题,39题,50题,有的应试人说,他/她根本就不会做菜,或根本就不喜欢小动物,不喜爱花卉。象16题,23题,不少应试人说根本就不懂家乡话;或说现在基本上没有什么邻里关系,回到家里把门一关,极少跟邻居交往。某一类人抽到某一类很难说的题目,肯定会影响说话部分的得分。

   对此我们专门做过实验,让同一考生同时说两个说话题目,结果谈“我的业余生活”、“我的妈妈”等题目的分数,比谈“‘我最喜欢的一种花卉”、“谈谈邻里关系”等题目明显要高一些。

判卷的信度
   对试卷的评判,可靠性问题更为明显。在测评同一考生时,3个测试员的分数常常有差异。当然,作为主观测试,测试员评分有差异是正常现象,只要不超出差异的许可范围就可以了。宋欣桥(1997)指出:

为了量化评分有所依凭,我们根据测试实践,将等级中正常的非临界评分差异细致描述如下,供测试人员参考:

一级 差异在0.9分以内。

甲等 差异在0.5分以内。

乙等 差异在0.9分以内。

二级 差异在1.5分以内。

三级 差异在2分以内。

   但实际上,几个测试员分数差异,超出上述正常非临界评分差异值的情况不少于30%。而且,分数差距也相当大:三级之内,有的分差达8分;二级之内,有的分差达5分;一级之内,有的分差达2分。

   此外,上面只讲了非临界的分差。其实,临界、跨界的分差也应该定出一个可允许的范围,以方便测试的顺利进行,方和对判卷进行合法、有效的监控。

   为什么判卷结果如此不稳定呢?由于本文题目限制,我们这里不讨论测试员素质问题;只想探讨判卷的信度跟测试标准的关系。因篇幅有限,只讨论第三、第四部分。

3.21 “朗读”部分

“朗读”部分测评标准有不够明确之处,主要表现在方言语调和

停两方面。

   按测试评分的要求,“方言语调一次性扣分:方言语调突出,扣3分;比较明显,扣2分;略有反映,扣1.5分。”(刘照雄,1994)但什么叫“方言语调”?“突出”、“比较明显”、和“略有反映”区别和界限是什么?并没有官方文件明确说明,也没有大多数专家、学者和普通话水平测试工作者认同某种说法。

   宋欣桥(1997)提出了“方言语调”基本范围的4个方面:(1)声调(字调)不准确会直接影响到普通话语调;(2)轻重音的方言模式;(3)语调节奏的方言色彩,包括语速、停顿、节拍群与普通话的差异;(4)方言中特有的感叹词、语气助词。但他又提出,第(3)点中语速、停顿已另设项评分;第(4)点提到的内容,在朗读项的作品中一般不会出现。其实只有(1)(2)两点。当然,这两点确实是构成方言语调的重要内容,值得认真研究,并定出具体可行的测评标准。

   不幸的是,第(2)点中提到的轻重音格式,不论是普通话的还是方言的,都还没有令人满意的研究成果,只有一些个案描写。当然,就更不可能定出操作性强的测评标准。因此,测试员在测评方言语调时基本上是凭听觉的语感来判断,这就很难避免分差过大的问题了。

   关于停顿的评分标准是:“停顿、断句不当,每次扣1分。”这条标准也很难把握,主要原因是什么叫做“不当”。我们知道,停顿不当有多种情况:该短停顿的停顿时间过长,该长停顿的停顿时间太短;长句中未按意群划分来停顿;有标点符号不停顿,没有标点符号反而停顿;读破双音节词或多音节词……很明显,对不同的“不当”,应该有不同的处理。否则,测试结果就会不稳定。在测试实践中我们发现,遇到一些在停顿问题较多的考生,不同的测试员的评分在停顿一个问题上就相差3分。而主要分歧就在于如何处理不同的“不当”。

   宋欣桥(1997)提出:“1)停顿造成对一个双音节或多音节词语的肢解。2)停顿造成对一句话、一段话的误解,形成歧义的。这两种在朗读中明显造成停顿“错误”的情况,可以每次扣1分。一般的停顿不当(如停顿虽没有上述两种情况,但每个意群停顿过长,甚至屡有停顿超过3秒钟的情况),一次性扣分以不超过2分为宜。”应该说,上述说明既有科学性,也有可操作性。它给了“停顿、断句不当”以具体含义,解释、区分了几种不同的情况,并给以不同的处理。

   可惜的是,这篇文章发表在1997年,时间稍晚了一些;即使发表之后,由于各种原因,有一些测试员也未看能到。

3.22 “说话”部分

   这部分测试员的评分差异最大,主要原因在“语音面貌”上。具体来说,在于对“方音不明显”、“方音比较明显”、“方音明显”、“方音重”的区分和把握上。

   “说话”部分的“方音”跟“朗读”部分的“方言语调”相似,也是测评难点。不同是,在“朗读”部分,“方言语调”只占3分,测试员的评分差异一般只在半分到1.5分之间。而在说话部分,对“方音”程度的把握不同,可能造成的差异则大得多。我们在测试实践中发现,有的测试员在“语音面貌”一项上的评分差异就在4分以上。抛开测试员的素质,我们认为,标准制定不细是主要原因。

 

四.提高测试信度的措施

4.1 加强对试卷编制的改进和管理。

4.2 加强对测试标准的研制和改进。

4.3 测试实践与科学研究相结合。

4.4 加强对测试员的培训(岗前培训和在岗培训)。

 

附 注

[1] 当然,这里也涉及到测试性质问题。

[2] “雨”做动词读去声,是古代汉语的遗迹,在现代汉语里是否存在,我不大清楚。但我们相信,参加测试的人在看到单个的“雨”时,绝对不会考虑“雨”有两个读音,然后在两个当中挑选,可能读成上声,也可能一不留神错选为去声。这样出题其实是试卷制定者在显示自己的古汉语功底而已。

[3] “字”和“词”的界限应该严格区分。只有词和大于词的语言单位才是语言交际的备用单位,才可能在运用中比较自由的使用,才有可能单说、单用。因此,普通话水平测试的第一部分应该只考单音节词,不要考不成词语素,更不要考单独出现时没有意义的音节。这样,才能充分体现普通话水平测试的性质,才能保证测试的信度、效度,才能使普通话水平测试成为推广普通话的动力。不然的话,不少平时可以较好地运用普通话进行交际的人,可能测试过不了关;或在测试第一部分得分较低。而某些普通话不见得好,但认字能力强的人,可能会在第一部分测试中得高分

我们认为,要划清词跟语素、音节的界限,首先应将此部分测试的题目改为“读单音节词”,将原来的“字”删去。这样,不成词语素和没有意义的音节就不能进入单个读的测试范围,就可以更好地体现普通话水平测试的性质。

主要参考文献

   国家语言文字工作委员会 国家教育委员会 广播电影电视部 1994 《关于开展普通话水平测试工作的决定》,载刘照雄主编《普通话水平测试大纲》长春:吉林人民出版社。

   国家语言文字工作委员会普通话培训测试中心 《语言文字应用》编辑部 合编 1998 《普通话水平测试的理论与实践》商务印书馆。

郝德元 1982 《教育与心理统计》北京:教育科学出版社。

刘照雄 主编 1994 《普通话水平测试大纲》长春:吉林人民出版社。

盛炎 1990 《语言教学原理》重庆出版社。

宋欣桥 2000 《普通话水平测试员实用手册》商务印书馆。

孙修章 1992 《〈普通话水平测试标准〉的研制与实践》《中国语文》第1期。

王建华 主编 2000 《21世纪语言文字应用规范论析》杭州:浙江教育出版社。

中国社会科学院语言研究所词典编辑室 1997 《现代汉语词典》北京:商务印书馆。

周小兵 1997 《第二语言教学论》石家庄:河北教育出版社。

棗?2001 《普通话水平测试性质的思考》提交国家语言文字工作科研“十五”规划论证会论文。

周有光 1999 《卷首语》《语言文字应用》第4期。

(联络:510275 广州市 中山大学对外汉语教学中心

电话:020-84113110;传真:84110233;电邮:fltcfl@zsu.edu.cn )
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|湘里妹子学术网 ( 粤ICP备2022147245号 )

GMT++8, 2024-6-17 07:17 , Processed in 0.064979 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表