7月24日,中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(简称“双减”政策),力求减少广大在校学生的学科压力,使得应试培训向综合素质提高的方向上做出良性转型。在这样的社会大背景之下,应试教育的缺欠有必要引起广大家长和学生的高度重视。因此,美国密歇根州立大学教育测试学博士王鹤群从专业角度,分析讲解应试型教育的弊端及其对于教育培养和人格形成的害处,从而让广大家长和学生防微杜渐,趋利避害。
大型标准化测试的主要特征
在当前的“教育全球一体化”(Educational Globalization)的形势下,大型标准化测试(Large-scale Standardized Tests)对于广大考生而言已经不再陌生:托福(TOEFL)、雅思(IELTS)、SAT、ACT、GRE、GMAT等世界规模的留学相关的考试都是大型标准化测试,而中国的大学英语四级、六级考试经过这么多年的发展,也成为了比较成熟的大型标准化测试。
针对大型标准化测试,目前世界上通用的测试分析模型为英国常用的Rasch模型和美国常用的IRT 模型。这两种在教育测试领域所应用的潜在特质概率分析模型都搭建在(0,1)数据库之上,用“0”代表答题错误,用“1”代表答题正确。
为了能够让这个数据库可以成功的搭建,大多数大型标准化测试所采用的题型都是选择题,尤其是单选题(Multiple Choice Items), 让考生在四项或者五项选项里,选择他们认为正确的答案。一旦答对,该题目在试题分析数据库中被标记为“1”, 一旦答错,该题目则被标记为“0”。
当然,也有的题型是判断题,针对某一道题目让考生判断正误,打勾表示正确,或者打叉表示错误。这种题目和选择题一样,一旦答对,在试题分析数据库中被标记为“1”, 一旦答错,则被标记为“0”。然而,近些年判断题并不常见,因为考生猜对的概率已经达到了50%,这种题目被认为没有单选题更加有效。
对于填空题、简答题和问答题,大型标准化测试则尽量避开,因为这些题目学生的答案是自主提供的,不同的思考角度提供了不同的正确答案,并且判分人员的不同水平和背景知识会导致判分过程的疏漏和失误,因此这会降低大型标准化测试的信度和效度,影响该种试题的时效性和声望。故而,这些题目就被大型标准化测试忽略了。当然,在目前的一些语言类大型标准化测试中,特别增设了作文这一题型,但是为了迎合考试的特征,这一题型首先是单独计分,不放入数据库进行分析,其次为了方便于分析,这些作文的题目和判分过程也存在弊端。
特征决定了其功能,而功能内部就潜藏着弊端。大型标准化测试的弊端恰恰体现在他们所使用的题目类型上。这些细节如下所述。
选择题、判断题的设计弊端
选择题通常被我们叫做“客观性题目”,这真的是一种美化。这种题目谈不上任何客观,并且答题过程中存在分数膨胀(score inflation)。这种现象包含但是不限于以下几种情况:
(1) 一个学生即使能力为0, 也有20-25%的可能性能够猜对题目。如果一次考试有100道“四项里面选择一项”的单选题,每道题分值为1分,而考生实际水平为0,那么这个考生能够得到的分数也会在25分左右。
(2) 在实际学习过程中,考生的水平很少为0,或多或少的能够掌握一些知识的片段和局部内容。这些并不完整的知识掌握能够帮学生排除两个干扰项的话,这个考生的分数就能达到50分。我们看到分数,会认为学生已经掌握了一半的知识内容,但是事实上学生单凭自己的能力和知识累积很有可能无法将知识付诸于实际运用,所学皆是虚无。
(3) 假定一个学生掌握了一半的知识,对另外一半的内容全都不会。那么对于他掌握的知识,他可以答对50道题目,得到50分,而对于他全都不会的题目,他仍然可以凭借猜测“蒙对”12题,得到12分。这样他的总分就是62分,及格了。但是事实上他所掌握的知识并没有达到及格线。
(4) 假定一个学生掌握了一半的知识,对另外一半的内容一知半解。对于他已经掌握的知识,他可以得到50分,而对于一知半解的题目,他可以排除两个干扰项,就可以让自己得到25分。这样,他的总分可以达到75分,但是事实上他只有50分的水平。
凡此种种,就构成了我们日常所说的“高分低能”的状态。首先,学生的分数并没有反应他们的知识掌握和运用的真实状况。其次,这样的题目滋生懒惰,而这样的分数也滋长娇纵,给学生过度而盲目的自信。
判断题的弊端就更大,因为猜对的可能性达到50%,这种题目对于区分学生的能力差别非常无效。
选择题、判断题对于教育培养和人格形成的害处
上述我们展示了选择题和判断题在题目设计上存在的先天不足和弊端。然而,鉴于考试是教育培养的指挥棒,这些题目经年日久的使用,对于教育培养本身,乃至于对于学生的人格形成上,都有不可忽视的害处。
首先,学生自己的探索、开创、想象力和解决问题的能力被扼杀。
教育的目的,在于让学生能够学有所得,学有所用,学有所成,能够把知识付诸于实施并且取得良好的效果,从而为社会做出正向的贡献。每当学习新知识,学生应该能够自主接受新知识,把这些知识点放置于自己已经掌握的知识脉络中,看到所学知识和自己已知知识之间的联系,并且尽量将知识投入使用。在这个逐渐的认知过程中,学生可以多方面、多角度的尝试使用知识,纠正错误和偏差,巩固正确的认识,从而实践出真知,有所成就和感悟。
然而,选择题和判断题并不鼓励学生自己发掘和探索。它们把学生的思维禁锢在几个选择项之内,学生只要看到这几个选项能够快速“嗅”出正确答案,就可以得到高分。久而久之,学生会有一个潜在假设:万事万物都有一个所谓的“标准答案”,自己只要能够认真观察,站对了队伍,就万事大吉了。对于探索和开拓,学生早已没有了勇气和兴趣,而对于和所谓的“标准答案”不符、不一致的答案,学生更加没有胆量去正视和思考。所谓的探索、开创、想象力和实践能力,都被选择题扼杀在学生的成长过程中。
其次,学生,尤其是高分的“学霸”学生,习惯性的学会了选择和放弃。
“十年树木,百年树人”,学生的人格是在日常的学习和生活中逐渐形成的。这个过程中,考试作为教育的指挥棒不仅规范了学生的学习行为,也推而广之,逐渐塑造了学生的生活习惯和人生观。
近些年来,一些“学霸”现象不断见诸于报端,诸如“精致的利己主义者”这样的批评也不绝于耳。人们在批评和叹息的同时,没有深究这种社会现象的成因。事实上,形成了“精致的利己主义者”,恰恰是试题中的选择题造的孽。
常年做选择题并且强迫自己一定要找到“正确答案”的人,在潜移默化中学会并且接受了放弃。所谓的错误答案并非毫无是处,但是在高分的诱导下,“学霸”们早就习惯了忍痛割爱,为了高分果断舍弃。
后来,这种行为也被他们放在了生活中。例如:
(1)有的在国外留学并且定居的“学霸”,遇到国内的亲人过世,不会回来。他们的逻辑是这样的:回来一趟要花费数千美金的成本,然而亲人已经过世,回来也不会改变什么,除非有遗产继承可以弥补这数千美金的成本或者让自己收益更多,否则回国一趟是“赔本买卖”。而与此同时,如果在美国继续工作,可以挣得数千美金。这两下的差值是上万美金,因此他们不会回来。那么不能参加亲人的葬礼不会心痛吗?会,但是他们早已经习惯了舍弃,并将之视为生活的必然或者是一种更为“理性、理智”的决策方法。在他们的思考过程中,情感因为不可计量,“情义无价”,早就被他们放在计算的模型之外,忽略不计了。
(2)有的“学霸”年轻的时候找一个学习好的、和自己一样高学历的人组建家庭,而当他们人到中年、事业有成的时候,他们会果断离婚,再找一个和自己一样有财富、有人脉的配偶重新组建家庭。因为在他们的内心牢牢扎根的就是选择题的策略,永远在自己可见的范围内寻找“最好的、最佳的”,从而让自己的家庭稳定沦为空谈。那么当他们事业受挫、财富缩水的时候,当他们的配偶离开他们而去的时候,他们能按照同样的“选择原则”让自己释怀吗?不能,因为他们从小到大习惯了自己得高分,自己得到,自己有选择权,而没有习惯自己成为落魄而被放弃的一方。“己所不欲,宁施于人”成了世人对他们品行的诟病。
凡此种种,不胜枚举。当这些人给自己冠以“理智”之名而在人世间制造伤痛的时候,他们自己都不知道,自己其实是应试教育中选择题的牺牲品。正是一次又一次的高分,作为他们这种行为的推进剂,给了他们胆量和盲目的自信,让他们敢于忽视情感和良知来做出于己于人都无所裨益的选择。
最后,“高分低能”的所谓人才被培养成型了。
“高分低能”这个词被喊了不下20年了,这个过程中不同的教育家、教育工作者和老师们对于这个词也有不同的看法。就我们看来,有哪些是“高分低能”的表现呢?
(1) 分数高、学历高,但是解决问题的能力不高。不能够学以致用。
(2) 学历高、待遇高,但是对社会的贡献不高。不能够“为天下立心,为百姓立命,为往圣继绝学,为万世开太平”。
(3) 分数高、学历高,但是独当一面的工作能力不高,同时和团队合作的能力也不高。不能够很好的融入并且引领社会。
这样的“高分低能”就是选择题做得太多的恶果。习惯于唾手可得的选项,而让自己放弃了开拓和创新。习惯于高分和高薪,习惯于掐尖和攫取,愿意获得别人的艳羡而让自己失去了对世界的敬畏和别人能够给予自己的尊重和信赖。醉心于以往的高分成就而让自己脱离群众,既不能成为“挑大梁”的人,也不能成为友善的“背景板”。
试题之殇,超乎想象!
填空题、简答题和问答题的优势和劣势
填空题、简答题和问答题经常被叫做“主观性题目”,是因为它们需要考生自己提供答案。不同的学生提供的答案千差万别,这其中体现了他们不同的知识储备和思考角度,也检验了他们的表达水平,更锻炼他们把知识付诸于实际运用的能力。这样的题目,容不得水分,实打实的展现学生的真实学习水平。
然而,这样貌似“完美”的题目类型只适用于日常小考和学校内部考试,并不适用于大型标准化测试。在大型标准化测试中,他们有以下几项劣势:
(1) 答题时间久,不容易在考试时间和管理上达到效率。问答题需要占用学生巨量的书写或者打字时间,因此一场本来应该100分钟的考试,很有可能因为改成问答题而变为耗时7-12小时的长时间考试,这在大型标准化测试实践中无法操作。
(2) “一人千面、千人千面”,同一道题目所引发的回答可能千差万别。同一个考生在不同时间考同一道题,都有可能答案有差别,因此试题的信度(Reliability)会受到影响。同时,不同的考生在考同一道题目的时候有可能答题角度不同,但答案都正确,这就会影响试题的效度(Validity)。信度和效度都低于门槛值的试题不可能被投向市场,这就决定了用填空、简答和问答题的试卷无法成为大型标准化测试的试卷。
(3) “千里马常有,而伯乐不常有”,“千人千面”的试题答案极大的考验了判分者的综合知识和素养,这使得一些判分结果会引起争议。同时,不同人有不同的正确角度,也使得众多考生无法在同一个标准和维度上进行能力衡量。试卷的公平性会受到质疑。
综上所述,大型标准化测试的实质和基本要求,决定了他们不能重用填空、简答和问答题这三种题型,而恰恰是这三种题型才能真正检验和督促学生的学习。
以应试为主要目标的教育选拔机制的害处
通过以上四个部分的分析,我们可以看到:考试作为教育的衡量机制和指挥棒,并不是万能万有的。试题设计和分析,作为应用数学和应用统计模型的一个分支,有其固有的局限性。
1. 试题模型是量化的模型,而日常生活中不能被量化的部分则被忽略。这种忽略,使得试题的结果不能被奉为金科玉律。
在测试界流传着一个经典笑话:“一个人把戒指掉在黑漆漆的马路边,而他在路灯下被照亮的路段寻找。别人问他:你的戒指是掉在这里吗?他说:不是。但是这里亮堂,好找,就在这里找吧。”我们常常用这个笑话比喻测试模型的缺欠。要解决的问题其实不知道怎么解决,但是有些不能量化的部分被忽略以后,把可以量化的部分做成模型,然后就拿这个试题模型来凑合事儿了。那么这个模型的结果是完全正确的衡量指标吗?当然不是,而且很有可能是误导的,但是既然没有更好的选择,权且就拿来用用看吧。
比方说,在考察决策能力和决策方案的时候,我们会假设:所有人的选择都是理性的,情感这个因素可以忽略不计。在这个假设的基础上,不同的决策选择被赋予不同的数值,从而进入了运算。然而实际生活的经验告诉我们:理智和情感都是每个人生活的必需品,并且人生来就有情感,却在后天教育中得到理智,从而情感能力对一个人的决策的影响程度会更大。但是,情感是不能量化、不可计量的,不能被放入计算模型中,因此以理智分析作为主要判断指标的测试模型所得到的结果在实际应用中完全没有用武之地,甚至是南辕北辙。
2. 大多数试题模型是单维模型,只考虑一个方面而忽略学生的全方位特征,因此“唯分数论”会埋没人才,并且畸形扭曲人才的发展方向。
无须赘述,这个方面在日常生活中随处可见。例如,当我们用托福考试的成绩来选拔英语人才的时候,我们就忽略了在英语沟通中可以合理使用肢体语言和面部表情的人,忽略了在能够写作小说、童话、寓言等生动的文学故事的人,忽略了能够聆听别人的弦外之音并且由此做出举措和判断的人,也忽略了能够阅读小说、历史、政治等文章并且有入木三分洞察力的人。这些能力,都高于托福所考察的能力,因此他们的水平并不在分数中得以体现。“唯分数论”遇到了天花板效应,则试题的分数本身就是无效也没有指导意义的。
又如,当我们用英文版的数学考试(例如SAT数学考试)来衡量中国学生的数学能力的时候,一些高水平学生因为看不懂英文单词而做错题,我们会认为他们的数学能力不高。但是事实上他们的数学水平可能高于题目所考核的难度。这种情况下,这个测试模型是数学和英语的二维测试模型,而我们只用一个维度的分数来做衡量,本身就会埋没人才。一方面,数学的水平遇到天花板效应,不能充分体现,另外一方面,英语的水平会对分数有所牵制,导致一些数学天才没有得到充分的发挥和培养,却转而提高自己的英语水平,发展方向被扭曲。
3. 学生的发展拥有无限可能,而试题只是其中非常有限的一个方面的模型化展示,忽略了太多。因此,跳出试题的限制,才有可能收获更多。
学校的职责是“教书育人”,而不是让学生成长为做题机器或者社会某一项或者几项工作的工具人。任何一个学生,即使他是数理化的天才,也有权利享受音乐、体育、文学等带来的喜悦和乐趣。生活是丰富多彩的,因此学生也不应该以分数和应试作为自己的人生主要目标。