挑战与应对：取消考试大纲后大规模教育考试命题的测量学考量

(2020-02-06 10:56:48)

目前，大众对“考什么就教什么学什么”以及“抢赶教学进度、超标教学、日常测试频繁等现象”[1]已经习以为常，但这种状况与国家所要求的学生德智体美劳全面发展的目标存在较大差距。为此，《国务院办公厅关于新时代推进普通高中育人方式改革的指导意见》[2]（以下简称《指导意见》）提出，“在实施普通高中新课程的省份不再制定考试大纲，学业水平选择性考试和高等学校招生全国统一考试命题都要以国家普通高中课程标准和高校人才选拔要求为依据，促进教考有效衔接”。这就是说，“不再制定考试大纲”“高中学业水平选择性考试分省命题”和“根据课程标准命题”将会是今后高考和中考[3]等大规模教育考试工作的新常态。由于课程标准并不负责界定高考和中考等教育考试命题的范围、深度、题型、题量、计分和作答等方面的要求，而且部分省市的命题队伍在教育测量学知识的掌握和命题实践等方面尚有明显欠缺，因此，高考、中考以及其他大规模教育考试的命题质量值得关注。如何保证考试工作的可信（reliable）、有效（valid）和公平（fairness）？如何利用课程标准指导命题工作？本文从教育测量学角度，就上述问题展开讨论，以期为高考、中考等大规模教育考试命题以及在中学教学中开展形成性评价提供问题解决的测量学思路。

一、根据课程标准命题所面临的挑战

由于今后“不再制定考试大纲”，依据课程标准命题就成为命题人员的必然选择。如何根据课程标准命题呢？《指导意见》指出，要“优化考试内容，突出立德树人导向，重点考查学生运用所学知识分析问题和解决问题的能力。创新试题形式，加强情境设计，注重联系社会生活实际，增加综合性、开放性、应用性、探究性试题。科学设置试题难度，命题要符合相应学业质量标准，体现不同考试功能。加强命题能力建设，优化命题人员结构，加快题库建设，建立命题评估制度，提高命题质量”。由此可知，根据课程标准做好命题工作，其中的挑战不少。

1 在知识界定方面，“优化考试内容”的任务不轻松

由于课程标准的重点在于指导中学教学工作，许多要求基本属于概念性质，缺少足够的行为描述或操作性定义，因此，根据同样的课程标准要求，不同的命题专家很可能得出很不相同的理解，其后果是考试本身的内容效度无法保证，中学教学的应试压力必定增大。假若由此出现加重学业负担等后果，则违背了《指导意见》的初衷。比如，新版语文课程标准[4]就没有办法把中华语文的知识内容完全包括进来。事实上，中华语文的内容博大精深，任何人都没有办法界定清楚必考的知识范围，而且也不宜固化语文考试内容。清末科举考试之所以被废除，其中一个重要的原因就是考试内容主要被界定在“四书五经”范围，远离了现代科学技术等内容。文章必须满足“八股文”要求，禁锢了学子们的思想自由等做法也常常被作为批判科举考试的理由之一。除了语文课程标准，其他科目的课程标准同样需要做操作化解读，还要根据行为主义的命题思路探索出跨学科命题的办法，并且确保给予基础教育正面的引导，这些任务的确不轻松。

2 在能力考查方面，高层次命题者不易招募和保持

根据建构主义的理论，分科考试可以比较好地覆盖所学课程知识和技能的内容与层次，因此命题工作可以完全根据课程标准所罗列的知识点或知识模块进行命题。根据行为主义的理论，现实中的问题不太可能仅仅局限在某个学科，问题解决的途径、方法也没有规定你只能使用物理知识或化学知识或生物知识，因此，考试命题可能需要兼顾建构主义和行为主义两个方面的要求，既要顾及学科本身的知识和能力结构与层次，又要打破学科界限，以问题解决为导向进行命题。从过去的学科命题、文科综合或理科综合的命题实践来看，目前的命题专家在分科命题上经验丰富水平很高，但在跨学科命题方面并没有表现出特别的优势。这可能与现有命题团队主要是学科专家，交叉学科知识背景不强，在认知心理学特别是在分析性思维（analytical thinking）、审辩性思维（critical thinking）和创新思维（creative thinking）方面的系统训练不足等有关。因此，在根据现实情境命题，综合运用多学科知识解决问题的考查方面，目前的命题团队整体素质还有很大的提升空间，高层次命题者的招募和保持并不容易。

3 在考试功能方面，要体现“立德树人”的导向目标不容易

当前，国家要求学生德智体美劳全面发展，因此，在大规模教育考试命题工作中体现德智体美劳的考查要求一点也不过分。但目前的挑战是——能否通过考试考查出学生的这些素质？一般来说，知识、技能层面的内容比较容易通过考试方式进行考查，能力层面的考查存在一定难度，而情感、态度、价值观等方面的考查则更为困难。这是因为，学生具有所期待的情感、态度和价值等方面的知识，并不等于他具有相应的素质。2019 年的高考命题在体现德智体美劳要求方面进行了许多积极的探索。比如，全国高考数学理科卷第（15）题、理科数学卷第（18）题分别引入了非常普及的乒乓球和篮球运动，以其中普遍存在的比赛结果的预估和比赛场次的安排提出问题，要求考生应用数学方法分析、解决体育问题；文科卷第（6）题设置了学校对学生体质状况进行调查的情境，考查学生的抽样调查知识；文科和理科卷第（4）题都以著名的雕塑“断臂维纳斯”为例，探讨人体黄金分割之美，将美育教育融入数学教育；文科卷第（17）题以商场服务质量管理为背景设计，体现对服务质量的要求，倡导高质量的劳动成果；理科卷第（6）题以《周易》中描述事物变化的“卦”为背景设置排列组合题，体现了中国古代哲学思想和中国文化。[5]2019年的命题经验表明，在命题素材上体现德智体美劳的要求具有一定的操作空间，但仅仅停留在命题素材选用层面的做法是不够的。因此，如何在考试命题中体现德智体美劳的要求还需要深度探讨，完成“立德树人”的导向任务并不容易。

4 在考试质量方面，要达到高水准的测量学要求有难度

《指导意见》要求“创新试题形式，加强情境设计，注重联系社会生活实际，增加综合性、开放性、应用性、探究性试题”。显然，从人才培养的角度看，这些要求非常精准和有用，但如何落实这些要求却相当不易。其中最大的难题是命题人员的水平未必能达到这种要求。另外，在体现这些要求时，测量信度如何才能得到保证，这也是个难题。一旦测量信度不高，则表明测试分数深受测量过程中随机误差的影响，即考生的分数很不稳定。根据极不稳定的分数做出的任何判断或决策都是不利于人才选拔的，更是有违公平竞争原则的。比如，在许多高中模拟考试中，不少学生的“考试成绩有时处于年级排名100 左右，有时处于800 左右”的现象就是命题质量特别差、测量误差特别大的表现（学生表现不稳定也是测量误差大的原因之一）。显然，根据这种不稳定分数所做出的任何结论都是不能令人信服的。此外，在缺乏题目参数等值题库的前提下，强行规定“试题难度系数0.75 左右”[6]的要求，也不合考试科学自身的规律。这样的规定不仅其含义含糊不清，如“要求所有题目难度0.75 左右还是平均难度0.75 左右”并不清楚，而且在实际工作中也很难做到（除非考后调整评分标准）。因此，命题过程如何在“增加综合性、开放性、应用性、探究性试题”的同时，减少测量误差，提升考试的科学性水平，是所有命题团队需要特别关注的问题。

二、根据课程标准命题的测量学建议

无论是研发国家级的考试项目，还是开发为教学服务的各种形成性评价项目，相关的管理部门或学校，都需要对考试工作做出系统的安排。根据我国目前的情况，在“不再制定考试大纲”的条件下，要想根据课程标准做好命题工作，相关部门至少需要做好以下几方面的准备。

1 组织专家团队对课程标准进行操作性解读

课程标准所倡导的“知识与能力、过程与方法、情感态度与价值观”的三维学习目标显然是今后命题的方向。给课程标准做操作性解读，就是要对课程标准中关于学科知识、学科能力和学科核心素养的定义进行操作性解读。现在的难题是，部分学科对知识结构与层次的要求比较具体，比如，数学、物理和化学等科目的结构与层次就比较细致，部分学科对知识内容本身的描述则比较抽象，这必定会给命题工作带来不小的困难。在这方面，很多国家往往从逻辑的角度把每门课程的知识模块和知识点划分为2～3 个层次，并给每个知识模块、知识点赋予合乎逻辑的代码，形成了一个多层次的知识结构体系，这种做法值得学习。

关于学科能力，一般性的解读基本参照美国教育家布鲁姆（Bloom）关于认知和情感领域的教育目标分类学[7][8]，其中关于知识掌握的“识记（knowledge）、理解（comprehension）、应用（application）、分析（analysis）、综合（synthesis）和评价（evaluation）”能力层次标准，或者修订过的“记忆（remembering）、理解（understanding）、应用（applying）、分析（analyzing）、评价（evaluating）和创新（creating）”能力层次标准通常被专家们做学科化处理。这项工作需要命题团队投入相当大的精力。以前，考试大纲在学科能力的考查方面提出了比较具体的要求，这些要求仍然可以适当参考和借鉴。比如，在2019 年的考试大纲中，数学学科能力指的是“空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识”[9]，具体来说，“就是以数学知识为载体，从问题入手，把握学科的整体意义，用统一的数学观点组织材料，侧重体现对知识的理解和应用，尤其是综合和灵活的应用，以此来检测考生将知识迁移到不同情境中去的能力，从而检测出考生个体理性思维的广度和深度以及进一步学习的潜能。对能力的考查要全面，强调综合性、应用性，并要切合考生实际，对推理论证能力和抽象概括能力的考查贯穿于全卷，是考查的重点，强调其科学性、严谨性、抽象性；对空间想象能力的考查主要体现在对文字语言、符号语言及图形语言的相互转化上；对运算能力的考查主要是对算法和推理的考查，考查以代数运算为主；对数据处理能力的考查主要是考查运用概率统计的基本方法和思想解决实际问题的能力”[9]。显然，过去考试大纲中的这些表述，有助于命题者对课程标准的理解和把握。但在未来“不再制定考试大纲”的情况下，过去的考试大纲对学科能力考查的表述是否仍然适用？这值得我们思考。

事实上，取消考试大纲后，大规模教育考试只能依据课程标准的学科核心素养组织各学科命题。表1 是普通高中课程标准中部分学科核心素养的描述。

由表1 可知，普通高中课程标准中各学科核心素养的描述都比较抽象，而且在逻辑上相互包含的成分很多，同时，多门学科之间的核心素养名称基本相同，看不出各门学科所特有的属性，这显然会给命题工作带来挑战。事实上，根据同样的核心素养名称，不同的命题专家很可能会命制出质量差别极大的试题。比如，语文学科素养主要包括“语言建构与运用”“思维发展与提升”“审美鉴赏与创造”“文化传承与理解”四个方面，这个描述显然比较抽象，因为“创造”“理解”与“思维发展与提升”的提法都属于人类认知加工层面的内容，这与课程标准解释的语文学科素养“……是学生在语文学习中获得的语言知识与语言能力，思维方法和思维品质，情感、态度和价值观的综合体现”的描述没有建立很好的对应关系。一种可能的解读是，语文学科素养可以解读为四个层次，其一是“语言构建与运用”（知识层面），其二是“思维发展与创新”（认知层面），其三是“审美鉴赏与体验”（情感层面），其四是“文化传承与发展”（价值层面）。显然，这样的解释在逻辑上比较顺畅，但仍然未必能得到所有人的认可。再比如，物理、化学和生物在论述学科核心素养时，“科学思维”“科学探究”“社会责任”都被提及，但这些核心素养在这三门学科中有什么不同呢？要说清楚这些问题显然不容易。由此可见，要保障命题质量、提高命题水平，所有学科的课程标准内容都需要提前做好操作性解读。

2 建立科研激励机制，把现代测量理论与技术做中国化处理

在控制测量误差、提升考试工作的科学性水平方面，考试行业的国际经验是值得参考的。比如，建设相对稳定的学业水平内容标准和表现标准（标准设定和常模研发），保证题库内所有试题的难度、区分度等参数估计值都被科学地转换在一个共同的度量系统之上（题目参数等值），这些做法就是提高命题水平的努力方向。不过，有专家认为，国际考试行业的许多成功做法，可能需要做一些深度加工和改造才能满足中国的需求。比如，在中国无法直接使用国外常用的锚题等值设计方法的条件下，测验等值方法需要做中国化改进。又如，原始分数存在很大问题，简单按比例换算成等级或使用正态化处理的标准分数也有很多缺陷[11][12]，并导致了很高的管理成本，结果，一些科学的分数转换方法目前也没人敢用[13]。严格地说，对于一些明明存在科学性缺陷的分数表达方式，若不尽早采用科学方法把问题解决，而是寻求行政限定等办法应对，其后续的管理成本和风险必定很高。当然，要把现代测量理论与技术做中国化处理，其中的创新研究、科普工作和政策保障工作都是不小的任务。因此，建设科研激励机制，可以为问题解决提前做好多种预案，降低大规模考试中存在的潜在风险。

3 建设并培养命题团队，让学科专家具有基本的教育测量学素养

要针对相关学科的知识和技能设计试题，就必须对相应知识的结构和层次，以及相关的能力结构和层次有比较深刻的掌握，否则，很难设计出高水平的测试题目。为了做好高考、中考等大规模教育考试命题工作，建设并培养一个高水平的命题团队乃是当务之急。根据国外专业性考试机构的成功经验，在招募命题人员时，除了要人品良好、工作敬业等，应聘者至少还需要满足以下几个条件。（1）具有扎实的相关学科知识基础，如具有相关学科大学本科或研究生的高等教育学力等。（2）具有3 年以上相关学科的中小学教学经验，并表现突出。如获过教学优秀奖励，对学生的学科知识掌握和思维加工特点有一定研究等。（3）具有认知心理学和逻辑学方面的知识基础，有良好的分析性思维、审辩性思维和创新思维能力，能够设计考查出学生高层次思维能力的试题。（4）具有比较扎实的通识教育知识背景。即命题者不仅是学科专家，而且需要具有宽厚的知识背景，懂得从多学科角度设计问题等。（5）具有良好的书面沟通和口头沟通能力，在任务理解、分解、安排、指导、执行、检查、协调等方面受过良好的训练，能够与命题团队内外人员进行有效的互动，以保障命题工作科学、有效和可行。（6）具有一定的教育测量学知识，能够理解题目参数的含义，看得懂测量分析的结果，并能与数据分析团队进行有效沟通，还善于从题目的科学性、公平性、稳定性和有效性等角度组卷和评价考试结果等。此外，曾经从事过考试命题工作的，并被证明其命题水平较高的学科专家值得保留在命题团队；具有较强学习能力，而且执行能力较强的学科教师也值得培养。

4 建设题库管理系统，确保考试质量的稳定

要达到预期的考试目标，题库建设工作必不可少。可惜，目前的很多题库并不能满足测量学的要求，因为其中的知识模块、知识点和知识结构缺乏科学的编码系统，每道题目所对应的知识点和能力层次的界定比较主观，也没有与课程标准建立一一对应关系，题目参数的估计值没有被等值在一个共同的度量系统之上，由此导致了组卷工作效率低、考试质量不高等一系列问题。许多中学采购的各种模拟考试服务，经常导致很多不稳定的后果，如有的学生某次考试后的年级排名被突然提升了600 多名，或糊里糊涂又下滑了700 多名，这些现象都与题库本身的质量不高有密切关系。作为高考、中考或其他比较正式的大规模教育考试，比如分省命题所负责的学业水平合格性考试和选择性考试，其测评结果必须非常稳定、有效和公平。

要建设一个优质的题库，至少需要解决以下问题。（1）课程标准所定义的知识模块、知识点必须通过编码的方式形成科学的结构。国外专业性考试机构的题库一般把知识结构划分为3 个层次。（2）所有题目都需要与课程标准所定义的编码建立一一对应关系。（3）所有题目都必须标注测量的能力或核心素养及其深度。（4）所有题目的参数估计值都必须利用符合国情的等值设计手段，实现题目参数的等值处理。（5）任何存在内容冲突的题目之间需要标注好彼此“敌对”的关系，以免具有敌对关系的题目被计算机组卷系统安排到同一套试卷之中。（6）所有题目参数需要具有更新功能，可以保存修改记录、评审记录和使用记录等信息。（7）题目参数最好能同时保留经典测验理论（classical testing theory，CTT）和题目反应理论（item response theory，IRT）框架下的指标。（8）需要建设制卷功能模块。（9）需要研发数据收集功能模块。（10）需要研发题目分析功能模块。（11）需要研发学科专家和测量学专家题目质量评价模块。显然，题库建设与维护的工作周期比较长，题库的内容也需要不断更新，而不是题库建好之后不再变动，更不是请人写很多题目存入计算机系统就算完工。这些工作的落实，至少需要学科专家、教育测量学专家和计算机专业人士长期的协同工作，资金、时间等方面的投入也是一个不小的数目。

总之，在“不再制定考试大纲”的条件下，依据课程标准命题是今后的高考、中考以及教学过程中各种形成性评价的工作常态。要想优化考试内容，确保“立德树人”导向，改进考试方法，保障考试质量，就需要及早组织专家团队，把课程标准做操作性解读，并大力开展现代教育测量理论与技术的中国化研究，建立和培养高水平的命题团队，研发科学实用的考试题库。