2016年度教育评价研讨会在扬州召开


  9月26日,中国教育学会“2016年度教育评价研讨会”在有着淮左名都、竹西佳处之称的扬州市召开。本次会议以“评价与学生核心素养”为主题,重点围绕中国学生发展核心素养及评价改革的理论和实践问题展开深入研讨。教育部、江苏省教育学会、扬州市教育局相关领导,以及来自全国各地近600位教育管理工作者和一线教师代表出席了此次会议。


中国教育学会秘书长 杨念鲁

 
  开幕式由中国教育学会秘书长杨念鲁主持,中国教育学会常务副会长戴家干代表学会致开幕词。他认为当前以提高质量为主题,深入贯彻落实立德树人目标的基础教育改革遇到了新的挑战和机遇,这就是如何通过课程设计、教学实践、教育评价这三个关键领域落实“中国学生发展核心素养”,而评价的首要问题是要充分认识其重要性和必要性。他认为学生发展核心素养实质上是中国梦与个人梦相结合,是为实现两个“百年目标”打造人力资源强国的重要保障。他认为随着科技的进步,互联网、大数据、多媒体、云计算已经为教育的科学评价提供了新的方法和手段,关键是如何在学业测试、综合素质以及职业生涯评价等方面创新、进步,为学生发展核心素养培育做出更大的贡献。


中国教育学会副会长 戴家干

  江苏省教育学会常务副会长陆志平和扬州市人民政府主任督学、教育局副局长周应华分别代表有关方面致欢迎词。

  中国教育学会顾问、国家教育咨询委员会委员、国家教育发展研究中心研究员谈松华,中国教育学会学术委员、教育部基础教育质量监测中心副主任辛涛,中国教育学会基础教育评价专业委员会理事长时龙,中国教育学会教育统计与测量分会理事长张敏强分别作了“提高教育评价的专业水平,发挥教育评价推进性功能”“核心素养与考试评价改革”“关于学生发展能力及评价的探讨”“教育质量评价技术的发展及创新应用”的主旨报告。报告内容既有来自理论的专业探究,又有丰富的基层实践成果,对各地、各校深入推进教育质量综合评价改革具有重要的指导意义。



中国教育学会顾问 谈松华


中国教育学会学术委员 辛涛


中国教育学会基础教育评价专业委员会理事长 时龙


中国教育学会教育统计与测量分会理事长 张敏强

  为了更好的展示现代技术与教育评价改革创新的完美结合,会议安排由相关分支机构和单位推荐的7家教育评价机构进行了“基础教育测量、评价系统”展示、交流,并邀请专家进行了现场点评。会议还进行了中小学教育质量综合评价改革实践经验的汇报和交流。

  教育质量评价具有重要的导向作用,是教育综合改革的关键环节。与会代表们表示,今年的教育评价研讨会对教育评价与学生核心素养相关问题进行了深刻解读,为参会代表提供教育评价系统的现场展示,在推进我国考试招生制度和中小学教育质量综合评价改革方面将产生深远的影响。
谈松华:教育评价应专业、应具备推进力
  由于工作关系,我陆续接触了教育评价问题,深感教育评价问题,对人才培养模式的改革和教育体系的建设具有不可替代的作用。而教育评价功能的发挥,关键在于提高教育评价的专业化水平。

  所以,今天我讲的内容,两句话就能概括我想表达的意思。

  第一,提高教育评价的专业化水平。中国教育评价目前面临的任务是更需要有专业化的评价,因为过去比较多的是政府督导,政府主导的评价比较多。

  第二,发挥教育评价的推进性功能。因为教育评价对于教育改革发展的功能是多方面的,但是如果把这些功能归纳起来讲,就是教育评价的推进型功能。

  一、教育变革中的教育评价

  这实际上有两层意思,一层意思是讨论教育评价问题,要和整个教育变革全局相联系,也就是说,要从教育变革的全局来思考教育评价的问题;另一层意思,就是教育评价本身在现代教育变革的新阶段,教育评价本身要进行变革。

  我国教育正处在重要的历史转折点。习近平总书记最近在G20峰会上指出,人类正处在一个新的历史起点。中国教育应该说也处在一个新的历史转折点上。这个历史转折点我们可以从很多方面去分析,和教育变革相关的,至少有以下三个方面是要关注的。

  1、从量的扩张转向质的提升

  我们过去30多年教育的重点是推进教育的普及,让更多的人受更多的教育。因此数量的扩张必然成为一个主要的任务,这个任务现在应该说是基本接近实现了,各级各类教育,毛入学率都已经到了比较高的水平。

  现在的重点应该转向质量的提升,这个质量的提升既是教育内在的需要,也是社会大众所普遍关注的重点。人们过去关注的是有没有机会去上学,现在更多的是关注接受一种什么样的教育,上一所什么样的学校,这是一个大的转变。这个转变要求教育评价也需要有相应地变化。

  过去在数量扩张阶段,教育评价的重点在于政府普及教育的政策能不能得到落实,所以当时督政是主要内容,督导的重点是在普九以及教育均衡等方面。而当我们要讲质的提升的时候,督学就很重要,对教学的评价越来越成为重点。所以现在督导的工作不仅督政,还要督学。督学不能光靠政府,它需要有更多方面的评价,这是一个变化。

  2、从学历本位或知识本位转向能力本位

  我们过去强调质量,更多的是强调知识传授,而现在教育发展的趋势,是越来越关注能力和素养的提升。这种变化对评价来讲,也会有新的要求,当我们教育的质量更多关注知识的时候,我们测量的重点就是考查知识水平,测量知识掌握的程度。当教育质量转向能力和素养的时候,仅仅去评价知识水平已经不够了,它需要扩展成为对人的素养的全面评价。

  3、从单向吸收转向双向交流

  当我们的教育是单向吸收的时候,更多的是参照发达国家发展的程度,以此作为我们评价中国教育的重要坐标。当中国国际地位发生了变化、国际关系随之发生了深刻变化的时候,中国教育不仅是需要吸收国际先进经验,同时也需要总结自己的成功经验,在国际教育上,占有一席之地。

  所以现在的教育评价,应该比较中国和世界一些先进国家的长处和短处。比如说现在我们参与PISA考试就是参与国际评价,现在也正在讨论参与国际高等教育、参与国际工程教育的评价,等等。

  因而这个评价已经不是单向的、仅限于国内的这样一种封闭性的评价。因而教育评价实际上既要吸收国外的先进经验,同时也要总结我们自己的成功经验。

这几点必然要求中国教育从理念、道路、模式和制度上实现整体性的变革,而评价制度的改革,不仅是制度变革和创新的重点,而且对教育的整体性变革具有关键性的作用。

  评价制度对于教育发展具有多重功能。其中,有五种功能可能是比较主要的。

  1、诊断功能。在学校教育教学的过程中,评价确实起了一个很重要的诊断功能,可以诊断我们教育教学的实施效果,这种诊断对我们实现教学目标,改进教学具有非常重要的作用。

  2、选拔功能。基础教育阶段的初中后和高中后两次分流,都需要有一个考核评价和选拔过程。

  3、导向功能。因为怎么评价必然会影响我们怎么教学,考什么教什么,虽然这是比较片面的,因为教学不能完全根据考试来决定,但是在实际教学中,它势必受考试评价的影响。

  我们的教学结果是要经过这样一种考试评价来检验的,如何进行评价等于树立了一个标杆,这个标杆作用就是导向作用。

  4、发展功能。评价的目的最终是为了促进发展。

  5、管理功能。教育教学管理需要通过评价来改进教育教学。

  所以也可以说,教育评价是服务于教育发展的,这个教育发展整体上来说可以分为学校发展、教师发展和学生发展。过去我们理解的评价,主要是对学生,所以比较关注的是学生发展,实际上教育评价不只是学生,发展的作用是既对学生,也对教师,也对学校,但是学生的评价是基础性的。综合这五种功能,即推进性功能,各种教育评价都是为了推进发展。

  中国教育评价整体来讲,还处于比较薄弱的状态,还比较缺少相对完整、完善的科学评价制度和评价体系。

  1、教育评价的目标比较狭窄。评价目标的指向主要是学生的学业知识。这个学业知识当然非常重要,但是仅仅局限于学业知识,就不能着眼于学生的全面发展。

  2、教育评价的方法相对陈旧。既然学业知识是主要目标,因此评价的方法更多的是纸笔测试,所以学生要应付各种各样的考试。

  3、教育评价主体比较单一。评价的主体从宏观上主要是政府,政府主导教育的评价。主要是政府主导和参与的评价,社会参与不够、参与渠道不完善。

  4、教育评价结果简单。评价结果呈现出来的主要是分数,对学校学生的评价也好,对教师的评价也好,仅仅依靠分数是不能完全反映发展状态的,分数背后可以发规的许多东西,没有呈现出来。

  这是我们现在评价存在的一些缺陷。因此,我们的教育评价目标要从比较狭窄的目标转向综合的目标;教育评价方法要从比较陈旧的方法创新出更多新的方法;评价的主体要更加多元;评价结果的呈现方式要更加丰富、更加有效,要能够真正起到改进的作用。

  二、教育评价制度改革几个重点

  教育评价覆盖各级各类教育的方方面面,有对政府的政策评价、高校的专业评价、职业教育的职业能力评价,也包括继续教育的学分评价、能力评价等等。从基础教育来讲,主要是指学校发展评价、教师发展评价和学生发展评价。一般这三种评价分别是学校的增值评价,教师的绩效评价和学生的发展评价。其中重中之重是学生的发展评价。

  1、学校增值评价

  现在中国对学校的评价缺乏一个比较完整的指标体系。对学校的评价客观上来讲,主要看的是考试分数、升学率,这些是对学校评价的最硬指标。这种评价的缺陷是明显的,因为学校的工作不能仅仅看考试成绩。

  我们每次考试的可比性也是不够的,所以用这样一种测评的办法来判断学校工作,本身存在局限。各个学校的基础不一样,生源不一样,师资不一样,利用最终的分数来评,对于不同学校是不公平的。

  所以,在国际上,像英国、美国从20世纪80年代以后,用得比较多的是学校增值评价,顾名思义,增值评价就是把产出和投入作为一个整体来进行评价。分数是学校的产出,但是这种产出如果不和投入联系起来,那就不合理。所以就应改变过去只看产出结果,即最后的考试成绩这样的做法。

  增值评价是把学生进学校时候的成绩、家庭背景、社区环境、教师水平等各种因素,都作为投入因素,然后对学生的表现,对最终的产出做细致的分析。

  如果某一所学校所有学生在进校时候的平均成绩是50分,经过三年的初中或者高中教育以后,以同样的尺度来考量,学生的平均成绩提高到了60分,而另外一所学校所有学生在进校时候的平均成绩是80分,经过三年以后,学生的成绩提高到了85分,那从提升的幅度来讲,应该说前一所学校的增值性更强、增值效果更好。而基础好的学校,如果提升得很慢,相比来说,其增值效果是不理想的。

  这样一方面侧重于评价学生在学校教育后的进步程度,激励学生和学校尽最大努力,做最好的自己;另一方面对于不同家庭背景和社区环境的学生做具体分析,找到针对性的改进措施。

  不同家庭背景的学生,因其家庭环境不一样、社区环境不一样,他的受教育条件是有差别的。我们可以分析这个成绩背后的一些因素,进而提出改进措施。所以应该说,增值评价至少比只看一个最终结果更合理、更公平、更科学。

  推广教育增值评价碰到两个问题。这两个问题在发达国家也存在。

  第一个问题是,因为增值评价需要大量的数据做支撑,中国的学校档案建立尚不完善,没有完整的基础数据,所以要推行增值评价比较难。

  第二个问题是,一些基础好的学校提出异议,从60分提到70分是比较容易的,但是从90分提到95分是比较难的,所以这样的衡量,对于基础好的学校来说是不公平的。

  所以如何找到一个既能够反映学校增值水平,同时又能够照顾到不同学校的实际进步程度,也是增值评价需要进一步改进的地方。

  2、教师绩效评价

  在国内现在还没有比较完善和成熟的教师评价制度,因为现在教师评价无非是考量教师工作量、学生的考试成绩、工作态度及教科研、发表论文等。但是缺乏一种比较客观完整的指标。

  对中小学教师来讲,发表论文有时候是可以做参考的,但是并不能作为教师评价必备的依据,这也需要认真研判。中小学教师的主要任务应该放在不断提高教学水平、教学质量上。

  有一部分教师有条件把好的教学经验进行比较系统的总结,作为论文来发表,是一件很好的事情,但不是所有老师都需要这样做。如果把发表论文作为一个主要的评价指标的话,很可能会引导中小学教师在写好文章上下功夫,而不是改进学生的教学。

  对教师的评价应该和教师的专业的发展,比如教师的师德,教师应该担负的职业责任等相联系。所以,教师评价是世界性难题,但是职业素养、教学效果、师生关系许多方面应该是对教师进行评价基本的要求。

  前一段时间美国出了《第56号教室的奇迹》这本书,一个校长把一所生源很差的学校办成了受到各方面都肯定的学校,这应该是我们对教师评价的更重要的一种标准。

  3、学生发展性评价

  这是教育评价的主要部分,对学校和教师的评价也包含对学生的评价。因为对学校、对教师的评价要以对学生发展的评价为基础,离开了对学生发展的评价,就没有真正的教育评价。

  然而现在我们对学校的评价往往就是看学校的占地面积、建筑面积、学校的教学设施等方面。对教师的评价往往更重视他们的学历。而恰恰是没有更加有针对性把学生本身的发展作为评价的基本依据。

  我们国家正在进行新一轮的教育改革,把教育评价制度改革作为重要任务,主要是在核心素养的基础上,制定基础教育质量标准,再来制定课程标准,来全面评价学生的发展水平。要改进教育评价技术,科学解读教育评价结果,为学生和教师提供信息反馈,提供发展性评价,形成各种知识与能力并重的多元综合评价。

  对学生的评价大体上可以分为两类。

  一类是过程性评价,也即诊断性评价。就是在教育教学过程中来诊断学生教育教学的发展水平,比如一些阶段性的测试,或者针对某些问题的检测。

  一类是形成性评价。形成性评价也可以说是结果性评价。这个评价指在完成一个学段、需要进入另一个学段的时候,对已结束学段的整体性评价。

  形成性评价又分两种,一种是标准参照评价,一种是常模参照评价。标准参照评价就是水平评价,比如初中结业的形成性评价,考量的是一个学生能不能达到初中毕业水平;常模参照评价就是测量一个学生在年级中处于什么位置,以平均成绩为参照。标准参照评价是合格不合格的问题,常模参照评价是处在什么位置的问题。

  高考招生制度改革是教育评价制度改革的重点和难点。高考改革的思路即制度设计应该用四点来概括。

  1、招考分离。现在,我们的考试结果就是招生依据,考试就是招生。其实考试是招生的一种手段,并不是全部,所以首先应把考试和招生相对分离。

  2、分类考试。现在主要有两类,一类是高职高专,要对文化素养和职业技能进行评价。从长远来看,高职高专不一定参加现在的高考,它可能会有另外一种文化测试,更重要的它加上一个职业技能评价,这样更符合职业教育选拔人才的要求。

  第二类是普通本科的考试,包含必考科目和选考科目,过去的高考是3+X,3+文综理综,现在必考科目没有动,文理不分科。过去选考科目是指定的,文综就是文科三门,理综就是理科三门。现在浙江和上海的试点,上海是理化生历史政治地理这六门课里选三门,文理可以交叉选;浙江是七选三,加上技术课。这样的分类考试让学校和学生有更多选择的机会。

  怎么选择?这需要学校先提出来,比如说清华,某某工科系,理化都是要考。高校提出不同专业的选考科目,学生根据所想报考学校和专业公布的考试科目,选择高考选考科目,这对学生来讲是有更多的选择,但是对学校是一个挑战,学生走班小班教学是必然的,这对高中教学具有促进改革的作用。

  3、综合评价。综合评价是指高校在录取学生的时候,要根据多种材料来综合评价学生。还有一个是综合素质评价,这是高中对学生的评价,现在各个学校都在做,教育部基础教育二司也就此发过文。

  上海复旦、上海交大、同济等高校对学生的综合素质评价,都提出四个方面,即品德发展与公民素养、修习课程与学业成绩、身心健康与艺术素养、创新精神与实践能力。

  高中对学生的综合素质评价的制度现在还在探索中,这种综合素质的评价当然也包括掌握各学科基本知识和基本的技能、解决问题的能力、学科特长和兴趣以及身心素养、艺术欣赏等这些方面的能力。

  4、多元录取。高校现在在录取学生时会有“两依据一参考”,“两依据”就是高考成绩、高中学业水平考试成绩。其中,高中学业水平考试成绩占一定的权重,高考成绩是主要的。

  “一参考”是综合素质评价,目前还不能作为依据。如果综合素质评价作为依据的话,它必须要分等,分等了才能确定成绩,但是综合素质要分等是非常困难的,所以现在在中国诚信制度还没有完全建立起来的时候,要把学生素质分等,可信度是有问题的。

所以主张搞学生成长记录,就是写实性的记录,学生可以自己写,教师也写,把学生最重要的一些表现或者特长通过写实性的记录,形成一个成长记录。这个成长档案是给高校做参考的。今后还要进一步去探讨。

  三、加强教育评价专业化建设

  首先,要制定和完善教育评价标准。评价首先要有标准,没有标准就没有依据。根据学生的核心素养,制定教育质量标准;根据教育质量标准来制定课程标准;根据课程标准来编写教材;编写教材以后,进行课程实施,然后再进行课程评价。

  教育评价不仅是评价课程,它是整体性评价。对物的评价有客观的标准,合格就是合格,不合格就是不合格,但是对于人的评价是非常困难的。

  最近我无意之间在电视上看到这样一个舞蹈比赛节目,这是上海电视台的一个爵士舞比赛,其中有一个表演者引起了很大的争议,非常有名的舞蹈家杨丽萍很欣赏这个表演者,但是上海的一位专门研究爵士舞评委认为,从爵士舞的角度来讲这位表演者并不合格,两位评委争执得很厉害,最后杨丽萍甚至拍桌子了,她认为舞蹈是用心来跳的,她说她看到了这个舞者的心,她认为他就是非常优秀的舞者。

  这就是评价,“形”和“神”到底是什么关系?我们对学生评价的时候,仅仅是看外表的东西还是看内在的东西?所以对人的评价是最复杂的,确实需要我们去进一步探讨。

  其次,探索和完善教育质量评价的手段和方法。不同的手段和方法对测量的评价效果是不一样的,不同领域、不同评价对象需要有不同的评价手段和方法。

  评价方法可以采取定性和定量,普评和抽评,自评和互评,学业测评和心理测试等不同的方法。评价手段可以采取考试测评、数据采集与评价、问卷评价等不同的手段。

  现在互联网技术的发展对我们评价是有一定的促进作用的,比如说现在评价很多是要靠数据的,互联网的发展对数据的采集分析有很重要的作用。现在上海有好多学校,请一些互联网教育评价公司对学生进行评价,对学生考试的成绩进行分析,可以得出很多有针对性的结论,我们既需要单向地、深入地去研究一些评价办法,同时可以采用一些综合的手段来进行评价。

  最后,加强教育评价专业机构的组织和队伍建设。现在我们国家教育评价的组织机构主要是政府机构。比如说基础教育主要是督导,高等教育主要是评估中心等,这主要都是政府的机构。

  我们应在重视政府评价作用的同时,鼓励民间专业评价机构的发展,特别要鼓励具有不同专业特色、针对性强的评价机构的发展,以适应不同成绩、不同要求的细分评价市场的要求。比如中小学绩效、学业成绩、学生综合素质、职业院校学生职业能力等等,都要有不同的专业机构来进行评价。

  我最近和北大做了一个“中国教育创新20+”的论坛,这个论坛有大量的互联网教育公司参加,其中有一些互联网教育评价公司,做了大量的研究。有一批海归,包括哈佛、斯坦福等国际知名大学搞教育测量的人,他们专业性都很强,所以评价机构要建设。

  另外,评价专业化水平取决于评价队伍的专业化程度,因而要加快教育测量评价专业的人员的培养培训,尽快壮大评价专业人员的队伍,加强国际交流,提升教育评价的国际化水平。

  我们离科学、专业化的测量评价,还有一段比较长的路要走,需要各方面的人员参与探索。一线的老师和校长们,也需要在实践中进行探索。
辛涛:核心素养与考试评价改革

辛涛:中国教育学会学术委员,教育部基础教育质量监测中心副主任

  核心素养在我们国家基础教育改革和发展中是全新的概念和框架,与考试和评价的关联及结合尚处在初步探索的过程,因此严格来说,在这样的背景下,没有什么一定是对的,或者一定是先进的。
   
  在过去两三年的时间里,核心素养是国家基础教育领域的高频词汇,无论是学术文章还是研讨会,大家反复提及。实际上目前,我们讨论学生的核心素养,原点问题或者最基本的追问在于,长期以来我们国家教育系统到底要培养什么样的人,如何培养人。这个话题似乎是清楚的,但似乎又是模糊的。为什么说清楚?因为建国以来,党和国家的教育方针是一以贯之的,我们在座的每个专家和领导都对此朗朗上口;为什么说模糊?因为从我们基础教育的实践来看,似乎这个教育方针如何落地依然是一个问题。党的十八大决议、十八大三中全会、四中全会、五中全会都在反复追问这样一个问题。这个问题现在依然是整个教育领域,特别是基础教育领域,必须深入思考、认真回答的问题。
   
  第一个方面,提出核心素养的缘起和定位。从教育政策背景来说,提出学生发展的核心素养,是贯彻十八大精神,落实立德树人的根本任务。十八大明确了我们整个教育系统中,需要在哪方面着力。如何把立德树人落到实处是我们共同的话题。从国际教育改革的经验来说,各国都在探索适应全球变化和未来发展的教育政策和理念。从上世纪90年代到目前为止,教育对世界各个国家社会经济影响非常显著,对于各个国家来说,到底我们需要什么样的人才,需要什么样的人力资本,都变成非常重大的话题。就像刚才戴(家干)会长反复强调的那样,从提高人力资本的质量、塑造全面发展的人的角度来说,各个国家也都在探索在新的时期,教育应该怎样去调整,培养什么样的人以及如何培养的问题。
 
  从我们基础教育的内部来说,上个世纪90年代以来,我国开始推行素质教育取得了较大的成绩,也存在一些深刻的、根本的问题。全面实施素质教育,深化教育领域的综合改革,也需要我们考虑在新时期,我们到底要培养什么样的人的问题。目前来说,对于核心素养的基本定义,在座的领导和专家,在相关文件中都有所了解。在现在的政策语境下,核心素养是学生在接受相应学段的教育过程中,逐步形成的适应个人终身发展和社会发展需要的必备品格和关键能力。从这个概念中,我们可以看到,核心素养,最核心的目标指向就是我们到底通过教育培养什么样的人。

  这也是新世纪以来,我们所启动的课程改革中,关于知识、技能、过程、方法、情感、态度、价值观要求的综合体现。改革开放以来,我国的课程改革的目标,大体上经历三个阶段,在开始阶段,我们称之为“双基”;新世纪以来,课改的目标是突出培养学生情感、态度、价值观等等;目前课改目标进一步发展为核心素养。这个发展有内在脉络,基础知识和基本技能(“双基”)是从学科知识体系本身出发来考虑课程改革的目标,而新课改所强调的三维目标,是把学科内容、学生发展诉求做混合的表达方式,当前我们强调的是任何学科的内容都是促进全面发展人的载体,或者一个素材,真正的教育目标是提高学生的基本核心素养。
   
  在政策的层面提出学生核心素养的基本定位是什么?纵观新中国以来,党和国家的教育方针,从1957年最高的国务会议一直到2010年的《国家中长期发展纲要》到2013年十八届三中全会,党和国家的教育方针是一以贯之的。不同时期,尽管历史阶段、社会背景有所变化,但是大体来说,我们党和国家特别强调和重视思想道德教育,强调培养德智体美劳全面发展的人。整个教育方针的表述都是以德智体为主线,内容和用词随着时代的背景调整。比如到底是劳动者,建设者,还是接班人,这是有所变化的,但是总体是围绕德智体这一主线始终不变。新时代以来,在党的教育方针中,特别强调要德育为先、能力为重,强调社会责任感和创新精神及实践能力。实际上我们可以得出一个基本结论,即新中国成立以来,党和国家的教育方针一以贯之,这个教育方针代表了国家利益和国家对教育的期许。

  国家的教育方针在基层的实践中,无论是领导、普通老师,都比较准确地表达出来,但是虽然广大的教育工作者都在全力为实现教育方针而努力,在实践中还存在着很多突出的问题。在明确的教育方针和具体教育实践似乎存在着一个落差,怎么样能够弥补这个落差,使党的教育方针能贯彻到我们的教育教学实践中,影响学生的发展,这是非常重要的。学生核心素养的提出,本身就是希望在高位的教育方针和具体的教育实践中,找到这样一个桥梁,使我们的老师能够将自身的教育教学实践与核心素养相对照,进而促进我们党和国家教育方针的落实。因此,核心素养的提出和研制是希望把党的教育方针能够具体化、细化,转换到我们教育教学里面,可对照、可参考。德智体美是一个范畴,但是核心素养需要概括出最核心、最关键的点。新时期,通过核心素养这样概念来回答当前我国迫切需要培养什么样的人的问题。

  第二个方面,核心素养的基本框架。9月13日,以北师大课题组的名义向社会发布了核心素养框架,这一框架的提出,是为了解决我国要培养什么样的人的问题,是为了回答党和国家对教育的诉求和要求,所以全面贯彻党的教育方针,落实立德树人的根本任务,全面落实社会主义核心价值观,是我们提出核心素养根本的依据。尽管在前期介绍核心素养的时候,不同的专家从不同的角度,介绍了OECD、欧盟、美国、新加坡等等核心素养的框架,但我觉得这只是给大家一个参考的意见。我个人的理解,制定核心素养框架,是希望把党的教育方针,把十八大以来的党和国家对教育领域的要求落实下来。因此在筛选核心素养基本框架的时候,要体现时代性、民族性的观点。

  核心素养的原点还是教育最根本的东西,通过我们的教育培养全面发展的人。什么样的人是全面发展的人?这个话题我们实际上有不同的角度,从马克思主义关于人的全面发展来说,全面发展的人有两个大的根本属性,一个是主体性,就是个体是作为一个主体独立存在的;另外一个重要属性是社会性。为了实现其主体性和社会性,人在社会文化中必须要承载相应的文化积累,这个文化积累既包括我们中国传统的优秀文化,也包括世界上各种先进的文化,因为我们的知识体系很大程度上是世界闻名的各学科知识体系的集合。因此,从国家的层面建构核心素养的时候,是以全面发展的人为我们最核心诉求,全面发展的人具有的特性是具有主体性、社会性和文化性。

  因此,自主发展、社会参与、文化基础三个方面构成核心素养的基本理论框架。课题组在提出这个理论框架的时候,做了大量的研究,这些研究包括相关政策的分析,包括国际上的比较,包括我们对新时代以来所实施课程的各版课标的进一步的梳理和归类,包括我们对传统文化的理解,也包括各行各业杰出人士对于希望儿童青少年在未来社会中健康发展的特征等角度调研的实证研究。各位老师非常熟悉,今年2月底,中国教育学会对于核心素养的框架广泛征求了意见,目前发布的这个框架,以人的全面发展为核心;三大领域是自主发展、文化基础、社会参与,我国核心素养的指标是六条,在确定之前是九条,从征求意见的过程中,我们发现,可能九条相对来说比较多一些,因此我们不断征求意见,不断修正,最后达成确定六条核心素养指标的共识。     现在有很多对于核心素养的文字解读,考虑到时间的关系,我在这里面不说人文底蕴到底包含什么,科学精神到底具体是怎样的,未来随着我们研究及实践的发展,可以进一步去完善。今天的主题是说评价与核心素养,我想花更多的一些时间,跟各位领导和专家汇报这个问题。

  从我个人的角度来说,怎么样通过评价的改革,促进核心素养的落地,这是很重要的内容,也是非常大的话题。评价相对于国家整个教育体系(课程、教材、教学、考试和评价)来说,本身是处于下游的。要说到评价,我们还要知道上游的课程到底是怎么回事。从世界范围之内来说,国际上的课程改革有一些共同的趋势,对我国的课程改革有借鉴意义。第一个趋势是由过去学科为本位到关注学生发展的转化,强调培养具备适应现代社会能力的人,这是非常明显、基本的国际趋势。过去的十年、二十年、三十年,我们看到,无论是我国的还是西方的课程体系和模式,基本上都是以学科、知识体系为本位,但是最近这些年,特别是新世纪以来,课程改革的目标或者一个出发点,是通过不同的知识素材,促进全面发展的人。我们面临巨大的挑战,是现在不像在工业文明兴起的时候,班级授课的模式下,一味地强调知识的传授,而是在新时期,知识已经教不完了,如果我们还是拘泥于教给学生各种各样的知识,那老师们的挫败感会越来越强。我们现在的所教,学生进入社会之后大部分都用不到。从上个世纪的90年代开始,西方世界越来越紧锣密鼓地强调:由知识或者课程为主要形式的课程,以学科为载体的课程,转向对于学生全面发展的课程的建设。

  培养全面发展的人,所有的学科知识都是一个材料,或者说是一个载体。为了培养全面发展的人,需要这些知识之间相互融通。第二个趋势是强调课程之间的整合与融合。众所周知,世界上越来越强调所谓的数学、科学、工程和技术的融合,后来又加了一个艺术。长期以来,我们之所以从国家最高政策的角度追问我们到底要培养什么样的人,如何培养的问题,是因为我们的着力点不够,相对较长的时间以来,我国在基础教育这个领域内,分科的局限很明显,对于跨学科的内容,比如反复强调的德育、动手能力、实践能力等,因为没有具体的学科为载体,在过去很长的时间里,处在一个政策上和观念上不断宣传,但落实上似乎又非常松散的状态。这是在世界范围内大家都面临的一个问题。怎么样把不同的学科进行相互融通,以合力促进学生的全面发展,这是改革趋势需要我们关注的第二个方面。

  第三个趋势,在课程中融入了质量评价的标准,强调问责。过去的课程标准大体的框架是课程的目标、内容及建议。现在很多国家,都把评价作为课程标准一个重要组成部分。其实这个趋势跟第四点有关联。第四个趋势是教育管理权力的下放与课程评价权力的集中。大家都非常清楚,西方是教育分权的体系,联邦政府对地方教育没有什么具体的约束力,但是在新时期,如何保证地方的教学能够满足未来发展竞争的需求?在西方教育分权的体制下,关于课程评价权利的集中和上收,与它的理念是冲突的,但是考虑到保证教育质量的基本水准,所以尽管教育管理是分权下放的,但很多的西方国家选择把课程评价上收。

  在新一轮的深化课程改革中,现在正在进行高中课程修订,大体上来说,不管是什么样的结构,从国际的经验和我们国家当下情况来看,通常会包含四部分内容,新的高中课标估计不只四个部分。第一是具体化的教学目标,第二是教学内容,第三是教学如何实施,也即教学建议,第四是质量标准。在这个框架下面,我们说的核心素养要渗透到这四个方面。从整体来说,核心素养要体现在具体化的教学目标中;要体现在学科标准上,内容标准和教学建议是促进核心素养落实和实现的重要手段。核心素养还要体现在质量标准中。考试评价有不同层次,有国家制度性考试如中考和高考管理性的评价如教育质量监测,还有各个学校的操作性评价等。在评价的时候,课程到底涉及了哪些内容,质量标准要求如何,这两者合起来,构成了评价和考试的基本蓝图。新高中课程方案修订时,有不少领导在公开场合说,以后要取消类似于像考纲的形式,用课程的标准取而代之。课程标准如果能够提供课程学习哪些内容的内容标准以及学生学到什么程度的学业标准,采取一个大家能够接受的模式进行两者结合,课程标准就能够取代考纲,完成指导考试的任务。考试和评价的改革,跟我们国家的课程体系是密切关联的,超越课程教学抽象地谈考试改革是谈不清楚的。

  目前考试和评价领域促进核心素养的落实这个是很新的话题,没有什么人存在理论领先或者已经站在了制高点上,我谈的也不一定正确,仅供参考和批评。

  第一,为了促进核心素养的落地,评价观念需要不断调整。测验经历了3种发展观念,Assessment of Learning & Teaching,Assessment for Learning & Teaching,Assessment as Learning & Teaching。英文词组中的of、for、as形象地表达了我们考试评价状况的发展。我们现在经历的测验是针对教育教学的评价,这种考试和评价是外在的,相对来说是比较刚性的,是冷冰冰的评价;我们现在推动的是促进教学的评价,是为了促进教育教学的发展,为了学生的学习和教学而进行评价,是for;接下来我们面临第三个情景,在互联网+的社会背景下教学和学习已经发生了根本性的变革,从原来传统意义上的班级授课制,转变为学习教学的真正个体化,教师角色由传授者向指导者。这场变革的速度,可能比我们预期的更快。在个性化的学习和教学阶段,评价就不仅仅是为了教育教学,评价变成了教育教学和学生学习的重要环节。从教师角度来说,通过评价才能了解不同学生的状况,才能够有针对性的地指导改进,从学生角度来说,每个学生都不一样,评价就是学生学习里面的环节,通过评价了解学习状况,从而设计学习轨迹。因此我认为,可以预期评价会成为学习和教学的一个部分。这是从观念上的转化。
   
  第二,为了使核心素养落地,需要确定评价依据。基于核心素养能不能直接开发评价?当然是可以的,但是考虑到跟教育教学的融合,跟整个教育系统的融合,评价应该基于现在新制定的学生的学业质量标准,因为刚才的图形里面,在新的高中课标修订中学业质量标准的制定,不是过去简简单单对应知应会知识的规定,而是基于核心素养制定的标准,即学业质量标准是核心素养和教学内容有机的连接。如果我们不考虑教学内容,完全抽象地来说核心素养会存在很大的问题。在国家政策制度上有质量标准,这个标准是基于课程的内容和我们培养的学生的核心素养建构的,因此在未来,我认为与其从学生核心素养抽象切入去做评价,不如从学生的质量标准进行评价。

  第三,核心素养要落地,应该强调对于软技能和软环境的评价。刚才说到的学业质量标准是基于核心素养的框架来构建的,未来评价的形态并不仅仅是考试,中考和高考针对学业质量标准的完整评价应该是考试和综合素质评价的综合,所以仅有考试和学业水平考试不能完整涵盖我们国家试图制定的学业质量标准。因为在整个标准中,有一部分东西是不能通过惯常的纸笔测试测出来而是要通过综合素质评价来体现。综合素质评价强调对软技能和软环境的评价。说到软技能或者软环境,我们会面临政策上和技术上的冲突。政策和实践要求我们评价的东西,比如实践创新能力、思想道德水平、合作学习能力,有些时候,由于测量技术和方法跟不上,突破起来非常有限,因此一直存在技术和政策,技术和实践之间的冲突。但是目前,随着技术的发展,这方面融合的趋势变得越来越强。我有些时候参加国际组织的一些研讨,比如联合国儿童基金会、教科文组织等等的研讨,我会感到强烈的变化。过去,这些国际组织都强调硬统计指标,至少像学业成就,最高成就和最高表现在跨世界的范围是可以进行比较的,但是最近这些年,国际组织也特别强调软技能和软环境。大家知道经济学特别强调看得见、可操作的指标。比如生产函数,投入和产出的函数,是教育经济的基本的主体。在投入和产出的函数中,产出函数在过去很长时间只是入学率、毕业率和辍学率,后来加了语文、数学成绩,最近这些年又把软技能和软环境加进来了。非常典型的例子,诺贝尔经济学奖获得者詹姆斯•霍克曼,在他最近的人力资本的研究中,把我们常说的社会情绪作为人力资本的一部分。这在十年前是不可想象的。从这个角度来说,不光在我们国家的政策和实践环境中,强调对软技能和软环境的评价,在世界范围之内,大家也越来越重视这方面的研究。现在我们义务教育质量监测中,也强调对软技能和软环境的评价,包括教育部发布的中小学教育质量综合评价的指标体系,包括学生的综合素质评价体系,所有这些体系都强调软技能和软环境。

  我举一个很简单的例子,我们作为国家的监测中心,要回答教育质量的问题,除了监测学生的表现以外,我们自然还会考虑教育系统的相关因素,而教育系统的相关因素在很长时间内,都是客观的、统计的指标,无论是经费的投入、场地的面积,还是教师的达标率等,相对来说都是硬指标。但是这些指标在我们目前的教育发展中,对教育政策的咨询而言,已经不够了。因为,在国家发展到一定程度的时候,如果我们还是没完没了地做这些硬指标的评价分析,对我们的政策制定和实施来说意义都不大。因此除了这些政策、统计指标之外,我们要开发出来一个软环境的指标,通过这个指标进一步调整教育内涵的发展,进一步促进教育的均衡。我们的均衡一定要强调教师的教学水平、强调学校的心理环境。因为好的学校和差的学校之间的差别,并不是国家学校有多少财富,而更多的是这个国家、这个学校能不能创造有利于学生发展的积极环境,教师的教学质量是不是高的。所以当前的教育均衡,从过去的条件和保障,进一步转为强调在软环境和教师教学方面的均衡。只有在这个领域提高了,我们学生的质量才是有保证的,否则我们可能投入了很多钱,教师的水平没有提高,氛围没有改善,这就很难说我们学生学习的效果会更好。
   
  在国家的监测里,我们了设计关于学校积极心理环境的评价,框架有四个方面。一是学校本身的环境或氛围是不是安全和有序;二是对学生是不是接纳、提供支持的;三是这个学校的氛围是不是公正和公平的;四是这个学校是不是鼓励自主和合作。具体指标我不再展开。在评价的结果中我们看到对软环境和软技能指标的勘察很重要。学校的积极心理环境的指数如果提高十个百分点的话,相应地,学生的学业成绩,包括社会情绪情感,主观幸福感和行为都会上升,相反抑郁情绪会下降。学校积极心理环境实际上可以有助于调节和修正不良家庭背景对学生发展的消极因素。原本学校是有限责任的,比如说学生的家庭环境、背景可能很难通过学校教育做出很大的调整,但是通过我们学校教育方式的变化,氛围的变化,可以去弥补或削减家庭不良环境所造成的影响,这是我们学校教育本身应为的。目前来说,我们教育的公平或者教育均衡的问题,依然是城乡差异较为突出。良好的学校心理环境,有助于减少城乡学生之间的发展差异。如果说一个学校的心理氛围或者学校的环境氛围相对比较好的话,尽管是在相对比较落后的地区,学生的表现依然可以很好。强调对软技能和软环境的评价对于目前把核心素养真正地落地于评价改革是很重要的一部分。
   
  在座的很多一线老师或者校长可能会问,如何做到对软环境和软技能的评价呢?这确实是一个需要长期推动的话题。未来怎么做?需要在评价的技术方面有所突破和创新。信息技术的变化对于我们教学的变革,影响是巨大的,也给软环境和软技能评价带来变革。在信息技术急速发展这个时代背景下,教和学的方式发生了根本性的变化。长期以来我们赖以维系的学校教育模式,兴起在工业文明的时候。那时,我们需要大量的有素质的劳动者,所以与之相对应地,学校把学生汇集起来,让有经验、有知识的人系统讲授知识,这是一直推动现代学校教育的基本模式。但是在当前信息环境中,我们确实可以感觉到,这样传统的学校教育模式受到了巨大的挑战。对于一线老师来说,大家遇到了诸多问题,在一个班级里面学生的分化越来越大,家长和社会的诉求越来越高,特别是大班额,比如有60甚至80个学生的情况,教师的教学非常难以把握,因为如果你针对学习好的学生讲授的话,中等学生和差点的学生就落下了;但是如果你针对中等学生讲授的话,好的学生听着没劲,差的学生也听不懂,随着家庭的投入、信息技术的发展,教育教学模式需要更新。在这个更新过程中,教师的角色由过去的知识传授者,逐步变为学生的指导者、帮助者。我相信,很快这在很多好的学校里会慢慢成为现实,同样,在学生的学习过程中,也会越来越个性化。配合我们新一轮的高考改革、课标修订,关于走班制的学习,学生个性化学习的特色越来越重要。

  教和学的方式发生了根本性的变化,评价和测量的方法必然需要配合,需要不断进行更新,。过去我们的评价和测量,都是由评价者和测量者主动设置的评价——我们出一套卷子,让学生在某一天来考,但是现在随着信息技术、大数据的发展,学生学习的痕迹、教师教学的痕迹,已经大量存在于我们的信息环境中,这样,测量和评价就有可能改变过去主动设置的状态。关键的是要看如何把后台的信息提取和共享出来。比如今年监测面临艺术如何测的问题。从国家来看,中考和高考没有统一的艺术考试,因为大家觉得艺术是个体化的。国家对学生艺术的素养已经强调很多了,对于艺术测评,我们不能像过去一样问达芬奇的这幅画是画什么的,哪幅图片是齐白石等等,这些都不是学生艺术问题的本质。我们要测学生的艺术素养,艺术素养表现能不能绘画,能不能完整地吟一首诗等。我们今年尝试着利用电子化的方式,通过网络的环境对全国31+1个省市、9000多名学生进行艺术素养的评价。通过网络我们把测试要求下发到各个样本学校,让学生当天就能够下载。为了让学生熟悉这种测评,我们提前一个半月给各个样本学校提供练习版本,以让学生熟悉测试环境。

  信息技术的发展,很大程度上帮助了我们对于艺术素养的测试。这种帮助不仅体现在测验方法上,还体现在测验评分上。通过行政方式我们可以组织学生一天把艺术的测验都测了,但是将来怎么办,怎么评价这个学生的分高分低呢?大量的测验数据通过人工来评定短时间内是评定不完的。我们是通过计算机的自动评分系统来完成的。首先把学生所演唱的内容,抽取出一个小的样本,由艺术领域、音乐领域的专家进行评分,评分之后让计算机学习,建立起计算机的评分系统,最终计算机的评分系统就可以对所有的学生进行评分。我们担心计算机会出现偏差,因而再抽取10%的比例,让专家进行评,看专家的评分和计算机评分的差别,但是我们发现,计算机评分的效果很不错,这个步骤我们到目前为止已经顺利完成了。计算机在五个方面给了分演唱的表现力、速度、力气、表情的完整性及流畅性、音准节奏及歌词等。我举的这个例子,可以看到信息技术的发展,对于我们对软技能和软环境的评价有很大的辅助作用。全国绝大部分省市,或者31+1个省市里面,学校里面有无线网接口有99.39%,就是绝大部分学校已经有了信息技术,至少有一台机子可以跟网络结合,有的省市百分之百的学校都有这样的条件,这在未来给我们利用信息技术辅助对软技能和软环境的评价,提供了有利的条件。

  信息技术可以很大程度上改变我们命题的方式。我国正式、非正式的参加过PISA很多次,它代表了测验发展的新进展,2015年,PISA实现了对学生测试的计算机化。通过计算机测试的方式,测试学生合作性问题解决。它设计了一个非常复杂的系统,通过学生自己跟这个计算机系统的互动来评价学生合作学习的能力。监测中心一个小的研究项目,就是将学校学习与网络结合,在网络上发布作业,学生通过网络提交作业这种方式能够保留学生学习的痕迹,包括学习的结果,进而对学生的学习进行深入的挖掘。。我们收集这些数据已经两年多了,大概有十来所学校。根据每个学生的学习痕迹建立模型,进行数据分析。这些例子都可以看出,信息技术的飞速发展,为核心素养的落实奠定很重要的基础。

时龙:关于学生发展能力及评价的探讨

主要观点:

  人的素养包括两个层次,一个是基础素养,一个是核心素养,基础素养是基本要求,核心素养是牵一发而动全身,促进学生终身发展的那部分。

  道德素养和学习能力是人的全面发展的核心要素,培育学生的道德素养和学习能力是教育的根本功能,是教育的社会属性与学生自身潜质的统一。

  根本问题是,我们能够为学生的发展提供什么样的教育和条件,就要持续不断的开展教育变革,促进学生提升道德素养和学习能力。

  一切都是可以学习的,教育的根本就是学会学习。教育改革与发展涉及诸多领域,提升教育质量及学生学习能力是中心领域和根本任务,如果这一问题没有得到解决,其他的教育改革与发展都是枝节的进步,以全面提升学生学习能力为中心的教育改革是教育发展的重大实践课题。

  学习是一个复杂的过程,教育评价既要从评价结果中来促进学生的学习能力,还要深入了解学习过程中真实发生的现象和问题来改进教育评价。教育评价应该结果与过程并重,进一步关注学生发展及学习能力的相关因素。

  为了每一个学生的发展,建立基于学生发展的综合评价体系。

     ——中国教育学会基础教育评价委员会理事长 时龙


  一、关于素质、素养、能力、核心的讨论

  (一)我们教育发展常讲要走向内涵发展。那么什么是教育内涵?这引起了广泛关注和讨论,但讨论要聚焦到教育本质功能,要防止过度的名词概念演绎。学生素养,特别是学生核心素养的提出,其中一个重要方面,就是要揭示教育的内涵,即要为教育内涵发展,提供一种思想,一种指导,一种范本。教育内涵就是培育学生的全面发展能力、促进终身发展。

  (二)如何理解核心素养中“核心”。为什么要提出“核心”,到底什么是核心,什么不是核心。首先,核心一定是影响整体的那一个部分,比如企业的发展,一定要有核心技术。其次,核心也一定是不可替代的。一定意义上说,具有这个核心,就可能有了一切。再次,核心也是最具概括性的,因此核心不应该是面面俱到的。核心所体现的一定是事物内在的本质,潜在的能够引起事物发展的那一部分作用和力量。最后,从学生的核心素养来看,它一定是可以培养出来的,而且这种核心最接近教育本质。

  二、道德素养和学习能力是学生发展的核心要素

  (一)道德素养和学习能力是人的全面发展的核心要素,培育学生的道德素养和学习能力是教育的根本功能,是教育的社会属性与学生自身潜质的统一。

  (二)我认为德育是教育的全部,不是教育的一个类别,道德教育应该贯穿人生的全过程,体现在学校教育的各个方面,德育是面对所有人的教育,不是针对特定人群的教育,德育是综合性的教育,不是学科性教学,德育是世界观、价值观和方法论的教育,这是德育的最高境界,着力培养学生的精神世界是学校教育不可忽视的。

  (三)学习能力是学生发展的基本要义。其一,学习能力不仅仅是知识学习的能力,它包括学生在实践、创新、生活和道德等领域的学习能力,人们经常提及的素质、素养、道德的都是通过学习获得的;其二,学习能力是造就学生全面发展能力的基础,也是人的终身发展的基石,不会学习就不会发展;其三,提升学生学习能力是学校教育的基本任务,也是教学改革的基本方向,通过进一步转变教育观念、教育环境、课程设置、教学方式、教师行为来提升学生的学习能力;其四,我国教育在培育学生学习能力方面还存在诸多问题,直接影响着提高教育质量的任务,也影响着学生的素养的形成。因此,着力提升学生学习能力是教育改革与发展的重要主题。

  (四)如今的教育还面临着很多值得关注的问题。一是以学习成绩替代学习能力的倾向比较明显。二是以学习技巧、技术驱动学习能力的趋势正在形成。学习需要方法,学习也需要技巧,但是最根本的是学生自己在学习。三是以简单化、行政化方式强推学习能力的现象时有发生。四是以单项实验或改革助推学习能力的情况比较普遍。很多教育部门、教育机构都在尝试改革实验,其实真正的教育实验不多,而教育的发展,一定是综合发展。五是以精致的应试教育掩盖学习能力的问题不在少数。

  所以,一切都是可以学习的,教育的根本就是学会学习。教育改革与发展涉及诸多领域,提升教育质量及学生学习能力是中心领域和根本任务,如果这一问题没有得到解决,其他的教育改革与发展都是枝节的进步,以全面提升学生学习能力为中心的教育改革是教育发展的重大实践课题。

  三、关键问题是提供什么样的教育和条件
  
  (一)持续不断的教育变革,促进学生提升道德素养和学习能力

  无论我们把教育描述成什么样子,其根本问题是,我们能够为学生的发展提供什么样的教育和条件,就要持续不断的开展教育变革,促进学生提升道德素养和学习能力。我个人认为,在今后为学生发展要在生活德育,实践德育,融合德育,常态德育方面开展探索。如何提升学生的学习能力就要学会探讨和实验系统的学习指导方式,以促进适合学生的学习方式。

  什么是学习?提升学生的学习能力,首先要明确一点,学生是在自己学习、发展。核心素养里提到自主发展,就是这个意思,一定要让学生学会自己学习,按照自己的方式来学习。提升学生的学习能力,首先要在教育观念和教育行为上转变。那么,到底什么是学习。这又是一个大话题,几天前看到一篇文章《真实的学习》,他提出了一个问题,什么叫真实的学习,这个不是我们来回答,是学习者自身来回答,教育研究工作者,应该从学习者真实的学习中来发现,如何提升学习者的学习能力,这也是教育评价面临的如何评价学生的学习,评价如何促进提升学生的学习能力,这是我们面临的一个问题。我们的教育评价往往是在学习的某一个阶段的时候,通过一种特定的方式,来评价来评段学习的结果,甚至通过学习的成绩来评价。但是也有一个问题,学习过程中的评价也是值得关注的,学习过程中是一个复杂的过程,我们的评价是从评价结果中来促进学生的学习能力,还是要深入了解学习过程中真实发生的现象和问题来改进教育评价。

  (二)教育评价应该结果与过程并重,进一步关注学生发展的相关因素

  如何评价和解读学习的生命系统。在学习过程中,学习的生命系统是评价中很少关注的,每一个学生都是一个生命,学习的生命包括他生命的过程,还包括他如何用脑,他的身体状况,生命对于学习的意义。每个人的大脑的构造都是不同的,不同的大脑,不同的学习的物质器官,如何促进学习,这不仅是我们教育研究的问题,也是教育评价要考虑的重要的因素。

  如何评价和解读学习的社会条件。学习是有社会条件的,学习能力强不强,与个人的社会条件紧密相关。现在越来越多的人开始注重家庭教育和户外家庭教育,这些确实引起了大家的重视,教育应该是从家庭开始的,我们的教育评价恐怕是从学校和成绩开始的。教育的条件还包括学校是不是有利于提升学生的学习成绩,而教育评价也要更多关注评价对象周边的环境,有些是物理环境,有些是文化环境。

  如何评价和解读学习的人际关系。学习的人际关系,我认为是教育评价要考虑的,在评价的时候,我们更多看到的是成绩和结果,而每一个真实的学习者,他是怎样学习的?他和谁在学习?他的同伴学习效果怎么样?他是否有能力组织大家一起学习?这不仅是学习的形式,更是学习的状态。一个真正会学习的人一定会同伴学习,他如何开展同伴学习,我们的教育评价应该向他的人际关系方面去延伸。

  如何评价和解读学习的认识方法。评价也要关注学生的思维方式和认识的方法。有一种说法,教育实际上是教学生学会思维,这个可能有点绝对,但绝不是错误的,每个学生在学习中是如何思维,它的认知倾向是什么,他面对这个学科用什么样的思维方式来掌握相关的知识,过程方法情感态度价值观。我们很多评价在这方面是不关注的,而且思维方式认识方法对于学习的作用,能否评价出来,能否通过评价的方式来帮助学生提升,值得我们考虑与探索。

  如何评价和解读学习的融会贯通。学习中的融会贯通问题是一个大问题,现在的评价往往是在评价某一个学科学生的学习状况,他能否在不同学科知识中融会贯通,这是学习的最高的境界。知识、技能、情感、价值观是否融会贯通,学校发展和学生德智体美劳能否融会贯通,最后都融会贯通到学生个人身上,这种融会贯通的境界是我们要关注的。

  如何评价和解读学习的教师角色。教师是教学还是导学,这是大家经常讨论的问题,也是影响学生学习能力很重要的方面。而现在很多教师仍旧习惯自己讲,我们教师的角色在提升学生学习能力上到底该如何转变。

  如何评价和解读学习的美学意境。一个学习能力强的人,一定有艺术素养在支撑。我曾经听了一堂推门课,听的是音乐课,这个学校在艺术教育上面真是独具匠心,教师让学生在课堂上自己编排音乐剧,学生自己找道具、派角色。他的校长对我说,艺术教育最具综合性。我认为这位校长悟透了艺术教育的本质,而艺术教育对学生的学习能力的提升到底如何,如何测试,如何来促进也是我们面临的问题。

  如何评价和解读学习的精神基础。人生观价值观是我们应该关注的,这是一个大的问题。

  (三)为了每一个学生的发展,建立基于学生发展的综合评价体系

  探索建立学业水平与学习能力相结合的评价方式,从成绩转向能力;
  探索建立侧重调查评定学生学习特点的学情调查,从教师转向学生;
  探索建立面向学生个体的学习能力追踪评价,从结果转向过程;
  探索建立基于促进学习的教育条件的督导评价,从“随意”转向聚焦;
  探索建立以学校为实施主体的学校发展性评价,从“裁判”转向自主;
  探索建立基于学生发展和学校发展的综合评价体系,提供教育评价的服务。

新一轮招生考试制度改革下教育测评技术的发展及创新应用 ——基于教育大数据+互联网的应用
——基于教育大数据+互联网的应用


  2014 年 9 月 4 日,国务院颁布了《关于深化考试招生制度改革的实施意见》(国发〔2014〕35号),明确提出“启动高考综合改革试点”,要“改革考试科目设置。增强高考与高中学习的关联度……”。为贯彻落实此改革意见,教育部先后颁布了《关于普通高中学业水平考试的实施意见》(教基二[2014]10号)和《关于进一步推进高中阶段学校考试招生制度改革的指导意见》(教基二[2016]4号)两个文件,正式拉开了新一轮招生考试制度改革的大幕。

  一、新一轮招生考试制度改革的关键词解读

  新一轮招生考试制度改革方案中,高考改革的关键词是“多元录取”、“一年两考”,探索基于统一高考和高中学业水平考试成绩、参考综合素质评价的多元录取机制。考生总成绩由统一高考的语文、数学、外语3个科目成绩和高中学业水平考试3个科目成绩组成。保持统一高考的语文、数学、外语科目不变、分值不变,不分文理科,外语科目提供两次考试机会。高中学业水平考试科目,由考生根据报考高校要求和自身特长,在思想政治、历史、地理、物理、化学、生物等科目中自主选择。最新出台的高中阶段学校招生制度改革的关键词是“两考合一”, 积极探索基于初中学业水平考试成绩、结合综合素质评价的招生录取模式。推行初中学业水平考试不是取消中考,而是将初中毕业考试与高中招生考试合二为一,一考多用,避免多次考试给学生造成负担。同时,全科开考,避免不考不教,不考不学;强调高质量命题,减少单纯记忆、机械训练性质的内容;改进考试成绩呈现方式,采用分数和等级多种形式呈现,克服分分计较,避免过度竞争。综合素质的评价结果也将成为高中学校招生的重要依据。

  分析方案中的关键内容,我们不难发现新一轮招生考试制度改革的根本宗旨在于改变过去“唯分数论”、“一考定终身”的弊端,形成分类考试、综合评价、多元录取的考试招生模式,坚持全面考核,促进学生完成国家规定的各门课程的学习;坚持自主选择,为每个学生提供更多的选择机会,促进学生发展学科兴趣与个性特长,继续为提高教育质量、提升国民素质、促进社会纵向流动、服务国家现代化建设发挥重要作用。

  二、招生考试制度改革给教育测评带来的挑战

  招生考试从实质上来说是对学生进行评价和遴选,而评价的开展是以测量结果为依据的,很大程度上来说,评价结果的公平合理是以测量结果的科学可靠为基本的。招生考试制度的改革给教育测评技术带来了极大挑战,一年两考的两次考试之间如何科学比较?综合评价如何操作,如何克服执行过程中的“不可比性”、 “主观性”等等……因此,我们应该看到, 招生考试制度的改革不只是一项大有可为的民生工程,同时也有着无法避开的“难为”窘境。下面谈几个比较突出的难点问题:

  (一)教育大数据的处理问题

  今天,社会各界都在讲大数据,实际上教育领域的数据更是大数据,它实现了对学生数据的全方位、全过程采集,覆盖了学生学业、知识技能、身心健康等各个方面。同时,它又是动态发展的,汇集了学生从幼儿园到高中的发展全过程的纵向数据。一年两考和综合评价都必然会带来更多的教育数据,这些数据在实际的处理和应用中将会有不少问题和困难。

  第一,教育大数据来源多样,有不同区域、不同学校、不同学科测评的数据,有学生发展的不同方面及类型的数据,但是它都是缺乏标准化的数据定义,不利于数据间的比较。

  第二,数据类型多元但不具有一致性,不利于数据间的比较与整合。综合评价涉及到学业水平、身心健康、思想品德等各个方面,不同方面的数据可能是连续型数据也可能是类别型数据。这些不同类型数据给考试分数和问卷数据的解释与评价带来了不便。而目前,教育行业对不同类型数据的整合不足,从而对学生各种指标数据的解释与评价尚显不够。

  第三,纵向数据收集难度大,且对其分析也不足。目前,教育测评注重对横断面数据的应用分析,对数据进行横向比较,较少进行纵向的追踪与比较。这一方面是因为纵向数据不易收集,并且容易在收集的过程中容易出现流失,从而数据缺失情况较为严重。另一方面,纵向数据的比较与分析从方法上来说也比横向数据的分析复杂得多。这些都是导致目前纵向数据收集与分析不足的重要原因。

  第四,数据容量大但深层挖掘不易,对数据的利用不够充分。

  教育大数据虽然庞大,但是目前对其挖掘与利用尚且不足,尤其是数据背后深层次的隐性信息的挖掘。一是由于目前数据的收集缺乏规划,不够细致和到位;二是相关的教育工作者缺乏测量方面的专业知识,不懂得对数据进行怎样的挖掘与分析。

  第五,非学业数据的获取和处理难度都更大。过去,我们一直都全力关注学业成绩,以学业成绩为主导,以分数排队,以“分”评价学业的优劣,以“率”评价学校、区域的绩效,而对学生成长的非学业因素,比如说思想品德、身心健康、兴趣爱好等关注不够。因为非学业素养的关注难度比较大,如何测量,数据如何处理,结果如何解释…,都不同于学业数据。而综合素养的评价作为录取标准之一,重要前提是要能对非学业数据进行科学合理的处理。

  (二)测评的实施与结果解释

  综合评价各大类指标如何进行综合才能公正、公平、合理,使用这些评价结果的各个层面都认可?多元录取如何实现,各“元”之间如何分配和综合?高考外语一年两考,两次考试的成绩如何比较?这些都是非常实际而又无法避开的问题。招生考试制度的改革不仅仅是政策的颁布与贯彻,其背后的技术支撑如果不能跟上,改革的效果必须得不到保障。因此,作为招生考试制度重要技术支撑的测评技术也应随之发展与创新。

  三、教育测评技术的发展与应用创新

  教育测评技术的发展为解决上述问题提供了理论基础;计算机、互联网、云计算等信息技术的高速发展为我们提供了解决上述问题的技术基础。

  (一)三大基本测评理论

  经典测评理论(Classical Test Theory, CTT)、项目反应理论(Item Response Theory, IRT)、认知诊断理论(Cognitive Diagnosis Theory, CDT)是测评领域最经常被提及的基本理论。CTT因其对题目和测验作统计分析的方法在计算上较为简单,意义上也明了直观,易于教育工作者理解和掌握,因此有着广泛的应用。但其缺陷也是十分明显的,最突出的是“千人一卷”,不能实现“因人而测”。IRT是针对CTT的不足而发展起来的,它可以精确估计每个考生的能力水平,从而为实现“因人而测”的计算机自适应测验(Computerized Adaptive Testing,CAT)提供了必要的条件。而CDT则实现了对个体知识结构、加工技能或认知过程的诊断评估,弥补了CTT和IRT只能提供一个测验分数(或能力参数)的不足,实现了对学生更为精细的诊断与区分。

  这三大测评理论为多次考试的分数比较、综合评价指标整合和计算机化的测验形式提供了基本的理论基础。但仅有此是不够的,测评技术还需在此基础上进一步发展和创新,才能解决当前招生考试制度改革下的技术难题。

  (二)测评技术的发展及创新应用

  在教育新形势的推动下,测评技术也有了发展和创新,并在广州市2015年的中小学教育质量阳光评价中得到了应用。这些创新应用都为新的招生考试制度的具体实施提供了重要参考。

  1. “学业测试+问卷调查+非学业量表”实现综合评价

  采用“学业测试+问卷调查+非学业量表”相结合的方式,可从多层面对学生进行评价:(1)对学生进行学业测试,了解学生学业发展水平;(2)对学生进行和学业测试配套的问卷调查,探讨影响学生学业发展的相关因素;(3)对学生进行非学业问卷调查,从多方面了解和评价学生的综合素质。

  2. “大量表+小量表” 整体评估非学业素养

  综合评价涉及到多个方面、多个指标。各个指标与各个方面不应割裂开来,应该视为整体与局部的关系。但如果每一项指标都分别用不同的量表测试,那么指标间的整体关系将被破坏,无法合成一个综合分数用于整体评价。在广州市的阳光评价中,由华南师范大学心理学院教授组成的专家团队经过慎重考虑及研讨,决定采用“大量表”形式予以实现测试,“大量表”统领“小量表”,量表间分工合作,不破坏它们之间的整体关系。测验结果表明各小量表及大量表都达到了测量学标准。

  3.基于潜变量模型的学生分类方法

  传统的依据学生分数对学生进行分层或分等级的方法,根据预先的假设,把学生学业分数上的量化差异进行人为分类,这种方法不能确定不同组别的学生学业发展是否具有质性差异。潜在剖面分析(Latent Profile Analysis,LPA)以学生为中心,依据学生的不同表现,诊断学生潜在的质性差异,把学生分成组内一致,组间差异的组别,实现了对学生更为精准的分层或分等级。

  4. 新一代多元概化理论框架下的分数合成方法

  综合评价中一个突出的问题是各指标分数的合成问题。由于指标繁多,且获取的数据类型可能并不一致,用经典测量理论来进行分数合成便会造成评估误差。新一代多元概化理论(Multivariate Generalizability Theory,MGT)则很好地解决了这个问题,它可以同时考虑题目因素与维度因素,并且将每个维度固定起来各自作为一个“元”。因此,使用多元概化理论进行分数合成是合理和科学的办法。

  5. 传统纸笔测验+计算机线上测试双模式并行

  对学生进行评价都会增加教师工作量和学校的管理难度,从而给评价的实施和推广带来阻力。档案袋评价之所以没有能够推广开来就是因为它给教师和学校带来了过于繁杂的工作负担。因此,综合评价的具体实施一定要考虑到一线教学和管理的便利。在广州市的阳光评价中,我们同时采用了传统的纸笔测验和计算机线上测验,从而极大地减少了教师和学校的工作量,评价的推行也进行得非常顺利。因此,在高中阶段的综合评价中也可以尝试采用这种纸笔测验+计算机线上测试的双模式。

  考试招生制度的改革是一件关乎民生的大事,尽管挑战重重,但只要社会各界尤其是学界积聚力量,互相学习和交流,共同为提高国家教育质量、促进学生健康全面发展贡献一份力量,一定能够使我们的改革顺利推行下去,实现我国教育改革发展的宏伟目标。


参考文献:
[1]张敏强.  教育测量理论与方法的应用研究[J]. 华南师范大学学报( 社会科学版), 1992(3): 73-83.
[2]张敏强.  教育测量学人民教育出版社[M].  1998(7): 137.
[3]漆树青,  戴海琦, 丁树良. 现代教育与心理测量学原理[M]. 高等教育出版社, 2002(8): 26-27.
[4]涂冬波,漆书青,戴海琦,蔡艳,丁树良. 教育考试中的认知诊断评估[J]. 考试研究, 2008(10): 5.
[5]黎光明,甄锋泉,王幸君,蒋欢,梁正妍. 多元概化理论在教育测量与评价中的多维化分析[J]. 教育测量与评价:理论版,(2016)(2):13-17.