本社概况

期刊导航

《标准科学》

《标准生活》

《产品安全与召回》

新闻中心

美国教材评价标准的指标和方法

作者：中国社会科学网

发布时间：2020-09-10

来源：

作者简介：翟志峰，华东师范大学教育学部博士研究生；董蓓菲，华东师范大学教育学部教授。上海 200062

内容提要：美国教材评价标准主要由行业组织、地方教育机构和教育咨询机构等发布，彼此之间形成了一个较为完善的教材评价体系。以《优质教材工具》为代表的教材评价标准，积极吸纳并回应教材评价研究中的经验和教训，形成了可靠的评价工具。在教材评价指标方面，通过考察教材中文本内容、案例的选择和学习活动的设计等对教材与课程标准的一致性进行评价；通过考察教材对教和学的支持以评价教材的可用性。在评价方法方面，通过设立评价“关卡”规范评价程序和评分规则，以《证据指南》统一评价人员的理解，采用“基于证据”的评价方法保证评价结果的可靠性。在公布评价结果时，采用图文结合的方式公布评价结果和详细的评价意见，并公开接受质疑。美国经验为我国研制教材评价标准提供了有益的参考。

关键词：教材评价；教材评价指标；教材评价程序；教材评价方法；基于课程标准；基于证据

标题注释：本文获得2019年华东师范大学优秀博士生学术创新能力提升计划项目(项目编号：YBNLTS2019-037)资助。

近年来，随着世界经济与社会的快速发展，越来越多的国家对教育投入了巨大地希冀；尤其是以PISA为代表的国际测评驱使各国政府通过制定和实施教育政策以提升教育质量。通过评价的方式规范和提升教材的质量是其重要路径之一。德国贝尔格莱德大学伊维奇(Ivan

中国标准化

)教授等学者认为，作为教育质量体系中的一部分，提高教材质量将对提升整个教育水平产生巨大影响；英国剑桥大学的蒂姆·奥茨教授(Tim Oates)强调教材质量对国家教育政策和教育系统的建设具有关键作用，并认为高质量教材会对教师和学生产生支持作用。[1]

一些学者从教材评价角度评论了教材质量提高的问题，主要涉及教材评价的维度和方法。就维度来看，学者们普遍将课程标准、课程目标与内容、学生与教师等教材使用者和教材自身特性等作为教材评价的维度。理查兹(Richards，J.C.)和罗杰斯(Rodgers，T.)认为教材评价标准应当从学习者、教师、教材的角色和教学大纲四个方面建构；坎宁斯沃思(Cunningsworth，A.)、库塞尔(Kusel，P.)和斯科瑟(Skierso，A.)等认为应当从教材的目标、布局、方法和组织等方面建构；加林杰(Garinger，D.)认为要从教材满足教学目标的程度、教材覆盖的广度和深度以及教材需要补充的程度三方面建构；汤普森(Thompson，C.L.)等则主张从教材适合学生的阅读水平和动机、教师的期望和学生学习负担及花费等方面建构。伯德(Byrd，P.)在综合前人研究基础上，提出应当根据学习—教学的环境、学习者和教师的具体需要建构指标，突出了教材评价标准对使用环境的适切性。[2]关于教材评价的方法，目前常见的方法有“印象法”(the impressionistic method)和“评价清单法”(the checklist method)。前者主要通过评价者浏览出版商提供的教材简介和每册教材的部分章节的方式形成对教材的总体印象，进而做出合格与否的判断。但该方法主观性较强，日益受到批评。后者则通过使用类似于评分表的评价清单引导评价者对被评价教材进行逐项评判。该方法因具有系统性强、成本效益高、便于各组比较以及为评价者提供了共同的决策框架等优点而获得普遍使用。

2010年美国公布《共同核心州立标准》后，一大批冠以“基于课程标准”编写的教材纷纷问世。但据一项教材评价报告显示，有90%的受访教师认为编写出与《共同核心州立标准》要求一致的教材是一项艰巨的挑战；只有18%的教师认为他们所在学区使用的教材与课程标准一致。[3]另外，美国地方分权制的政治体制，使全国约有30个州(如阿拉斯加州、科罗拉多州、印第安那州、爱荷华州等)将教材的选择权赋予当地教育部门或学校；而另外一些州(如爱达荷州、佛罗里达州、新墨西哥州、得克萨斯州等)则由州教育部门负责教材的选用。[4]于是，在市场因素、民意因素与制度因素相互叠加下，如何在琳琅满目的教材中挑选出高质量的产品成为各州、学区乃至广大教师面临的棘手问题。为解决这一问题，借鉴已有教材评价标准研制经验，回应美国国内现实需求，研发教材评价标准并据其选择适用教材的工作日益受到重视。#p#分页标题#e#

一、美国教材评价标准的体系

教材的研制、出版、发行、使用会牵涉众多利益相关群体，教材评价更蕴含着“大量的专业、财政甚至政治投资。这意味着对教材评价标准系统的界定和应用至关重要”。[5]目前，美国发布的教材评价标准依其发布机构不同，可分为行业组织发布的教材评价标准、地方教育部门发布的教材评价标准和教育咨询机构发布的教材评价标准。

行业组织发布的教材评价标准是借鉴出版行业的技术规范，对教材的印刷、装帧、出版和发行等提出的通用性标准。如美国的教材规格咨询委员会(Advisory Commission on Textbook Specifications，简称ACTS)下设三个机构，分别是国家教材审查协会(State Instructional Materials Review Association，简称SIMRA)、图书制造商协会(Book Manufacturers' Institute，简称BMI)，美国出版商协会(Association of American Publishers，简称AAP)。它们通过开展相关研究和测试，决定中小学教材的耐用年限和其他相关表现因素；对教材的制造过程和标准提出建议，以确保恰当的质量和表现标准。又如由国家教材管理协会(National Association of State Textbook Administrators，简称NASTA)出版的《教材审查通用标准框架》(Common Criteria Framework for the Vetting of Instructional Materials)从内容、公平和可达到性(equity and accessibility)、评价、组织和呈现、教学设计和支持共五个方面提出了具有参考价值的教材评价标准。[6]

地方教育部门发布的教材评价标准是由州一级教育部门结合当地教育实际和课程政策发布的用于选择教材的审查标准。如加利福尼亚州教育委员会(California State Board of Education)在2014年发布的《加州公立学校幼儿园到十二年级英语语言艺术/英语语言发展框架》(English Language Arts/English Language Development Framework for California Public Schools Kindergarten Through Grade Twelve)中设置了幼儿园至八年级、九年级至十二年级的教材评价标准，主要从“与课程标准的一致性”“项目组织”“评估”“普遍可接受性”和“教学计划和教师支持”等方面进行评价；另外还对补充教材、开放教育资源(Open Educational Resources，简称OER)和无障碍教材等提出了评价要求。[7]

教育咨询机构发布的教材评价标准是由一些非营利性教育组织、机构召集具有丰富教育经验和出版经验的人员研制，旨在对美国国内出版的各科教材质量进行第三方独立评价的教材评价标准。如由全美州教育局长理事会(Council of Chief State School Officers)和美国全国州长协会(National Governor Association)联合发布的《面向〈共同核心州立标准〉的出版商准则(修订版)》(2012)(Revised Publishers' Criteria for the Common Core State Standards)；由学生成就合作伙伴(Student Achievement Partners)发布的《教材评价工具》(2013)(Instructional Materials Evaluation Tool，简称IMET)；由教育报告组织(EdReports.org)发布的《优质教材工具》(2017)(Quality Instructional Materials Tool)[8]。上述三套教材评价标准针对语文(为指称方便，下文统一将“英语语言艺术”称为“语文”)、数学和科学等学科设立了学科性鲜明的教材评价标准。

上述三类教材评价标准，地方教育部门和教育咨询机构的教材评价标准关注的多是教材的教学特性，因此会参酌已有评价标准在评价维度、指标和评价方法等方面的经验为己所用，以提升评价标准整体的质量和水平；而行业组织发布的教材评价标准由于更多的关注教材的物理特性，在涉及的维度、指标等方面与另两类教材评价标准上有所差异，也较为独立。

“教育报告组织”是美国目前较为典型的以第三方身份开展教材评价工作的教育咨询机构。作为一家独立的非营利组织，他们通过免费发布幼儿园到十二年级(K-12)教材评价报告的方式，力求使所有学生都能获得高质量的教材。为达到该目的，该团队由具有教育、法律、市场营销、政策和数据分析等多种学科和工作背景的成员组成；特别是团队中具有教育背景的成员是由来自美国46个州，代表大、中、小型城市和乡村等各种类型学区的300多名深谙《共同核心州立标准》核心理念与教材设计与评价原则和方法的优秀教师、学区指导员(district coaches)、州教育官员等组成。由“教育报告组织”发布的《优质教材工具》不仅郁有较为完备的评价指标体系和评价操作流程，而且具有良好的社会影响力。2015年至今，发布了语文、数学和科学三个学科不同版本百余册教材的评价报告500余份，间接影响了约690万学生。[9]在其评价的教材中，不乏培生教育公司(Pearson Education，Inc)出版的语文教材《文学》(Literature，2015)、数学教材《数量、数据和空间的调查》(Investigations in Number，Data，and Space，2017)；麦格劳-希尔教育公司(McGraw-Hill Education)出版的语文教材《奇迹》(Wonders，2017)、数学教材《每日数学》(Everyday Math，2016)；霍顿·米夫林·哈考特出版社(Houghton Mifflin Harcourt)出版的语文教材《旅程》(Journeys，2017)、数学教材《冲啊，数学！》(Go Math，2015)等在美国拥有较大市场占有率和较好口碑的教材。鉴于《优质教材工具》研制团队的专业性、评价人员的广泛代表性和教材评价标准的广泛应用性，本文以2017年发布的3-8年级语文科《优质教材工具》为例展开讨论。#p#分页标题#e#

二、教材评价指标的设计：关注教材与课程标准的一致性和教材中学习活动设计对师生发展的支持

虽然多年来学者们对教材评价应当涉及哪些维度给出了莫衷一是的答案，但每一个方案都包含着研究者对理想的教材应该是个什么样子的假设。[10]《优质教材工具》在研制之初就力图在评价的维度上做到与《共同核心州立标准》的“关键转变”(Key Shifts)建立对应关系。如语文科的《共同核心州立标准》中提出希望学生在“复杂文本及其学术语言的日常实践”(即“文本复杂性”)、“在文学类或信息类文本中开展基于文本证据的阅读、写作和讲话”(即“证据”)和“通过拥有丰富内容的非虚构作品建构知识”(即“知识”)三个方面获得“关键转变”。[11]《优质教材工具》采用“一致性策略”力图使教材评价标准符合《共同核心州立标准》的上述要求，从三个方面构建评价标准，形成了三个“关卡”(Gateway)。其中，“关卡l”“教材中文本的质量、复杂程度和基于证据的任务、问题与《共同核心州立标准》要求的一致性”和“关卡2”“通过文本、词汇和任务构建知识”的着眼点都是关注教材与《共同核心州立标准》的一致性问题，即对教材是否提供了适当难度和质量的学习资源和学习活动来落实《共同核心州立标准》的要求进行评价。“关卡3”“对教学的支持和可达成性”关注的是教材对使用者的友好程度和对教与学的支持水平。

具体来看，“关卡1”主要从评价教材选择的文本或案例是否合宜的角度落实一致性要求。即追问教材中的锚定文本(anchor texts)①、案例和例题是否符合《共同核心州立标准》中相应年级对文本复杂性和任务难度的要求；是否与《共同核心州立标准》中对严格和平衡(rigor and balance)的要求相一致；是否支持学生达到《共同核心州立标准》中对学习能力的要求。在《优质教材工具》中，上述问题被分解为不同的维度，并具体化为一条条评价指标。关卡、维度和指标之间的逻辑关系见图1。在该关卡中分两个维度，分别是“文本是否值得学生付出时间和精力”和“教材是否提供了丰富而严谨的基于证据的讨论和写作的机会”。第一个维度着重就教材中文本的质量、类型和复杂度等内容设置评价指标，共有6条。它们不仅要求教材中要有符合《共同核心州立标准》要求的文学类型、流派和具备高质量的文本，而且要能引起学生阅读的兴趣。如指标1c，采用《共同核心州立标准》中提出的“复杂文本”的概念，从定量、定性和任务设置三个角度对教材中文本的复杂程度进行评价。又如指标1f，非常注重教材在提供学生学习机会、培养学习能力方面的功效，要求教材“为学生提供大量阅读的机会，以使其形成符合年级水平要求的阅读能力”。第二个维度关注教材中问题和任务等练习的设计是否能促进学生达到《共同核心州立标准》对有关能力的要求，共有8条指标。如要求教材中的问题和任务的设计是“基于文本”的，学生在回答这些问题时也是要“基于文本”才能做出回答；同时，这些“基于文本”的问题和任务的设计要为学生进行“有证据的”表达“提供足够的机会”，“鼓励学生建立和使用学术词汇和语法”，“提供不同文本类型的写作机会”，使学生达到《共同核心州立标准》的要求。

中国标准化

图1 《优质教材工具》中关卡、维度、指标关系图

“关卡2”主要从教材在构建知识、培养学生能力等学习活动的设计水平方面落实一致性要求。即追问教材是否在不同的主题和内容领域促进学生建立知识；是否以有意识且连贯的序列构建知识；设计的问题和任务是否可以表明学生具备了分析问题的能力。该关卡不区分维度，共有8个指标。如指标2b提出“教材要包含一系列连贯的、且高质量的问题和任务，如要求学生分析单个文本的语言，关键思想，细节，表现手法和结构”。我们知道，教材中助读系统和练习系统等学习活动的设计是体现教材设计水平的一个重要窗口，它不仅是教材编写思想的重要体现，而且对学生的学习会产生潜移默化的影响。指标2b就是从“内”(内容指向)和“外”(外在联系)两个方面对这些学习活动的设计提出了要求。在指标2c中，更进一步发展为“教材包含了一系列高质量的与文本相关的问题和任务，并要求学生在分析单个和多个文本的过程中整合知识和思想”。相较于前一指标，这一指标突出了教材在群文阅读学习活动设计上的要求，要求层次更高。这些评价指标凸出教材在应用、验证和实践知识方面的评价，有利于从教材设计方面助力降低学生形成“惰性知识”[12]的可能性，为促进学生素养的形成提供重要支持。#p#分页标题#e#

“关卡3”主要从教材设计支持师生发展角度落实可用性问题。即追问教材的设计是否考虑到有效的课程结构和节奏；是否支持教师对《共同核心州立标准》的学习和理解；是否为教师提供了收集学生持续进步证据的工具；是否提供满足不同学习者需求的策略；是否支持利用技术或电子教材促进学生学习。该关卡不区分维度，共有22条指标。就评价指标涉及的内容来看，其一，关注教材中视觉元素设计对学生素养发展的支持。如评价指标提出“视觉设计(无论是印刷的还是数字媒介的)并不会让人分心或混乱，而是支持学生思考这个主题”，其意在强调以插图为代表的视觉要素在发挥既有装饰性功能的前提下，同时还要突出其在实用性功能方面的作用，引导学生在文本语言与视像语言构成的多模态文本之间展开对话性学习，“以使我们对世界认识变得更有意义，更加清晰”，最终获得一种“理解人类与自我、人类与世界、人类与他人的新视角”。[13]其二，关注教师用书设计对促进教师发展的支持。如评价指标要求教师用书要么“包含大量有用的注释和建议，说明相关内容如何在学生用书和辅助材料中呈现”；要么“包含完整的成人层次(adult level)的解释和更先进的读写技能概念的例子，以便教师可以在必要时提升学科知识”；要么“包括对该学习项目所用教学方法的解释和基于研究的策略的确认”。这些指标使我们看到教材的设计不单要在学生用书上下功夫，而且还要在教师用书上用心。既要加强教师用书对教师教学的辅助作用，使其成为影响教师学科教学知识发展的重要媒介，更要为教师的教学设计提供丰富、合宜的理论依据，实现教师教学理论素养的提升。其三，通过设立电子教材评价指标，引导合理发展。如评价指标提出，“数字教材(包括作为教材补充或作为数字课程的一部分)是基于web的，兼容多种Internet浏览器(如Internet Explorer、Firefox、谷歌Chrome等)，‘平台中立’(即与Windows和Apple等多种操作系统兼容，并且不专属于任何单一平台)，遵循通用编程风格，允许在平板电脑和移动设备上使用”。该指标以开放的姿态对电子教材在多种操作平台上的使用提出了要求，既拓展了电子教材的适用覆盖面，也避免了一家独大造成市场垄断。又如，要求“电子教材要支持学生有效地利用技术来加强学习，并在适当的时候提请他们注意证据和文本”。在科学技术驱动下的课堂教学中如何最大成效地促进学生的学习是电子教材时代我们所面临的一个新的问题，目前虽没有满意的答案，但先行设立评价指标，通过回冲效应(backwash effect)引导各出版商在这一方面加大研发投入，促进实践的快速发展未尝不是一种可行之法。

三、教材评价方法的选用：强调以严格规范的程序开展“基于证据”的教材评价

(一)明确评价实施程序，提升评价过程的规范性

教材评价是一个复杂的过程，可以多种不同的方式进行。但近年来学者们普遍认识到严格、规范的评价程序是教材评价标准建设的重要组成部分。那种评价小组中各自为政的评价方法和完全凭主观印象进行的“30秒评估”[14]等都给评价结果的可靠性带来了巨大的隐患。为保证评价过程的科学和规范，《优质教材工具》在评价文件中明确规定了教材评价的实施程序。

《优质教材工具》将评价的程序分为四步，其中第二步和第三步是依据前文提到的三个“关卡”对教材进行评价。具体实施程序如下。

第一步，回顾每个关卡的指标。教材评价人员在评价工作开始前先要阅读教材评价标准文件，并接受一定时长的培训，以尽可能提高对评价指标理解的一致性，保证评价工作的顺利开展。

第二步，依据指标对被评价教材打分。《优质教材工具》对大部分指标提供了三个可供选择的分值，由评价者根据其对被教材的评判给出分数。但各指标的三个备选分值不尽相同，如关卡1中“文本复杂性和质量”维度下有六个指标，前四个指标的备选分值是0分、2分和4分，后两个指标的备选分值为0分、1分和2分。我们认为，不同的备选分值体现了教材评价标准研制者对“哪些教材特性需要给予更多关注”[15]的预设，将教材评价标准中重要的组成要素之一——“权重”系数隐藏在了其中。而前文提到的“电子教材支持有效地利用技术来加强学生的学习，并在适当的时候提请注意证据和文本”等评价指标仅作为考察项目，没有提供备选分值，不计算得分。其可能原因是目前美国尚未就纸质教材是否要配套电子教材做出强制性规定；且不同出版商电子教材开发水平上也还有很大差距。故在目前形势下，强行将电子教材纳入评分项目，势必影响评价结果的公平性和信效度。#p#分页标题#e#

第三步，确定各关卡的得分和结果。评价时，每一关卡打分后，都先要对该关卡中各项指标得分进行统计，然后决定是否进行后续关卡的评价。如果第一关卡的得分符合“达到预期”(Meets expectations)或“部分达到预期”(Partially meets expectations)的分数要求，则进入第二关卡的评价，若得分在“未达到预期”(Does not meet expectations)的分数区间内，则终止评价；但在第二关卡，只有得分符合“达到预期”的分数要求，才能进入第三关卡的评价，其余得分情况均意味着终止评价。

第四步，确定教材的最终评价结果。实际评价过程中，步骤二和步骤三之间有着一轮到三轮的循环过程，以完成对被评价教材的评定。完成上述程序后，最终依据各关卡的评价结果对教材做出最终的评判。只有完成三个关卡评价的教材才被认为是“达到预期”的优质教材。

与大多数教材评价标准不同的是，《优质教材工具》不仅统计被评价教材的最终得分，而且还把每一个关卡的得分纳入评价体系，将其作为判定教材合格与否的重要依据。该做法是对一些批评意见提出的在教材评价中单一的总分无法准确反映被评价教材的水平，存在“忽视细节”的弊端而做出的回应。[16]这种既关注结果，又关注“过程”的评价方法值得我们借鉴。

(二)提供证据指南，形成基于证据的评价

“评价清单”作为目前教材评价活动中普遍采用的方法，虽具有成本效益，能为评价者提供较为全面的评价指导，但一些学者敏锐地指出，现有的多数评价清单由于没有向使用者提供使用指导，带来了使用中的诸多困惑。鉴于此，他们提出，“使用指南是评价清单的一个重要的质量特性”，它不仅可以帮助评价者全面、深入的了解教材评价标准(工具)的特点，而且可以协助评价者之间协同工作，降低评价的主观性。[17]

《优质教材工具》在以评价清单的形式为评价者提供评价工具之时，积极吸取有关学者的意见，配套提供了《证据指南》(Evidence Guides)[18]。《证据指南》中对每一条评价指标分别从“指标的目的”“相关研究或《共同核心州立标准》的规定”“证据的收集”“团队讨论”和“分数”等方面对评价人员使用该标准开展教材评价工作给予指导。“指标的目的”主要是对某条评价指标意图的解释；“相关研究或《共同核心州立标准》的规定”是对已有研究成果或课程标准中有关规定的引用，以体现教材评价是“基于课程标准”的；“证据的收集”为教材评价者提供了依据某条指标对教材进行评价时收集证据的方法；“团队讨论”为评价者提供了用于“自我反思”和“组内讨论”的问题，帮助评价人员更准确的领会有关指标的意图，顺利开展工作。如指标2a，“文本围绕一个或多个话题进行组织，以培养学生独立阅读和理解复杂文本的能力”。在《证据指南》中为评价者提供的收集证据的方法就包括评价者通过“查看教材中的所有文本”“统计学生需要阅读文本的数量”或通过“回顾研究项目并完成建议阅读的任务”、分析教材中某一主题是“如何组织阅读和任务”等方式形成被评价教材是否达到指标要求的证据。“团队讨论”部分还提出了教材中“文本的顺序是否有助于支持学生达到《共同核心州立标准》中第10条的要求”“是否有充分的机会(让学生)有独立进行文本阅读的实践机会”“是否提供脚手架以帮助学生熟练掌握”等问题，既可引导评价者在评价中自我追问，也可在评价人员间展开讨论，形成结论。

通过《证据指南》，不仅便于评价人员理解《优质教材工具》的设计意图，而且形成了一种“基于证据”的教材评价方法，其在一定程度上提升了教材评价的可靠性，使得教材评价的“内部可靠性”和“评价者间可靠性”在一定程度上得到了提升；同时，《优质教材工具》能明确各评价指标的可能证据来源，本身就说明该教材评价标准是基于大量实证研究而形成的产品，具有较高的参考价值。#p#分页标题#e#

四、教材评价结果的发布：采用以图文结合的方式全面展示评价结果，并公开接受社会质询

长期以来，教材评价的结果多以“合格名单”的形式发布，对出版商而言无法起到“以评促建”的作用；对教师和学生等使用者而言，无法为其选择教材提供可资参考的实质性建议。近年来，国际上的一些研究者建议教材评价结果以图形方式展示，[19]认为这样不仅可以更为直观的比较多个版本教材，而且可以反映出现实的教材与理想的教材之间的差距。[20]《优质教材工具》吸纳相关研究经验和建议，对评价结果的发布和后续影响的关注都做了创新。

首先，《优质教材工具》在报告评价结果时，不仅对被评价教材在每一评价指标上的得分进行汇报，同时还包括翔实的评价意见，解释被评价教材获得该分数的理由。如由麦格劳-希尔教育公司出版的《奇迹·阅读》(Wonders·Reading)第六册，在关卡2的得分只有22分(满分32分)，认定为“部分满足预期”，被终止进行后续评价。在结果报告中，给出的理由之一是该册教材中“一些主题/话题确实促进了学生知识的增长，但是没有给予学生足够的时间理解和熟练运用这些新的知识”。支持上述理由的“证据”之一是，该教材虽对一周的教学计划做出了详细的安排，但在需要灵活安排教学或改变教学进度(timeline)等方面给予教师的支持并不足够，且列举了教材中多个单元的例子加以佐证。[21]就目前来看，《优质教材工具》给出的评价结果报告是较为详细的。通过该报告，不仅可以反映被评价教材的得分依据、评价人员对教材的认识水平，而且还能为教材出版商修订教材，教材使用者选择合宜教材提供参考意见。

其次，《优质教材工具》不仅发布文字报告，而且还采用图示方式报告评价结果。在评价结果报告中以数字和坐标轴的形式展现各册教材在每一个关卡的得分。虽然这里的评价结果图形展示与学者们的期待相比还显得较为简单，但在“当代文化正在变成一种视觉文化”，面对“现代生活发生在荧屏上”的时代风貌[22]，我们认识、表征世界与自我的方式更多的倾注于图像的时代，《优质教材工具》通过图形展示评价结果的方式，不仅利于更好的展示评价结果、便于用户理解；而且以用户友好的形式呈现，能够吸引更多的潜在用户关注他们的评价结果，扩大其影响。

再次，《优质教材工具》高度关注评价结果发布后的社会影响，特别是来自教材出版商的“回应”，并将其发布在评价结果报告的页面，以供进一步研究讨论。如麦格劳-希尔教育公司针对评价报告对《奇迹·阅读》六年级教材给出的不尽如人意、甚至会影响教材销量的评价结果做出了明确的“回应”。教材编写者认为该册教材之所以未通过关卡2，是由于《优质教材工具》中虽有一些评价指标是比较客观的，但另一些指标则具有很强的主观色彩，未能客观的体现该册教材的优势。[23]无独有偶，一些在评价中未获得满意成绩的教材出版商也或多或少的对《优质教材工具》的可靠性提出了质疑，他们的意见集中在《优质教材工具》“关卡”设置机制及对《共同核心州立标准》是否准确理解的问题上。批评者指出，由于一些教材未能通过“关卡2”，所以评价结果是不完整的，不足以反映被评价教材的全貌，有失公平、公正之嫌；另外，《优质教材工具》中的一些指标曲解了《共同核心州立标准》的意图和要求，照此评价下去，将可能带来不良的影响。面对这些质疑，“教育报告组织”予以了正面回应，并对其评价方法和结果报告流程进行了改进。[24]这些质询不仅指出了《优质教材工具》的不足，也警醒我们在研制教材评价标准时既要精益求精，又要广开言路，在接受批判建议中成长。

五、经验与启示

教材是学校教育的重要媒介，不仅传递着人类遗存的知识与方法，而且映照着时代发展的脉络。教材通过“呈现的内容”和“内容的呈现”不仅对学生和教师的发展形成“今日的教材，明日的心灵”[25]般的影响；而且还构筑着人类的“文化记忆”，勾画出未来社会的样貌，是“促进国际理解的教育工具”[26]，正所谓“教材是国家的未来”。[27]近年来，有学者提出理想的教材评价标准应该包括如下内容：#p#分页标题#e#

1.预先制定的数据驱动、理论中立的教材一般特征，这些特征是独立(discrete)且精确(precise)的，是确定某一情境下教材特定标准的首选项；

2.客观、量化的评估制度；

3.提供可进行比较分析的评价方法；

4.记录和报告评价员意见的简易程序；

5.使教材评价标准适应或通过加权方式适应特定教学情况(背景)；

6.可快速、方便地显示每一指标评价的轨迹(trajectory)；

7.通过图形展示理想教材与实际评价结果之间的视觉比较方法。[28]

据此要求审视《优质教材工具》，其在标准的制定、方法的选择、程序的安排、分数的解读和结果的呈现等方面均为我们提供了值得参考的样例和经验；尤其是它在研制之初就以帮助教育工作者确定教材是否与《共同核心州立标准》的主要特征和关键转变相一致为鹄的；[29]旨在为教师、课程开发人员和出版商对高质量教材中应具备哪些内容提供有针对性和策略性的指导；通过强调《共同核心州立标准》中最重要的内容，减少教材与课程标准要求不一致的数量，达到符合课程标准的要求。[30]

《优质教材工具》采用“预测性评价”(predictive evaluation)[31]，未及教材使用后对教师和学生等利益相关群体所产生影响的“回顾性评价”(retrospective evaluation)，这使其在“确保客观、量化的评估的制度”方面有较为明显的不足。教材评价是一项系统、复杂的工程，既需要通过构建“理想的教材应该是个什么样子”的标准引领教材建设，又需要进行不同背景的历时性数据检验，这样才能形成可靠、有效的评价结果，减少在各种理念的“钟摆运动”中造成的损耗，最终改善教材质量，促进学生素养的提升。

我们在研究、借鉴国外教材评价经验时，需要始终意识到教材评价标准具有很强的文化适切性，使用任何一套标准对教材进行评价时，必要考虑哪些效应与特定的使用背景相关。特别是教师和学生的水平、需求、希望、经历和教学环境等都会不同程度地影响教材评价标准的有效性以及各指标的重要性。虽然《优质教材工具》在各指标的备选分数的设置上已赋予了不同的权重，但仍然反映的是教材评价标准研制者眼中的重要性，无法满足使用者文化背景和教育水平多样化的需求。这种对教材评价标准文化背景适切性的关注正在成为国际教材评价研究领域关注的重要问题之一。目前可能的解决之法是在强化评价人员对评估背景敏感性的前提下，通过研制具有普遍适用性的“通用标准”(universal criteria)和针对特定文化背景(包括民族、地域、阶层、学科等)的“局部标准”(local criteria)[32]的方式，形成完备的教材评价标准体系，以满足和促进教材质量提升的吁求。但这又为教材评价标准的研究工作带来了巨大的挑战。凡此种种，是我国教材评价标准建设工作中必然要面对也必须妥善解决的问题。我们希望通过借鉴国外的经验、教训，以推进我国教材评价标准建设的前进。

注释：

①锚定文本是在任何一个年级的教学过程中都可以被用来教学相关阅读技巧和策略等语文知识的一类经典文本。

参考文献：

[1]Eckhardt Fuchs & Annekatrin Bock.The Palgrave Handbook of Textbook Studies[M].New York:Palgrave Macmillan,2018:157.

[2]Jayakaran Mukundan,Reza Hajimohammadi & Vahid Nimehchisalem.Developing an English Language Textbook Evaluation Checklist[J].Contemporary Issues in Education Research,2011(6):21-27.

[3]Edreports.org.Informed Decisions,Improved Materials,Better Outcomes for Students[EB/OL].

https://www.edreports.org/files/EdReports.org_AboutUs_7-2017.pdf.2017-7-1/2018-5-1.

[4]董蓓菲.全景搜索：美国语文课程、教材、教法、评价[M].上海：华东师范大学出版社，2009：65.

[5]Sheldon,L.E.Evaluating ELT Textbooks and Materials[J].Elt Journal,1988(4):237-246.#p#分页标题#e#

[6]National Association of State Textbook Administrators.Common Criteria Framework for the Vetting of Instructional Materials[EB/OL].http://simra.us/MemberaAdd/Submissions/Common_Criteria_for_Vetting_of_Instructional_Materials.pdf.2012-1-5/2018-2-5.

[7]California State Board of Education.English Language Arts/English Language Development Framework for Californai Public Schools Kindergarten through Grade Twelve[EB/OL].https://www.cde.ca.gov/ci/rl/cf/documents/elaeldfwintro.pdf.2015-7-1/2018-8-20.

[8]Edreports.org.Quality Instructional Materials Tool:English Language Arts 3-8 Review Tool[EB/OL].http://storage.googleapis.com/edreports-206618.appspot.com/resources/files/EdReports_ELA_3-8_Review_Tool.pdf.2017-8-15/2018-10-10.

[9]Edreports.org.Instructional Materials Reviews[EB/OL].https://www.edreports.org/impact.2017-8-15/2018-11-29.

[10][16][17][19]Karamoozian,F.M.& Riazi,A.Development of a New Checklist for Evaluating Reading Comprehension Textbooks[J].Online Submission,2008(7):21.

[11]Common Core State Standards Initiative.Key Shifts in English Language Arts[EB/OL].

http://www.corestandards.org/other-resources/key-shifts-in-english-language-arts.2010-3-1/2018-3-5.

[12][英]怀特海.教育的目的[M].靳玉乐，刘富利，译.北京：中国轻工业出版社，2016：2.

[13][德]克里斯托夫·武尔夫.人的图像：想象、表演与文化[M].陈红燕，译.上海：华东师范大学出版社，2018：5-6.

[14][美]塞尔斯·穆尔西亚.英语作为第二语言或外语的教学[M].北京：外语教学与研究出版社，2006：422.

[15]

中国标准化

,M.R.& Dündar,E.Particularised Checklists in Materials Evaluation:Developing Contextually Relevant Criteria for Turkish EFL Classes[J].Journal of Language and Linguistic Studies,2018(3):154-189.

[18]Corestandards.org.ELA 3-8 Evidence Guide[EB/OL].

http://storage.googleapis.com/edreports-206618.appspot.com/resources/files/3-8_ELA_Combined_Evidence_Guides.pdf.2017-8-15/2018-10-20.

[20]Chorrbani,M.R.Quantification and Graphic Representation of EFL Textbook Evaluation Results[J].Theory & Practice in Language Studies,2011(5):511-520

[21]Corestandards.org.McGraw-Hill Education Reading Wonders Sixth Grade[EB/OL].

https://www.edreports.org/ela/reading-wonders/sixth-grade.html.2017-10-11/2018-5-l.

[22][美]丹尼尔·贝尔.资本主义的文化矛盾[M].赵一凡，译.北京：生活·读书·新知三联书店，1989：156.

[23]McGraw-Hill Education.McGraw-Hill Education Response to EdReports Evaluation Wonders Grades 3-6[EB/OL].

https://www.edreports.org/files/series/publisher-response/Reading%20Wonders%20Publisher%20Response.pdf.2018-1-11/2018-5-1.

[24]Liana Heitin Loewus.EdReports Makes Changes to Textbook Review Proces[EB/OL].

http://blogs.edweek.org/edweek/curriculum/2015/06/edreportsmakeschanestotextbook_review_process.html.2015-6-10/2018-11-29.

[25]Chambliss,M.& Calfee,R.Textbooks for Learning:Nurturing Children's Minds[M].Malden,MA:Blackwell,1998.#p#分页标题#e#

[26]Pingel,F.UNESCO Guidebook on Textbook Research and Textbook Revision[EB/OL].http://unesdoc.unesco.org/images/0011/001171/117188E.pdf.2010-3-7/2018-12-2.

[27]Mikk,J.Textbook:Research and Writing[M].Frankfurt:Peter Lang Pub Inc,2000.

[28]Ansary,H.& Babaii,E.Universal Characteristics of EFL/ESL Textbook:A Step towards Systematic Textbook Evaluation[EB/OL].

http://iteslj.org/Articles/Artsary-Textbooks.2012-2-1/2018-7-13.

[29]Achievethecore.A Overview:Toolkit for Evaluating Alignment of Instructional and Assessment Materials to the Common Core State Standards[EB/OL].https://achievethecore.org/content/upload/Materials_Alignment_Toolkit_Overview_June2015.pdf.2015-6-1/2018-5-1.

[30]David Coleman & Susan Pimentel.Revised Publishers' Criteria for the Common Core State Standards in English Language Arts and Literacy,Grades K-2[EB/OL].http://www.corestandards.org/assets/Publiahers_Criteria_for_K-2.pdf.2015-10-16/2018-5-1.

[31]Ellis,R.The Empirical Evaluation of Language Teaching Materials[J].ELT Journal,1997(1):36-42.