[科普中国]-成就测验- · 科普中国网

成就测验（Achievement Test）就是我们通常所说的考试。成就测验主要是针对特定领域为检测应试者对有关知识和技能的掌握程度而设计的。桑代克被公认为是教育测验的鼻祖。成就测验和智力测验、能力倾向测验具有明显区别。成就测验在教育上的功能分为四种，即反馈、评价、科研和选拔安置。成就测验根据不同分类方式可以分成不同的种类。我们必须根据自己的目的，合理选用不同的成就测验。

概念成就测验（Achievement Test）就是我们通常所说的考试。成就测验主要是针对特定领域为检测应试者对有关知识和技能的掌握程度而设计的1。

考试应用的领域非常广泛，自我国科举首创考试以来，一直沿用至今，并且现在考试已逐步向标准化、客观化发展；但考试更偏重于知识和技能的考察，所以它考察人的素质的全面性程度常常受到质疑。

历史发展1.最迟在汉朝，中国便已经有了非正式的考试制度。公元1370年（明朝初期）笔试成为科举取士的一部分，这可视为成就测验的正式开始。

2.今天在世界各地广泛应用的标准化成就测验发源于美国，始创者是赖斯。另外一个早期的奠基人是爱德华·李·桑代克，并且桑代克被公认为是教育测验的鼻祖。

与其它概念的区别成就测验和智力测验、能力倾向测验的区别：成就测验和智力测验、能力倾向测验的测量对象都是认知性特质。这三种测验都是测量个体从与环境的相互作用经验中发展出来的能力。所以在本质上，它们有相同之处。能力倾向、智力测验所测量的也可以看作一种“成就”。不过，如果从测验的目的、性质及所含盖的经验范围来看，这三种测验仍有某些不同之处，不能相互取代。

就测验的对象而言，三者本质上有重叠之处，无法加以截然区分。大多学者认为成就测验测量的是一些特定的、限定于某一范围的能力和知识，而另两者所测验的则为一般性的、较为广泛的能力。

从功能上看，成就测验也不同于智力、能力倾向测验。后两者的主要功能是预测一个人在未来的教育、训练或工作经验中可能的表现，它们的使用是在教育或训练程序以前，用以反映被试是否有接受某种课程或专业技能训练的能力。成就测验则是评估被试在接受一些教育或训练程序后所获得的学习成果，它的实施发生在教育、训练过程后。在测验的技术品质上，成就测验要注重内容效度，而能力倾向、智力测验则必须有较高的预测效度，否则就失去其基本价值。

功能成就测验主要用于教育领域。概括地说，成就测验在教育上的用途分为四种，即反馈、评价、科研和选拔安置。

1.反馈功能

成就测验的得分可以作为反馈信息，调节教师的教学活动。在某一教学阶段开始前的成就测验，能使教师了解学生对完成本阶段学习任务的智力、知识和技能的准备情况，为修改教育目标和教学计划提供依据。在教学过程中的检查测验，能使教师了解学生对有关知识、技能的掌握情况，诊断出学生的学习困难之所在，以便及时发现教和学中的问题，从而调整教学内容，改进教学方法。在某一教学阶段终了后的总结测验，能使教师了解教育目标是否达到，了解学生综合应用和迁移知识、技能的能力，同时为制定新的教育目标提供依据。图8－2表明了在教学的各个环节中测验的反馈功能。

测验的反馈信息还可促进学生的学习活动。考试结果能使学生明了自己的学习情况，作出自我评价，找出薄弱环节，调整自己的学习方法，并确定新的努力目标；考试的气氛及对分数的正负强化，在一定程度上具有动机激发作用，能引起或满足学生渴望成功、得到社会承认的需要，从而提高学习活动的积极性2。

2.评价功能

成就测验不但可用于评价学生，还可用于评价教师，评价一所学校或一个地区的教学质量；不但可作跨区域的横向比较，还可作跨年代的纵向比较。但我们要注意，在评价时一定要参照许多其他信息，不能单看测验分数。

3.研究工具

测验对教育理论的研究和发展具有重要作用。好的教育体制、教材和教法，要通过教育效果来体现，而教育效果在一定程度上又要通过测验成绩来检查。很多教改实践的效果都要通过一定的成就测验来检验。

4.人才选拔与安置

学绩测验经常用来作为选人的工具，例如各种升学考试、招工考试等；也可用来确定一个人是否达到了从事某项活动所需要的最低熟练水平；还可对人员进行分类，把每个人安置到适当的位置上去。

分类成就测验根据不同分类方式可以分成不同的种类。

1.按反应方式分

成就测验从反应方式上，可分为实作测验和纸笔测验。这与我们前面介绍的概念是一致的。实作测验需要具体操作，如表演体操、调整机器等。纸笔测验又可分为再认式和回忆式两类。再认式题目是把若干学习过的内容，重新呈现在被试面前，让被试辨认或排列组合，如是非题、多选题、匹配题、顺序题等。回忆式题目是所学过的内容不在眼前，要被试回忆，写出一个答案来，如填空题、简答题、论文题等。

2.按编制方法分

从编制方法上可分为标准化成就测验和教师自编测验。标准化成就测验是由专门机构编制的，测验内容和常模样本较为普遍，而教师自编测验通常因教师、课程、班级或教学单元的不同而有所更换，其内容范围和常模样本较为狭窄。

3.从用途上分

从总的用途上看可分为形成性测验和总结性测验。成就测验的传统用途是在学习单元或全部课程结束后实施测验，以测量学生是否已达到教学目标。从技术上讲，这种用途称为总结性评估，它以测验成绩作为最终产物，目的是对学生的学习作一终结性的评价，如好坏、过关还是不过关。另一类是形成性评估，这种评估是把教育过程和评估结合起来，在教学进行过程中测量学生的进步情况。形成性测验是教学活动中的一个有机部分，通过对学习者在学习过程中的表现进行评估，可以指导学生决定是复习还是继续学习下一个单元。

4.按解释分数的方法分

根据解释分数的方法的不同，可分为标准参照测验和常模参照测验。这两种测验前面已经讨论过。在实际应用中，许多成就测验既可以是常模参照测验，也可以是标准参照测验，了解一个人已经学了多少(标准参照测验的功能)和把一个人的成绩与其他人作比较（常模参照测验的功能），有时可以由同一个测验来完成。

5.从测验的功能上分

从测验的功能上可分为检查测验、水平测验、预测性测验、诊断性测验和准备性测验。

（1）检查测验主要用来考察被试对某种知识、技能总的掌握情况，而不是被试所具有的长处和不足。

（2）水平测验是一种标准参照测验，是用来考察学生是否达到某种要求的能力水平的一种测试。它不是用来确定被试在人群中的位置，而是用来对被试达标情况进行判断。这种测验又可称为基本技能最低限度测验。

（3）预测性测验通常用来预测被试未来的学习成就。一般它所包含的题目比相同学科的一般成就测验复杂，在预测今后是否成功方面，其作用与性向测验相类似。预测性测验有阅读测验、算术测验和外语测验等等。

（4）诊断性测验能鉴别被试在学习功课方面的困难。编制这种测验必须把被试在各个学科上的成绩分解成在各种技能上的成绩，再分别设计出测量这些技能的题目。一般成就测验只可用于比较被试在人群中的相对位置，却不知道对具体技能的掌握情况，而诊断性测验可以了解被试在几个基本技能上的优劣，从而提供改进的依据。诊断性测验包括的题目差别很大，施测时间比相同学科检查测验长，有时还要用到特殊仪器，如眼动仪等。在使用时，一般成就测验通常是第一步，它给出被试在各个课程中表现的具体情况，如需要评估被试在特定领域的成就，可以实施单科检查测验，最后如果需要仔细分析个体在阅读、算术等方面的困难及其原因时，可以实施诊断性测验。

（5）准备性测验主要考查学生在一个特定的教育任务上是否做好了准备，其效度由对有关领域的教学做好准备的学生同没有做好准备的学生之间的有效区分决定。

6.从测验的内容范围分

从测验的内容范围上，可分为成套成就测验和单科测验。成套成就测验是包括不同内容范围的一套测验，每个分测验包括某种学科的知识，各分测验得分可互相比较。当然分测验也可以单独使用，但这样做比单科测验的信度和效度低。单科测验包括特殊领域的知识，适合于确定被试在该领域的成就大小。

Ø 选用

各种不同的成就测验，其分类可以是重叠的。例如，单科检查测验既可以是总结性评估式的也可以是形成性评估式的，既可以是标准参照的也可以是常模参照的。我们必须根据自己的目的，合理选用不同的成就测验。

选择标准化成就测验与编制随堂测验的基本原理一样，主要是选择与具体组织、班级、学校或教育系统的教育目标相匹配的内容及难度适宜的测验。在决定所用测验之前，必须先确定被试的知识或能力水平、教学内容和目标、分数的应用方式等，具体来说就是先确定使用测验的目的和实际条件，如你是用来对学生进行评估、安置、诊断学习困难、安排学习计划，还是用来评估教学进展情况。在使用测验前应该认真阅读测验手册，看测验的目的是否符合自己的要求，施测条件是否能满足等3。

确定目的和实际条件后还需要了解测验的信度、效度和常模等情况，这些内容在前面基本理论部分已经介绍过，这里只讨论成就测验特殊的地方。对于成就测验来说，一般信度系数应在0.80～0.90之间，复本信度应比内部一致性信度高。内容效度一般最为重要，但如果是预测性测验，还需要提供预测效度的证据。常模资料也应满足测验的目的。