内涵所谓难度
难度就是指测验项目的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分的被试不能答对,则该题的难度就大。2
所谓难度(difficulty),是指表示测验项目难易程度的指标。这一概念在能力测验中称为项目的难度水平,而在非能力测验(如人格测验)中,与此相应的指标叫“通俗性”或“流行性”水平,即取自相同总体的样本中,在答案范围里回答项目的人数;其计算方法与难度相同。3
项目难度(item difficulty)是指项目的难易程度。这一概念在能力测验里称为项目的难度水平;而在人格测验里则称为:“通俗性”或“流行性”水平,指被试团体在答案范围里回答项目的程度。两者合为一体,项目难度是指被试反应符合项目答案的程度。4
难度的指标在心理测验中最常用的难度指标以通过率表示,即以受测者答对或者通过每个项目的人数百分比来表示;
P=R/N×100%(P指项目难度,N为全体被测者人数,R为答对或通过该项目的人数)。
P值越大,表示通过的人数越多,项目越容易,则难度越低;P值越小,表示通过人数越少,项目越难,则难度越高。因为P值大小与难度高低成反比,所以也将其称作易度,而将受测者未通过每个项目的人数百分比作为难度的指标。3
难度的相对性一个项目的难度大小,除了与所测的内容本身的难易程度有关外,还与测验的编制技术和被试的知识经验有关。由于表述不清或是因被试没学过,一个本来容易的项目可能会很难。这就是说,测验的难度具有相对性,正因如此,必须进行试测,通过实践来对难度作出检验。2
难度的计算二分法记分的项目1.难度的计算
心理和教育测验的项目多为二分法项目的选择题,即“通过”记1分,“错误”记0分。对这类项目,P值可以直接用P=R/N×100%的公式计算。
当被试人数较多时,计算难度的一个简便方法是根据测验总成绩将被试分成三组:先将受试者依据测验总分的高低次序排列,然后划出人数相等的高分组和低分组,即分数最高的27%被试作为高分组(H),分数最低的27%作为低分组(L),中间46%的被试作为中间组;再分别求出高分组和低分组在每一题目上的通过率,以这两组通过率的平均值作为每一题目的难度。其公式为:
式中,P代表难度,PH和PL分别代表高分组和低分组通过率。此公式还可以转化成:
式中,RH和RL分别代表高分组和低分组通过该题的人数,n代表每个组的人数。
2.选择题难度修正
在选择题中,由于允许猜测,通过率可能因机遇作用而变大。备选答案的数目越少,机遇的作用越大,越不能真实地反映测验的难度。为了平衡备选项目对难度的影响,吉尔福德(Guilford,J P)提出了一个难度的校正公式:
式中,CP为校正后的通过率,P为实际得到的通过率,K为备选项目的数目。
非二分法记分的项目当测验项目为问答题或其他不能用二分法记分的形式时,常常对部分正确的反应也给一定分数。对于这种项目,一般用下面的公式计算难度:
式中,为全体受测者在该题上所得的平均数,Xmax为该题目的满分分数。
等距量表的难度指数以通过率作为难度指标实际上是以顺序量表来表示难度,它仅仅能指出项目难易的相对位置,即题目难度的顺序或相对难度高低,并不能指出各项目之间在难度上差异的大小。较为常用的美国教育测验服务社(ETS)采用的难度指标:
式中,表示常态化等距难度指数;13为平均数,4为标准差,X为常态化Z分数值。值越大,则难度越高;值越小,则难度越低。3
难度对测验的影响影响测验分数分布的形态当P=1时,全体被试都得满分;当P=0时,全体被试都得0分。在这两种极端情况下,全体被试的分数不能有效地形成分数展形,被试之间在知识、能力水平上实际存在的个体差异都被掩盖了。如果是一个择优录取的选拔测验,就失去了选拔的功能。
当P值接近1,测验分数形成负偏态分布,当P接近0,测验分数形成正偏态分布。正负偏态分布都缩小了分数的离散程度。
影响测验的信度题目过难或过易会使测验分数形成正偏态或负偏态分布,与正态分布相比较,分数的离散程度都变小,会导致测验信度降低。
影响测验的鉴别能力常模参照性测验的基本功能在于鉴定个体之间的差异。要鉴别差异,个体之间就要作比较,因此,在测验中被试之间相互配对比较的机会越多,就越有利于准确地鉴别出被试之间在知识和能力水平上的差异。当测验题目的平均难度在0.50左右,被试之间相互比较的机会最多,因而测验的鉴别力最高。5
测验的难度与分数分布整个测验的难度,自然取决于组成测验的各个项目的难度。根据测验总分的分布,可以知道整个测验的难度。如果测验难度适当,则标准化样本的测验分数,应该大致为正态分布。
若测验难度不当,测验分数可能出现两种典型的偏态分布。一种是正偏态分布,分数集中在低端。这表明测验太难,缺乏足够数量的较易项目,本来应该在正态曲线的左端分布范围较大的被试,在这个项目上得零分或接近零分。测验因此不能区分能力水平低端的被试。另一种是负偏态分布,分数集中在高端。这表明测试太易,缺乏足够数量的较难项目。本来应该在正态曲线右端分布范围较大的被试,在这个项目上得满分或接近满分。测验因此不能区分能力水平高端的被试。
测验分数出现偏态分布,应该调整测验的难度。对于正偏态分布,需要减少较难项目而增加较易项目;对于负偏态分布,则需要减少较易项目而增加较难项目。直到测验分数至少大致为正态分布。在这种条件下,大多数被试答对50%左右的项目,测验能够最大限度区分各种能力水平的个体。
如何选取项目难度,这与测验目的有关系。在一般情况下,测验目的是有效区分不同水平之间的被试,项目的平均难度应为0.50左右。
若项目的目的是选优,则项目的平均难度应大致等同于优选率;若测验的目的是选差,项目的平均难度应大致等同于(1-选差率)。个中理由是,我们只需区分接收组和拒绝组,而在接受组或拒绝组内,则无需区分。4
相关的名言1.解决语言演化问题的难度不亚于破解物种演化之谜的难度;语言演化既是一种社会现象,又是一种自然现象,还是人类心智发展和历史文化演变的结果;由于语言的起源与变化有其内在的原因和外界的影响,从而增加了语言演化问题的复杂性。——周海中
2.我希望在心智上可以沟通,至少是一种相互理解,我觉得有难度,但我仍然是有希望的。中国话说“缘分”,这是强求不来的。我见过一些好的婚姻,使双方都得到极大的愉悦,它不是跟事业对立的,我是一个强者,其实更多时候我更像一个家庭妇女。——铁凝