人机交互中的一个重要问题:认知负荷测量

2018-01-24 · 作者:人机与认知实验室

[导读]在本章中,我们描述了用于测量认知负荷的各种方法,以及它们在过去30年中的发展情况。

【文章作者 Sweller 蔡伟旭译】

150087835523452600.jpg

由于工作记忆负荷对认知负荷理论的重要性,测量这种负荷一直是研究人员的高度优先事项。虽然可以通过预测实验结果证明对理论的有效性的支持,但是另外提供对认知负荷的独立测量是有用的。在本章中,我们描述了用于测量认知负荷的各种方法,以及它们在过去30年中的发展情况。

认知负荷的间接测量

在认知负荷理论的早期,认知负荷不是直接测量的。基于检验问题解决和学习之间的关系的实验结果假设,几种技术用于间接评估认知负荷。

计算模型

对认知负荷理论的初步研究集中在作为学习策略的问题解决的低效率上。假设高问题解决搜索导致比低问题解决搜索更大的工作记忆负荷。在Sweller及其同事在20世纪80年代进行的一系列实验中,证明了需要相当多的问题解决搜索的学习策略导致了较差的学习成果,而不是采用远远少于问题解决搜索的策略。为了解释这些结果,Sweller(1988)认为,因为使用一些问题解决的启发式方法导致了不必要的问题解决搜索,强加了高额外的认知负荷。相比之下,减少问题解决搜索的过程被假定为可以减少认知负荷。

理论表明问题解决搜索确实增加了由计算模型表示的认知负荷。 Sweller(1988)使用生产系统模型来比较高搜索策略和低搜索策略,发现更高的搜索需要更复杂的模型来模拟问题解决过程,对应于在工作记忆中保存和处理更多的信息。类似地,Ayres和Sweller(1990)使用生产系统模型来模拟多步几何问题的问题解决解决方案提供了证据表明高搜索策略比更简单的策略需要更多的工作记忆资源。

计算模型提供的间接证据限制了它们作为认知负荷的指标的使用。然而,在认知负荷理论框架内,计算模型是第一次尝试提供一定程度的独立证据,认知负荷是教学设计中的一个重要因素。他们是认知负荷理论起源的一个重要因素。

获取期间的绩效

在认知负荷理论的这个早期阶段,在获取或学习阶段期间的绩效指标也用于支持观察到的效果的认知负荷解释。由于没有直接的量度,Chandler和Sweller(1991,1992)认为教学时间可以用作度量认知负荷。理论上认为,如果学生被要求使用提高认知负荷的策略学习一个主题,那么认知负荷的这种增加将在学习阶段影响绩效。不仅将通过测试分数指示未来绩效受到影响,而且还将影响获得期间的绩效。早期的研究支持这个论点(见Owen&Sweller,1985; Sweller,Chandler,Tierney,&Cooper,1990; Sweller和Cooper,1985)。还发现在预期的高认知负荷条件下获得期间的错误率更高(参见Owen和Sweller,1985; Sweller&Cooper,1985)。增加的认知负荷可能对学习时间和获取任务的准确性产生负面影响。

问题解决中的错误率

错误率也被用于识别问题中的认知负荷的差异。 Ayres和Sweller(1990)表明,由于在这些点上的高工作记忆负荷,学生经常在特定点处在几何域中的问题求解时产生误差。在后来的研究中,Ayres(2001)证明错误率在需要顺序计算的数学任务上有所不同。高错误率对应于决策处于其最大强度的位置,其中许多变量需要考虑。虽然这两个研究调查问题解决而不是教学程序,他们提供了额外的证据,错误率可用于确定工作记忆的需求。

认知负荷的主观测量

最初,认知负荷的理论考虑被用于预测教学有效性,主要通过认知负荷的间接测量,如错误率和学习时间,如上所述。随着认知负荷理论的发展和更多的教学效果被确定,对认知负荷的更直接测量的需要变得明显。例如,Chandler和Sweller(1991)和Sweller和Chandler(1994)指出了认知负荷直接测量方法的缺乏。 Paas(1992)打破了僵局,他通对认知负荷的主观测量发展提供了重大突破。

心理努力的主观测量

基于由Bratfisch,Borg和Dornic(1972)开发的以前的仪器,Paas(1992)推断学习者能够内省在学习和测试期间投入的心理努力的量,并且这种“努力的强度”可以被认为是认知负荷的“指数”(第429页)。 Paas,Tuovinen,Tabbers和van Gerven(2003)后来将精神努力的定义改进为“认知负荷的方面,认知负荷是指实际分配以适应任务强加的要求的认知能力:因此,它可以被认为反映了实际的认知负荷“(第64页)。

使用从非常非常低的心理努力(1)到非常非常高的心理努力(9)的9点Likert量表,要求学习者在学习和测试周期中的各个点评估他们的心理努力。 Paas(1992)比较了假设提高或降低认知负荷的教学程序,发现自我评估的心理努力和测试表现之间的匹配。执行低认知负荷的教学设计的学习者具有优越的学习结果,并且将其心理努力评价低于被假执行高认知负荷的设计的学生。

Paas和vanMerriënboer(1994)的后续研究再次证明了Paas的研究结果(1992)。此外,Paas和vanMerriënboer(1994)也通过心率的光谱分析收集生理测量数据。然而,与自评量表相反,生理测量不能检测治疗组之间的差异,并且只能区分精神上无活性和活动期。表明主观评分比生理测量更敏感和干扰更少。而且9分制量表是高度可靠的(参见Paas,vanMerri?nboer,&Adam,1994)。

难度的主观测量

这些早期试验的主观测量的成功导致其他人采用主观尺度作为认知负荷的量度。然而,许多研究者要求学生评价他们发现学习任务有多困难或容易,而不是使用术语心理努力。例如,在一系列实验中,Marcus,Cooper和Sweller(1996)证明,主观的困难度量根据任务的元素交互水平而显著变化。此外,Ayres(2006a)发现,主观难度测量可以检测任务中元素交互性的变化。

无论所使用的措辞(精神努力或困难程度),简单的主观评定量表,或许令人惊讶地被证明是可用于区分由不同教学过程施加的认知负荷的最敏感的量度。它已广泛用于确定第IV部分中讨论的各种教学程序施加的相对认知负荷。 Paas等人(2003b)记录了超过25项使用1992年和2002年之间的认知负荷的主观测量的研究。从那以后有了更多的研究。

主观评分的变化

Van Gog和Paas(2008)指出,心理努力和困难程度可能是不同的结构在考虑后果时。一些初步研究调查两种尺度之间的差异支持这种观点(Ayres&Youssef,2008)。问一个学生他或她找到一个任务有多难,这与询问完成任务花费了多少精力不同。虽然这两个措施经常相关,但困难程度并不总是与努力程度匹配。例如,非常困难的问题可能对一些学习者要求过多以至于他们不能做出任何实际的努力。

除了测量的潜在差异,van Gog和Paas(2008)还确定了收集心理评定作为进一步变化的时间。 Paas和vanMerri?nboer(1994)使用了学习者解决测试问题后收集的心理努力措施。相比之下,许多其他研究人员在采集(教学)阶段完成后收集了数据。这两种策略不一定是可比的,并且可能产生不同的结果。在讨论效率措施时,将讨论这些一些差异。

主观测量的一致性

尽管有这些不同的程序,但是在通过认知负荷理论(也参见Moreno,2004; vanMerri?nboer,Schuurman,De Croock,&Paas,2002)预测的匹配绩效数据中,困难程度或精神努力的主观测量具有很少的差异或矛盾。然而,在一些研究中,尽管在绩效测试中存在组间差异,但在主观测量之间没有发现统计学上的显著差异(参见Cuevas,Fiore,&Oser,2002; Hummel,Paas,&Koper,2004; Kester,Kirschner, Merri?nboer,2005)。还有一些研究,其中基于主观测量存在认知负荷差异,但是对绩效测试没有组治疗效应(Homer,Plass,&Blake,2008; Van Gerven,Paas,vanMerri?nboer,Hendriks,&Schmidt,2003)。在Kalyuga,Chandler和Sweller(2004)中,三个实验中的每一个产生不同的结果:认知负荷差异,没有测试效应;认知负荷差异和相应的测试效应;没有认知负荷差异,但具有测试效果。可行的是,在一些特定的条件和材料下,不会发生预期的匹配。当然,当考虑任何统计上确定的效果时,不可避免地会存在匹配的失败。主观评级量表和测试绩效之间的相关性不够完美。尽管偶尔存在不一致,主观测量产生了深刻的影响,并且为提供证据支持认知负荷理论提供了有用的工具。

效率测量

基于Paas(1992)的自我评价量表,Paas和vanMerri?nboer(1993)开发了一种效率测量,其将精神努力与任务绩效指标相结合。 Paas和vanMerri?nboer认为,考虑学习的认知成本是很重要的。即使两种不同的教学方法可能产生相同的学习成果,但是实现这些水平的绩效的努力是一个重要的考虑。如果一个教学策略产生与另一个策略相同的绩效,但是所花费的认知资源较少,则该第一策略更有效。效率(E)使用下式计算:

微信图片_20180124174450.jpg

其中ZPtest表示标准化(Z分数)测试分数,ZEtest表示在测试期后收集的标准化心理努力分数。该公式基于从点到线(在这种情况下为y = x)的垂直距离的数学计算。效率差异可以通过简单的图形表示来描述(见图6.1)。当绩效和精神努力的Z分数相等时,E的值为零,如图1所示。 6.1由对角线(y = x)表示。该线上的所有点等于E = 0,而线上方的点(E> 0)表示有效学习并且指向低于线(E <0)的无效学习。 Paas等人(2003b)进一步解释说,高教学效率是由于高的任务绩效和低的心理努力(图中的区域H),而低的教学效率来自低的任务绩效和高的心理努力(图中的区域L)。

在对效率测量的回顾中,van Gog和Paas(2008)记录了在1993-2007年期间,超过30个认知负荷理论相关的研究使用了效率测量。然而,如上所述,van Gog和Paas(2008)也指出,收集精神评级的方式有所不同,这些变化影响效率测量,因为精神评级是效率公式的组成部分。 Van Gog和Paas认为,这些不同的方法测量了不同类型的效率。使用在测试绩效之后收集的心理努力评级,测量获取认知结构(如模式)的学习后果,而使用采集后测量,指示培训效率。

微信图片_20180124174455.jpg

我们同意,学习效率可能是一个良好的图式获取和自动化的指示器。 如果学习者已经获得了新的图式,并且可以用更少的努力使用它们,则图式获取可以被认为是鲁棒的,即使教学方法更苛刻。 然而,教学效率具有重要作用,因为它显示了学习过程的有效性,这是第四部分讨论的认知负荷影响的关键考虑。 知道遵循教学设计是多么困难或容易是认知负荷理论的关键。 尽管在方法上有这些差异,但是在测试中计算训练效率和使用学习信息的效率是重要的,并且可以提供与教学设计相关的重要信息。

计算效率的问题

尽管其广泛使用,Hoffman和Schraw(2010)已经确定了与教学效率计算相关的一些问题。在效率评价中,因为它基于绩效和努力的标准化分数之间的差异(差异),Hoffman和Schraw将Paas和vanMerri?nboer的原始模型归类为偏差模型。他们认为,很难解释减去两个概念上彼此不同的变量的意义。他们指出,它类似于减去个人智力和体重的z分数。可能很难知道得到的分数究竟是什么。

Hoffman和Schraw还指出,由于z分数是标准参考的,因此效率测量只能基于组间数据,因此不能用于比较个体效率。另一方面,他们还建议,如果比较整体的差异,则比较个体效率的问题不是问题。如第四部分所示,在认知负荷理论的大部分下进行的大多数研究完全侧重于整体群体差异,因此个体比较并不是一个问题。作为偏差模型的替代,Hoffman和Schraw描述了两种其他方法的优点(1)基于绩效和主观评级的比率的可能性模型(例如,Kalyuga和Sweller,2005; Kalyuga,2008b;更多细节见第13章)和(2)基于概率比的条件似然模型。

Hoffman和Schraw并不贬低偏差模型,他们认为不同的模型适合不同的研究目标。如果目的是调查绩效和努力得分排名之间的差异,那么Paas和vanMerri?nboer的偏差模型具有优点。然而,基于Hoffman和Schraw分析,绩效和主观评级(似然模型)的比率计算非常简单,并且可以用于确定单独的效率测量。这些个体测量可以容易地组合以提供在比较整体处理效果时必不可少的组效率。我们期望未来的研究更好地利用似然模型。

通过辅助任务衡量认知负荷

上述主观测量是用于测量认知负荷的最常用的工具。然而,评估工作记忆负荷的传统方法是结合主任务(双任务方法)使用辅助任务(参见Britton&Tesser,1982; Kerr,1973)进行测量。第二个任务要求学习者进行额外的认知活动,这是辅助学习或解决问题的主要任务。例如,学习者可能被要求以特定方式响应作为辅助任务的特定声音以及学习如何解决一类数学问题作为主要任务,如果主任务施加了沉重的认知负荷,则辅助任务的绩效降低。相比之下,主任务上较低的认知负荷可导致辅助任务的绩效提高。

通常,辅助任务是非常不同的,并且比主任务需要更少的工作记忆资源;然而,Sweller(1988)创造了这种格式的替代品。 Sweller认为,要求学生通过解决问题涉及两个过程:(1)解决问题,主要任务和(2)从经验中学习,辅助任务。换句话说,当学习者把解决问题作为主要任务时,这可能会干扰学生的问题,学生将其视为辅助任务。问题越复杂,对它的了解越少。基于特定第二任务的经验证据,包括记住公司和前述问题的解决方案支持这个论点。旨在减少与解决问题相关联的认知负荷的教学过程增加了关于先前问题的信息量。

在更传统的使用辅助任务中,Marcus等人(1996)研究了元素交互性,特别是与仅作为文本呈现的相同信息相比,图如何可以减少元素交互性。在这项研究中,使用了两种类型的辅助任务,学习情节构成每种情况下的主要任务。在一个实验中,辅助任务正在识别在学习情节期间随机呈现的音调。听到这个声音,学习者不得不通过按下脚踏板来响应。响应时间被用来衡量如何认知地要求主要任务,指示认知负荷。在第二个实验中,辅助任务是记住在学习期间呈现的两位数字。在这种情况下,使用二次任务的回忆的准确性作为认知负荷的测量。对于这两种类型的次要测量,发现匹配学习成果的显著结果。使用图表和低元素互动材料导致更好的学习成果和更强的二次任务绩效。因此,支持认知负荷解释。

Chandler和Sweller(1996)也采用了双重任务的方法来表明,第二个任务,回忆一封信,受到教学模式的影响。对于这个辅助任务,两个单独的字母,由音调提示,在采集期间在计算机屏幕上分开8秒。学生需要记住第一封信,同时记住第二封信。结果表明,意在减少认知负荷的优越学习策略导致在辅助任务的更高的分数。此外,在学习材料元素交互性高的时候,仅发现教学策略和次要测量的显著差异。对于低元素互动性的材料,更多的工作记忆资源可用于克服无效的学习策略,因此辅助任务的绩效不受影响。关于问题解决任务,与学习任务相反,Halford,Maybery和Bain(1986)和Ayres(2001)使用辅助任务方法证明了高元素交互性与相应高的工作记忆负荷相关联。

通常,辅助任务是非常不同的,并且比主任务需要更少的工作记忆资源;然而,Sweller(1988)创造了这种格式的替代品。 Sweller认为,要求学生通过解决问题涉及两个过程:(1)解决问题,主要任务和(2)从经验中学习,辅助任务。换句话说,当学习者把解决问题作为主要任务时,这可能会干扰学生的问题,学生将其视为辅助任务。问题越复杂,对它的了解越少。基于特定第二任务的经验证据,包括记住公司和前述问题的解决方案支持这个论点。旨在减少与解决问题相关联的认知负荷的教学过程增加了关于先前问题的信息量。

在更传统的使用辅助任务中,Marcus等人(1996)研究了元素交互性,特别是与仅作为文本呈现的相同信息相比,图如何可以减少元素交互性。在这项研究中,使用了两种类型的辅助任务,学习情节构成每种情况下的主要任务。在一个实验中,辅助任务正在识别在学习情节期间随机呈现的音调。听到这个声音,学习者不得不通过按下脚踏板来响应。响应时间被用来衡量如何认知地要求主要任务,指示认知负荷。在第二个实验中,辅助任务是记住在学习期间呈现的两位数字。在这种情况下,使用二次任务的回忆的准确性作为认知负荷的测量。对于这两种类型的次要测量,发现匹配学习成果的显著结果。使用图表和低元素互动材料导致更好的学习成果和更强的二次任务绩效。因此,支持认知负荷解释。

Chandler和Sweller(1996)也采用了双重任务的方法来表明,第二个任务,回忆一封信,受到教学模式的影响。对于这个辅助任务,两个单独的字母,由音调提示,在采集期间在计算机屏幕上分开8秒。学生需要记住第一封信,同时记住第二封信。结果表明,意在减少认知负荷的优越学习策略导致在辅助任务的更高的分数。此外,在学习材料元素交互性高的时候,仅发现教学策略和次要测量的显著差异。对于低元素互动性的材料,更多的工作记忆资源可用于克服无效的学习策略,因此辅助任务的绩效不受影响。关于问题解决任务,与学习任务相反,Halford,Maybery和Bain(1986)和Ayres(2001)使用辅助任务方法证明了高元素交互性与相应高的工作记忆负荷相关联。

然而,使用辅助任务更有优势。主要优点是他们可以在任务期间提供几乎连续的认知负荷测量,而主观测量法仅指示任务完成后的总认知负荷。在下一节讨论,将介绍生理测量,它可以提供更准确的测量瞬时认知负荷。

据我们所知,尚未使用辅助任务计算测量效率。没有理由不计算。Hoffman和Schraw(2010)讨论的所有效率衡量标准,一旦认知负荷值标准建立,就可以使用辅助任务像使用主观评级一样来轻松计算。

认知负荷的生理测量

Paas和vanMerri?nboer(1994)比较了主观测量与心率的频谱分析,得出结论,主观测量显示更多的潜力。在随后的十年中,认知负荷理论研究人员进行了很少的随访生理研究。然而,在最近的时期,人们对这些措施的重新出现了兴趣。认知突起反应是已经测试的一种策略。 Van Gerven,Paas,vanMerri?nboer和Schmidt(2004)引用Kahneman和Beatty的工作(1966),认为瞳孔大小可能与记忆负荷有关。使用需要工作记忆负荷有差异的一系列任务,发现对于瞳孔扩张根据增加的工作记忆水平的增加而增加。然而,还发现突起反应策略可能具有年龄限制,因为老年参与者没有在一些认知任务上显示这种相关性。

评论者提倡使用诸如功能磁共振成像(fMRI,参见Paas,Ayres,&Pachman,2008; Whelan,2007)和脑电图(EEG,参见Antonenko,Paas,Grabner&van Gog,2010)来测量认知负荷,这种提议与更复杂的技术的发展相吻合。生理测量方法可能有相当大的优点的证据已经开始出现。例如,Antonenko和Niederhauser(2010)在一项研究超文本学习的研究中使用了主观测量法和脑电图测量。使用心理努力量表作为主观测量法量表,并且EEG捕获α,β和θ脑波节律。绩效分数表明,使用超文本引线(引入文本链接节点在一起)导致比使用没有引线的超文本具有更好的学习成果。虽然没有心理努力测量没有发现组间差异,使用彩虹文本引线的组alpha,beta和theta测量值显著较低。结论是超文本导致认知负荷降低,但只有EEG测量足够敏感以显示这种差异。在讨论主观方法的失败时,Antonenko和Niederhauser认为EEG方法的一个优点是它反映了各种类型的负荷,如瞬时,峰值,平均,累积以及总体负荷,而主观测量可以仅测量总负荷。(关于认知负荷的时间方面的更多信息,参见Xie&Salvendy,2000)

Van Gog,Rikers和Ayres(2008)也讨论了认知负荷瞬时测量的优点。 Van Gog 等。区分在在线方法(诸如在学习和测试期间可以收集的眼睛跟踪和心率监视)和离线数据(例如仅在活动完成之后可以在不中断任务的情况下集主观测量)。在过去几年中,对认知负荷理论和多媒体教学环境的研究使用眼动跟踪来进一步了解认知过程(见van Gog&Scheiter,2010)。一些证据也已经出现,眼睛跟踪可以用于测量认知负荷的波动。 Underwood,Jebbert和Roberts(2004)发现,文本和图片的不同组合需要不同水平的认知处理,这与眼睛注视的相应变化相匹配。总的来说,有人认为,眼睛长时间的注视反映更多的认知处理。因此,眼睛跟踪数据具有显著的优点,因为它不仅指示学习者聚焦注意的位置,而且指示多久,因此意味着认知负荷的相应变化。

另一个显示出潜力的在线策略是使用语言复杂性的指标。虽然本质上不是生理的,但语言复杂性具有生理学措施的许多特征,包括在学习和测试任务的同时在线使用的能力。 Khawaja,Chen和Marcus(2010)认为随着任务难度的增加,词汇密度降低。这种效果在一个有丛林火灾事故管理团队的研究中得到了证明。随着丛林火灾任务变得更具挑战性,包括意外事件的发生,操作团队的语音模式改变,根据任务复杂性变得不那么密集。因此,语言复杂性的度量可能是另一个有用的在线的认知负荷的指标。

在不祥的开始之后,可替代主观测量的认知负荷测量指标(如生理指标)正在获得相当大关注。一些技术是有希望的,但是确定当前的研究重点是否会产生可靠的结果还为时过早。在过去,生理测量已被证明不足以表明认知负荷理论使用的教学设计的所产生的认知负荷差异。目前试图找到足够敏感的生理测量是否能够成功仍有待观察。

测量不同类型的认知负荷

在识别不同类别的认知负荷之后(参见Sweller,vanMerri?nboer,&Paas,1998),基于认知负荷的理论预测变得更加复杂。不是仅仅使用总认知负荷来论证为什么教学设计会或不会有效,研究人员开始在制定他们的假设时区分认知负荷的类别。因此,在过去十年中,对不同类型的认知负荷的单独测量引起广大关注。

理论上,假设内在和外在认知负荷增加了总的认知负荷,通过实验方法区分内在和外在认知负荷是一件简单的事情。在教学实验中,如果内在认知负荷保持恒定,但外来认知负荷在教学条件之间变化,则主观评定量表所指示的认知负荷测量的任何差异必定是外在认知负荷的引起的。类似地,通过保持外在认知负荷恒定和不同的内在认知负荷,任何测量的差异即是内在认知负荷的差异。 Ayres(2006a)在第一次测量内在认知负荷的尝试中使用了这个逻辑。

使用问题解决任务Ayres(2006a)要求学生完成一系列需要连续计算的代数问题。由于学生以前没有提供任何额外的指导已经接受这些任务的教学,Ayres推理说,由于教学因素的外在认知负荷是不变的。在以前的研究中,Ayres(2001)发现,学生根据计算的位置展示具体的错误概况。一些计算在元素交互性上比其他计算更高,导致在那些点的错误率更大。在Ayres(2006a)的研究中,当学生完成每个问题时,他们被要求评估他们如何容易或困难地发现每个计算。结果表明难度等级和错误模式之间的一致匹配。通过他们的主观评级,学生实际上能够识别问题内的元素交互性(内在认知负荷)的显著差异。他还发现,具有更多领域特定知识的学生比知识较少的学生能够更好地通过其评级来识别内在负荷的差异。最有可能的情况是专业知识使学生更深入地反映每个计算中涉及的内部过程和负荷等级而得到更准确地结果。即使具有高水平的领域专业知识的学生几乎没有错误,他们仍然能够区分元素交互水平。在这项研究中,没有尝试提供不同类别的认知负荷的单独测量。相反,外在认知负荷保持恒定,因此负荷的任何差异可以被认为是由于内在负荷引起的。

DeLeeuw和Mayer(2008)使用了一种混合的方法,包括主观测量和辅助任务,以调查不同的仪器是否可以分别测量内在的,外在的和相关认知负荷。 DeLeeuw和Mayer认为内在认知负荷可以通过增加多媒体课程和外在负荷中的解释性句子的数量,通过改变由相同的口头和书面文本组成的冗余材料来操纵。对转移任务的绩效被认为是对相关认知负荷的衡量。采集了三个测量认知负荷的指标:对辅助任务(在课程期间的颜色的背景变化)的响应时间,在课程期间采集的主观心理努力评级和在课程之后得到的主观难度评级。在两个实验中,发现辅助任务对冗余操作(外部负荷)最敏感,心理努力评级对句子复杂性(内在负荷)的变化最敏感,并且难度评级对转移成功的差异最敏感。在转移测试中获得高分的学生被假定投入更多的精力投入,而那些得分低的学生投入不够。

这些结果表明,不同的测量方法可以利用不同的过程和显示不同的敏感性。然而,可能有一些疑问,使用的三种方法是否可以区分不同类型的认知负荷。不清楚的是为什么辅助任务应该对外在认知负荷比心理努力评级更敏感,或者为什么心理努力评级应该对内在认知负荷特别敏感。此外,我们怀疑转移绩效是否必然是相关负荷的量度。此外,需要注意的是,根据当前的公式,相关认知负荷仅仅是由内在元素相互作用施加的负荷量的反映,因此不独立地贡献总负荷。然而,有趣的是,这些不同的测量方法根据操纵的性质产生不同的结果。很少有其他研究(其他实例参见Cierniak,Scheiter,&Gerjets,2009b; van Gerven等,2003)在同一研究中同时使用了主观评级和认知负荷的辅助任务测量。

在试图测量认知负荷的不同方面,一些研究者已经受到称为NASA任务负荷指数(NASA-TLX,Hart&Staveland,1988)的多维尺度的影响。 NASA-TLX包括六个子量表,用于衡量与完成任务相关的不同因素:(1)精神需求(需要多少精神和知觉活动),(2)身体需求(需要多少体力活动?)(3)时间要求(具有多大的时间压力),(4)绩效(你认为你在实现实验任务设定的目标上有多成功?)(5)努力(你在完成任务期间付出的精神上的和身体上的努力程度)和(6)挫折水平(任务期间感觉到的不安全,沮丧,激怒,压力与安全,内容和放松程度)。通过组合六个子量表来实现心理负荷的总体测量。

在最近对其使用的反思中,Hart(2006)指出,NASA-TLX量表主要用于侧重于接口设计和评估的研究,包括自动化和决策辅助设备的影响。此外,与航空使用的原始设计一致,许多研究集中在空中交通管制和其他航空活动。相比之下,认知负荷理论研究者集中在学习环境,并经常通过选择仅仅一些子量表,以及改变项目的措辞来修改测试工具。为了测量不同的认知负荷类别,Gerjets,Scheiter和Catrambone(2006)从NASA-TLX中选择了三个项目(参见Gerjets,Scheiter,&Catrambone,2004)。他们是“任务要求”(完成学习任务需要多少精神和体力活动),“努力”(参与者如何努力工作来理解学习环境的内容)和“操纵需求”参与者必须投入很多精力来操纵学习环境)。                 Gerjets 等人(2006)认为,这些项目中的每一个可以分别对应于内在的,相关的和外在的负荷。来自操作实例的复杂性的研究的结果表明,与测试绩效数据有广泛的一致性。换句话说,具有最高学习成果的团体报告最低的认知负荷。然而,没有相关证据表明三种测量对应于所提出的不同类型的认知负荷。

在研究认知负荷的测量方法的更多差异中,还存在将项目的措辞与不同类型的负荷所表示的概念相一致的趋势。例如Cierniak 等(2009b,第318页)使用了诸如“你的学习内容有多难?你在学习材料有多难?你在学习中集中了多少?“措辞的选择是为了将”学习内容“与内在负荷联系起来,并将”与材料的学习“与外部负荷联系起来。有人认为,集中反映了对学习相关过程的关注,因此代表了相关负荷。在这项研究中,发现认知负荷测量和绩效数据之间的显著匹配。

然而,有时测试绩效和认知负荷测量之间的匹配与理论预测不一致。 Gerjets,Scheiter,Opfermann,Hesse和Eysink(2009)使用了更多的措辞。学生被要求评价“领域的难度”(预期的内在认知负荷)和“他们在理解示例时所付出的努力”(预期的相关认知负荷)。对于外部负荷,使用了两个项目:“区分重要和不重要的信息”和“评估与环境处理的难度”。然而,这项研究没有找到认知负荷测量和学习成果之间的预期匹配。

在测量不同类型的认知负荷的心理测验尝试中的上述不一致是不可预料的。认知负荷的类别之间的心理测量差别要求学习者指示他们正在经历的认知负荷是否是由于特定类别的认知负荷。我们怀疑学习者(特别是新手)是否能够做出必要的区分。例如,当试图学习一些新概念时,学习者可能能够准确地指示他们找到任务困难的程度。他们可能不太准确地将其困难归因于材料的内在性质或提供材料的方式。在大多数情况下,除非他们知道相关的替代教学程序,例如本书第四部分讨论的教学程序,否则学习者可能不能理解教学程序如何改变。如果学习者不熟悉教学设计原则,他们不能表明他们正在经历的难度水平是由于教学设计不足还是由于他们所处理的信息的自然复杂性。在这些情况下,设计用于指示认知负荷是否归因于一个类别而不是另一个类别的心理测量程序可能失败(Kirschner,Ayres,&Chandler,2011)。

有一种心理测量的认知负荷类别的替代方法。随机对照实验,改变一个类别,同时保持另一个恒定提供内在和外在类别的认知负荷的独立性的一个很好的指标,同时指示相关的教学后果。由于相对内在或外在认知负荷可以如第四部分所讨论的通过实验确定,我们不能使用心理测量手段确定认知负荷类别的影响是否是关键的。

本章概述了研究人员用于测量认知负荷的主要方法。它描述了在认知负荷理论的早期阶段,间接方法如错误率,任务完成时间和计算模型被用来作为评价指标。各种教学效果可以通过认知负荷的波动来解释。这些间接测量与绩效测试分数结合使用加强了理论。当Paas(1992)提出一个单一的心理努力主观测量时,发生了间接测量的显著变化。这种测量及其导数(难度标度)以及教学效率的测量已经用于许多研究中,并且是认知负荷理论的发展中的非常有用的工具。在大多数情况下,主观测量已经提供了支持所有认知负荷理论效应的协作证据。然而,主观评级量表不提供实时数据。它们仅提供事件后的认知负荷的指示,因此不能用于在学习或解决问题期间确定认知负荷的变化。能够提供实时数据的替代措施是使用辅助任务。

辅助任务的使用频率低于主观评定量表,因为它们往往更具干扰性,需要更复杂的实验条件,并且通常需要更复杂的设备。辅助任务的优势,即他们在学习和解决问题过程中测量认知负荷的能力,也是一个缺点。它们可能难以使用。相反,主观评级量表可以在学习或问题解决发作之后立即呈现,并且通常需要不超过约30秒来管理。然而,辅助任务已经成功地用于认知负荷理论研究以显示预测的认知负荷变化。确定认知负荷(例如眼睛跟踪)和生理学方法(例如使用EEG数据)的其他同时和连续方法已开始作为潜在测量方法出现,但仍处于测试的早期阶段,但仍然被证明有效。

总之,已经使用多种方法来测量认知负荷。心理努力或困难的主观测量已经到最多的使用,并且已经非常成功地使用。它的一个伟大的优势是,它很容易使用,并且非常不引人注目。相反,主观测量法用于测量不同类型的认知负荷的尝试不太成功。鉴于我们需要区分认知负荷的类别,我们严重怀疑心理测量技术能否有意义地区分这些构造,特别是在研究新手的学习时。已经有使用适当的实验设计的实验证明替代方案存在。

版权声明
本文系作者授权智客号发表,仅代表作者观点,不代表千家智客立场。

相关推荐

评论文章

全部评论(0)

格式jpg品质60图片即可