爱收集资源网

语言模型自适应测试框架

网络整理 2023-10-01 01:02

大规模语言模型(LLM)如ChatGPT等早已突显出与人类相抗衡的认知能力。为了愈发高效且确切地比较不同模型的能力,本文提出了一个自适应测试框架用于LLM评估。该框架依据各个被试(模型)的表现动态地调整测试问题的特点,如难度等,为模型“量身定做”一场考试。

本文对六个商业化的大语言模型进行了细细度的确诊,包括ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(微软)、文心一言(百度)、通义千问(阿里)和星火(讯飞)。从学科知识、数学推理和编程三个方面对它们进行了认知能力排行。这些“千模千测”的方式有可能成为评估大规模语言模型的新范式。

#7:2:b:c:f:d:4:6:f:1:7:9:b:d:9:c:9:8:9:9:c:c:9:7:4:d:1:b:6:0:8:4#

论文链接:

#6:d:c:a:b:4:f:8:a:4:b:d:4:8:6:9:0:f:f:9:f:a:6:a:6:3:1:d:3:9:3:e#

一、摘要

ChatGPT等大规模语言模型(LLM)早已显露出与人类水平相抗衡的认知能力。为了比较不同模型的能力,一般会用各个领域的Benchmark数据集(例如文学、化学、生物学等)进行测试,之后按照传统指标(例如答对率、召回率、F1值)来评估它们的表现。

但是,从认知科学[1]的角度来看,这些评估LLM的方式可能是低效且不确切的。受心理检测学中的计算机自适应测试(CAT)的启发,本文提出了一个用于LLM评估的自适应测试框架:并非简单估算答对率,而是按照各个被试(模型)的表现动态地调整测试问题的特点,如难度等,为模型“量身定做”一场考试。

以右图为例,CAT中的确诊模型CDM会依据被试之前的作答行为(对/错)对其能力进行恐怕。接着,选题算法(SelectionAlgorithm)会按照该恐怕值选择最具信息量或最适宜他的下一道题,比如选择难度和被试能力最接近的题目。这么循环往复直至测试结束。相比传统评估方式,该框架能用更少的题目更确切地恐怕模型的能力[2]。

#a:4:3:e:0:6:8:d:0:2:a:6:b:5:a:7:0:d:c:7:e:d:9:8:f:2:d:f:7:4:6:9#

图1CAT流程

本文对6个商业化的大语言模型:ChatGPT(OpenAI)、GPT4(OpenAI)、Bard(微软)、文心一言(百度)、通义千问(阿里)、星火(讯飞)进行细细度的确诊,并从学科知识、数学推理和编程三个方面对它们进行了认知能力排行。其中GPT4明显优于其他模型,早已达到了人类平均水平的认知能力。本文的确诊报告也发觉,ChatGPT表现得像一个"马大哈的中学生",容易失误,时常也会猜想问题的答案。

“千模千测”——这有可能成为评估大规模语言模型的新范式。

二、引言

近几个月来,大规模语言模型(LLM)以其强悍的能力颠覆了人们对语言模型的认知。不仅传统的NLP任务,大模型在写作、编程、作词谱曲等各方面诠释出无法置信的类人水平——这仅仅是LLM能力的冰山一角。

为了充分评估LLM认知能力水平,一些最初为人类设计的各种专业或学术考试被拿来对模型进行评测:

#9:2:0:5:e:3:6:8:1:7:7:5:1:8:4:4:c:7:8:3:e:0:8:a:7:1:0:c:3:1:0:a#

图2传统LLM评测方式

但是,依赖这种固定的考试并不高效:

(1)它一般须要许多相应领域的专家对LLM的每一个回答进行衡量/打分,尤其对于主观或创造性的问题。

(2)模型回答过程中推理(inference)的开支是巨大的。诸如,GPT3须要在1750亿参数的模型上进行推理、GPT4对每一千tokens收费0.03港元,但是限制了API恳求的频度...

为此,本文从认知科学领域中引入了一种新的评估模式——计算机自适应测试(ComputerisedAdaptiveTesting,CAT),构建一个自适应的、高效的评估框架:

#1:d:7:9:e:a:6:6:d:2:a:3:d:c:9:c:0:b:a:3:8:c:c:3:c:3:0:6:a:d:4:9#

图3自适应LLM评测

本文将LLM视为一个中学生,为各个模型“定制试题”以确切评估其能力。相比传统基于答对率的方式,它所须要的题目数目更少(增加专家人工成本)、能力恐怕更准,是一种更符合认知能力评估的范式。本文贡献如下:

即将将心理检测学中的CAT引入LLM的评估中,剖析发觉每位模型的试题中有20%~30%的题目是不同的,这部份题目对测试的自适应性和个性化至关重要。同时,在相同的能力评估精度下,仅须要传统评估方式20%的样本/题目数目。

模型vs人类:本文将ChatGPT与不同能力水平人类进行了比较,发觉它在动态规划和搜索方面的编程能力早已赶超了高水平的学院生。同时,ChatGPT常常表现得像一个“粗心的中学生”,很容易失误,时常也会靠猜。

模型vs模型:本文研究了6个有代表性大模型,并得到它们在学科知识、数学推理和编程水平三个方面的细细度确诊报告,发觉GPT4明显赶超其他大模型,其物理推理能力早已接近中等水平的小学生。

三、LLM自适应评测框架

计算机自适应测试(CAT)是一种高效的、个性化的测试模式,已被广泛应用于各种标准化考试中(如GRE、GMAT)。它的首要目标是在确切评估被试者能力的同时尽可能减短考试厚度。相比传统的纸笔测试,CAT的测评效率更高。本节将详尽介绍本文提出的两阶段LLM自适应评测框架:题库建立和自适应测试。

#7:8:e:d:5:b:7:f:6:b:6:e:2:8:c:3:0:7:f:9:3:d:5:5:c:9:a:c:e:9:5:b#

图4LLM自适应评测框架3.1阶段1:题库建立

首先须要为自适应测试建立一个多样且高质量的题库:打算好要目标领域/学科的题目集,题库建立的目标就是校正所有题目的参数特点(如难度、区分度等)。因为本文须要将人和LLM进行对比,还须要搜集人类在这种题目上的作答记录。本文选择检测心理学中精典认知确诊模型——项目反应理论(ItemResponseTheory,IRT)来对题目参数进行校正:

其中表示能力为的被试者答对题目的机率。每位题目有三个参数:难度、区分度、猜测因子。

通过在作答记录上进行参数恐怕,得到所有个试卷的参数,以及个真实人类的恐怕能力值,可以后续直接用于与LLM进行比较。

IRT基本假定是:不同的题目对于能力评估的重要性并不相同。诸如,大模型A和B在某个Benchmark中的答对率分别为0.88和0.89,她们的差别可能并不像看上去这么小,甚至并不确切。由于(1)大量简单的问题可能会吞没困难的问题,进而造成B未能明显地彰显出其优越性;(2)数据集中或存在标明错误/噪音,可能造成这种传统指标失效。下边借助恐怕出的题目参数列出一些反例。

1.难度:当被试能力保持不变时,难度越大,答对的机率越小。右图是本文中的MOOC数据集中恐怕出最难和最简单的题目。解决问题须要ChatGPT理解PAC,这是估算学习理论中一个十分难理解的知识点。相比之下,最简单的问题和机器学习中的“感知机”有关,初学者也可以很容易地解决。

#f:6:8:7:4:3:8:7:8:f:4:b:a:5:4:2:d:7:5:9:e:3:b:a:4:0:f:d:c:d:e:f#

图5难度

2.分辨度:对于分辨度高的问题,能力的微小变化可能会造成答对率的较大变化,因而这种题目可以更好地分辨具有相像能力的被试。右图低分辨度十分简单,但是这些“垂直平分线”问题有固定的套路,很难真正分辨不同能力的被试。高区分度问题似乎也不难,但须要对原问题进行转换,并熟练把握“圆与圆之间的位置关系”的相关知识。

#8:6:3:3:c:d:5:9:2:d:0:4:6:f:c:f:b:c:4:c:6:2:f:4:6:e:f:0:6:2:b:9#

图6分辨度

3.猜想因子:它主要反映低能力被试能答对的机率,可以简单理解为猜对该题的机率。对于右图的题,甚至不须要被试把握任何编程语言的知识,就可以用常识“猜”对。但是,为了答对最小的题(下),ChatGPT须要把握并理解JAVA中Interface的定义和用法:Interface是一个完全具象的类',而且还能选出所有不相关的选项;假如没有熟练把握“Interface”的概念,想要猜对几乎不可能。

#5:c:7:9:a:4:5:7:7:b:8:5:4:3:b:8:1:1:8:4:6:b:7:d:f:4:f:8:f:1:f:2#

图7猜想因子3.2阶段2:自适应测试

题库建立后,将即将进行自适应测试。主要包含两个核心模块:认知确诊模型和自适应选题算法。首先,确诊模型会依照LLM之前的作答情况对其能力进行恐怕。接着,选题算法将按照某种的信息量测度函数选择下一个对被试最有价值/最适宜的题目。这两个算法交替工作,直至满足某个停止规则。

1.使用认知确诊进行LLM能力恐怕:与阶段1保持一致,本文使用IRT来恐怕LLM的当前能力:在第轮测试后,借助极大残差恐怕(交叉熵)按照LLM前步的作答情况(题目,正确性)恐怕出当前能力值。

能力恐怕值的渐进分布[3]是以真值为均值,为残差的正态分布(右图),其中为Fisher信息量。因而为了提升能力恐怕的效率(减少测试宽度),减少能力恐怕的不确定性(残差)是至关重要的。

#4:d:b:8:8:8:8:d:b:7:8:f:1:c:6:9:b:f:6:2:b:e:a:f:5:4:4:e:9:1:4:d#

图8能力恐怕值的统计特点

2.自适应选题:为了提升能力恐怕的效率、减小残差,本文采用最大化Fisher信息量的选题算法。在每一轮测试时,按照LLM当前能力恐怕值,选择才能促使Fisher信息量尽可能大的下个题目给模型回答:

研究发觉[4]:Fisher信息量选题方式倾向于选择(1)高区分度且(2)难度接近当前能力恐怕值的题目。因而Fisher方式除了考虑了题目的质量(即分辨度),也考虑了问题的难度对LLM的匹配性。比如,当ChatGPT在第轮回答正确时,选题算法将为其选择一个难度更大的问题,反之亦然。这就是为何许多能力水平高的GRE考生发觉考试中题目显得越来越难的缘由。

四、评测效率与可靠性

本文通过上述介绍的自适应测试框架对各个LLM进行评测。LLM-CAT-专家的交互界面如右图所示。

#8:6:2:1:0:d:8:b:1:c:c:a:1:f:e:0:6:3:d:9:e:1:9:f:7:0:4:6:b:7:d:e#

图9LLM-CAT-Expert交互测试框架

评测效率:本文通过仿真实验来验证该框架的评估效率。本文随机生成100名被试的能力真值,并进行能力评估的模拟。估算每一轮的能力恐怕和真实能力的MSE偏差(右图),发觉:与使用固定Benchmark测试集(即从数据分布中Random取样)相比,自适应评估方式在相同的恐怕偏差下最多只须要20%的题量。

因为20足以满足通常自适应测试,本文将最大宽度固定为20,并按照信息量指标[5]自适应调整测试宽度。因而,相较于传统评估中须要LLM回答上百道题目[5],该方式可以选购出真正有价值的问题,最多只须要问模型20个问题,非常是对于须要大量专家评分的模型测试,它大大减少人工成本和模型推理开支。

#a:f:b:f:b:e:a:a:0:d:c:4:3:1:2:8:0:7:1:7:3:b:c:3:0:1:c:f:b:3:d:b#

图10自适应选择和随机选择的能力恐怕偏差

自适应性:为验证CAT能够按照模型能力自适应地选择适宜的问题,本文用Jaccard相像度来评判任意两个模型所作答的题目集之间的相像性:,其中和代表两个不同的题目集合/试题。右图展示了CAT为各个LLM订制的试题相像度。几乎所有Jaccard值都在0.6左右,表明起码20-30%的问题是不同的,这部份题目是实现测试自适应性的关键。其余70-80%的题目是相同的,对于评估所有LLM都有价值。这两部份共同组成了一份试题,以高效评估模型。

#5:f:1:c:b:f:7:f:6:c:6:f:b:b:a:4:4:8:5:1:c:5:d:8:0:5:3:a:1:9:8:6#

图11试题的Jaccard相像度

评测可靠性:为了验证用于人类的CAT框架是否可以用于LLM,本文研究了它的可靠性(SE曲线[5])。在CAT中,SE值一般是指能力恐怕的标准差,它反映了能力恐怕的精度:。较小的SE表示更精确且更可靠的恐怕[7]。右图显示了ChatGPT(红色)和100名中学生(红色)测试过程中的SE变化:ChatGPT的SE曲线虽非波动,并且比真实中学生更快、更容易收敛。

#3:b:7:a:4:8:b:e:1:8:9:3:f:5:3:2:b:4:f:8:3:6:2:2:8:c:4:d:5:3:4:8#

图12ChatGPT和中学生的SE曲线

为探究ChatGPT与人类的相像性,本文在中学生的测试过程中添加了猜想和失误诱因:

(1)推测诱因:虽然被试没有把握,仍有机率答猜对;

(2)失误诱因:虽然把握了该题,仍有小几率失误答错。

为此,Guess10%表示正确性标签从错误变为正确的机率为10%,而Slip10%表示标签从正确变为错误的机率为10%。有趣的是,ChatGPT的SE曲线十分接近Guess=10%、Slip=30%的中学生(蓝色)。由此,本文推测ChatGPT更像一个“粗心的中学生”,容易失误(30%)而且时常会去猜答案(10%)。

五、诊断报告

本文选择了国外外较有代表性的6个instruction-tunedLLM进行评测:ChatGPT、GPT4、谷歌Bard、百度文心一言(ERNIEBOT)、阿里通义千问(QianWen)、讯飞星火(Spark)。并将她们与高水平(High-Ability)、中等水平(Mid-Level)的人类中学生进行比较。

数据集:本文选择学科知识、数学推理、编程三个领域为例对LLM进行细细度评测,分别对应三个数据集:MOOC、MATH和CODIA。

5.1ChatGPTVS人类

本文以ChatGPT(红色)为例对其从上述三个方面进行高效确诊,并和高水平中学生(蓝色)进行比较:

编程水平:虽然ChatGPT在官方报告和海量用户case中早已展示出其惊人的编程水平,但它并非全能,并不擅长所有类型的问题。本文使用CODIA平台对ChatGPT的编程能力中“动态编规划和贪心算法”、“搜索”、“数学问题”、“数据结构”、“树和数论”进行评估。ChatGPT表现最佳的是“搜索”、“动态规划和贪心算法”。它在这种类型的问题上超过高水平学院生。但是,“数据结构”、“树和数论”是其编程能力上的弱项。因而,上次让ChatGPT写代码时,可以防止这种类型;而假如你遇见关于动态规划的问题,则可以放心交给ChatGPT。

#5:e:2:a:5:f:5:8:f:e:f:d:7:4:1:1:4:d:9:8:d:3:5:2:f:3:7:9:b:5:7:5#

图13编程水平对比:ChatGPT(蓝)vs中学生(红)

学科知识水平:如右图,ChatGPT在“算法”和“机器学习”这两个知识点上的能力水平明显低于高水平中学生。但是,它在编程语言方面相对较弱,这或许与人们对其的认知不太相符。为了探求缘由,本文在右图右边展示了一个关于编程语言的反例。这是一道特别基础的问题,而且ChatGPT却答错了,类似的事例在ChatGPT的考试中并不罕见。这说明它在把握和理解编程语言的一些基础概念方面并不确切。而结合它在CODIA上惊人的编码水平(上图),本文有理由相信:ChatGPT更像是一个"实干家",而不是一个"书呆子"。

#e:9:2:3:6:4:e:9:1:e:2:3:e:3:b:7:3:f:8:1:0:b:4:1:0:c:f:e:3:4:b:a#

image.png

图14学科知识水平对比:ChatGPT(蓝)vs中学生(红)

物理推理水平:ChatGPT的物理推理能力与人类的物理推理能力仍有相当大的差别:在“概率与统计”、“排列与组合”以及“几何”的问题的上尤其差;在“函数”、“方程和不方程”方面的表现相对好一些。因而,对于多项式、函数这些有固定解题套路的基本估算问题,ChatGPT是合格的。但面对现实场景中的推理问题[7](比如,机率和统计、排列组合)似乎还差得远。

#6:e:8:4:e:2:9:c:b:f:9:0:a:6:9:0:d:7:2:2:9:b:2:e:6:9:3:a:3:d:c:d#

图15物理推理能力对比:ChatGPT(红色)vs中学生(蓝色)5.2LLM排行

本文在国外外6个有代表性的商业化LLM进行了CAT测试,并同时与不同水平的人类中学生进行比较:

#b:9:2:e:5:e:a:9:2:1:8:d:6:e:e:c:9:0:d:7:c:7:0:8:5:7:4:1:4:9:1:a#

表1不同LLM及不同水平中学生能力确诊结果

物理推理:高水平中学生>GPT4≈中等水平中学生>星火>Bard>文心>ChatGPT>千问

编程:高水平学院生>GPT4>中等水平学院生>ChatGPT>星火>文心>千问>Bard

学科知识:GPT4>Bard>ChatGPT≈高水平学院生>中等水平学院生>星火>千问>文心

GPT4在学科知识、数学推理、编程水平上显著优于其他LLM。其学科知识水平几乎在每位知识点上都超过了高水平学院生(Top20%)。

每位LLM都有其自己的“特长”。诸如编程中,GPT4擅长“动态规划”和“数学问题”;ChatGPT更擅长“搜索”问题;星火平均编程水平高于GPT4/ChatGPT,并且用编程解决物理问题是它的强项。为此,虽然这种LLM没有公布它们预训练所用数据的配比和具体细节,本文有理由推测,ChatGPT/GPT4可能在训练阶段使用了更多的编程相关数据,而星火则使用了更多的物理学科数据。

大模型要实现抗衡人类的物理推理仍有很长的路要走。按照CAT确诊的结果,虽然最强的GPT4,其推理能力也接近于中等水平的中学生。虽然LLM的本质还是数据驱动的机率生成模型,并非像人类那样去思索和推理。因而,基于或模仿人类的认知结构[9],其实是未来提高LLM推理能力的“捷径”。

六、总结

大语言模型正逐渐改变人们日常的工作和生活形式。越来越多的人尝试探求LLM能力边界,让它们完成传统NLP时代无法想像的事情,如生成代码、制作PPT、作诗编曲等等。为此,怎么科学有效地确诊并剖析LLM的能力变得更加重要。本文尝试引入原先用于人类的认知能力评估框架——计算机自适应测试,来对LLM进行评估。在相同的评估精度下,CAT须要的测试数据更少,极大地增加了对LLM评估的人工成本和估算开支。

原论文因为中国科学技术学院计算机大学BASE()课题组撰写。该课题组聚焦于将大数据和人工智能技术应用于教育科学,包括:教育资源理解、认知确诊与中学生建模、个性化教育服务等。本文希望CAT这一科学的评估范式可以促使LLM的研究与迭代,欢迎交流阐述!

参考文献

[1]LiuQ.TowardsaNewGenerationofCognitiveDiagnosis[C]//IJCAI.2021:4961-4964.

[2]fúY,LiuQ,HuangZ,etal.ARobustComputerizedAdaptiveTestingApproachinEducationalQuestionRetrieval[C]//Proceedingsofthe45thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.2022:416-426.

[3]SheldonMRoss.Afirstcourseinprobability.Pearson,2014.

[4]fúY,LiuQ,HuangZ,etal.FullyAdaptiveFramework:NeuralComputerizedAdaptiveTestingforOnlineEducation[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2022,36(4):4734-4742.

[5]C.Wang,D.J.Weiss,andZ.Shang.Variable-lengthstoppingrulesformultidimensionalcomputerizedadaptivetesting.Psychometrika,2018.

[6]OpenAI.Gpt-4technicalreport,2023.

[7]WimJVanderLindenandCeesAWGlas.Elementsofadaptivetesting,volume10.Springer,2010.

[8]LinX,HuangZ,ZhaoH,etal.LearningRelation-EnhancedHierarchicalSolverforMathWordProblems[J].IEEETransactionsonNeuralNetworksandLearningSystems,2023.

[9]LiuJ,HuangZ,LinX,etal.Acognitivesolverwithautonomouslyknowledgelearningforreasoningmathematicalanswers[C]//2022IEEEInternationalConferenceonDataMining(ICDM).IEEE,2022:269-278.

在线考试系统一般用什么语
上一篇:停电一晚,广播静默,让人疑惑不已 下一篇:没有了
相关文章