1. 首页>>分享

LMM性能提升关键:InterFeedback框架与高质量人类反馈的重要性

评估结果显示,最为先进的 LMM 经人类反馈来纠正结果的比例未达 50%。

交互式过程能够提升大多数 LMM 解决难题的性能。而现有的 LMM 在解释和整合反馈这方面的表现是欠佳的。进行额外的迭代并不一定就能够得出正确的解决方案,高质量的反馈是非常重要的。

人类在解决问题时具备很强的适应性,能够依据反馈持续学习并加以完善。同样,先进的 LMM 也应当可以从反馈里进行学习,进而提升解决问题的能力。

图片

评估 LMM 交互智能的关键挑战是自动模型测试。因为不同模型对相同查询的响应不一样,所以需要人类在每一个对话轮次里提供定制化的反馈。

InterFeedback框架设计原理

研究人员提出了 InterFeedback,它是一个框架且基于交互式问题解决。借助 GPT-4o 等模型来模拟人类反馈,从而使 LMM 能在动态交互环境中进行测试与学习。

InterFeedback-Bench把带有反馈的交互式问题解决过程转化为一种数学模型,这种数学模型被称作部分可观测马尔可夫决策过程(POMDP)。

模型通过状态空间、观测值、动作空间、转移函数和奖励函数等要素,能够精确地描述其在交互过程中的行为和决策。

在实际应用里,要是给定了自然语言问题以及输入图像,模型会依据当前状态去获取观测值,接着生成自然语言回复。奖励函数是以精确匹配这种方式来判断任务是否正确的,并且能为模型给予反馈信号。

数据集构建

InterFeedback-Bench运用了两个具有挑战性的数据集,分别是 MathVerse 以及 MMMU-Pro。

MathVerse 是一个数据集,它属于视觉数学问题范畴。这个数据集中包含着各类问题,这些问题需要将图像与数学知识相结合才能得以解决。

MMMU-Pro 是综合性的多模态基准测试,它涵盖了多个领域的问题,这些问题属于专家级水平,包含科学、技术、工程和数学等领域。

图片

利用 LMM(比如 GPT-4o)进行巧妙的模拟人机交互,从而构建出有针对性的测试数据集。

具体来说,通过挑选出反馈提供模型 M_p 答对且反馈接收模型 M_r 答错的那部分内容,以此来保证反馈的相关性与可靠性。

InterFeedback框架

InterFeedback 框架存在两个角色,一个是反馈接收者 M_r,另一个是反馈提供者 M_p。

M_r 是将要接受基准测试的 LMM,例如 Qwen2-VL。M_p 是目前最为优秀的 LMM,像是 GPT-4o,它会在每个时间步代替人类来提供反馈。

图片

M_r模型生成输出之后,M_p依据映射策略给予反馈,模型按照反馈进行改进,接着继续循环,直至获得正确答案或者达到预先设定的迭代次数。

在这个过程里,M_r 依据当下的状态以及观测到的信息,把相应的动作生成出来。M_p 按照模型的回答,给出反馈信息,以此来协助模型对自己的回答进行改进。

团队基于 InterFeedback 框架构建了 InterFeedback-Bench 基准测试。此基准测试的目的是全面对 LMM 的交互式问题解决能力以及反馈学习能力进行评估。

人类评估基准测试

研究团队除了收集自动基准测试的数据外,还收集了用于人工评估闭源模型的 InterFeedback-Human 数据集。

自动基准测试有所不同,InterFeedback-Human 数据集在评估过程中更强调人类的参与与反馈。用户依据模型的回答,给出详细的反馈内容,涵盖对问题的剖析、正确的思考路径以及答案等方面。

这种方式能够让我们更深入地知晓模型在实际人机交互里的表现,也能知晓它们理解和处理人类反馈的能力。

实验结果与分析

研究人员设计了一系列实验,这些实验是在 MathVerse 和 MMMU-Pro 这两个具有代表性的数据集上进行的,并且对多个开源 LMM 进行了全面评估。

通过准确率和纠错率对结果进行评估,纠错率的定义是:在所有错误样本当中,被纠正答案的样本所占的百分比。其中,N 代表样本的总数,N_e 代表错误样本的数量,N_c 代表已经被纠正的样本数量。

准确率和纠错率可以用以下公式表示:

交互过程能提高性能

实验结果说明,交互式过程对大部分 LMM 的性能提升具有明显的促进性作用。

InterFeedback 框架具备让大多数模型从特定模型(如 GPT-4o 和 Claude-3.5-Sonnet 等)所提供的反馈里获得益处的能力。

即使是性能较为逊色的 Fuyu - 8B 模型,凭借 GPT - 4o 的反馈,也能够纠正 24.1%的错误样本。这显示出交互过程能够对大多数 LMM 解决问题的能力起到有效提升的作用。

图片

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/274996.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息