LMM性能提升关键：InterFeedback框架与高质量人类反馈的重要性-模具钢网

评估结果显示，最为先进的 LMM 经人类反馈来纠正结果的比例未达 50%。

交互式过程能够提升大多数 LMM 解决难题的性能。而现有的 LMM 在解释和整合反馈这方面的表现是欠佳的。进行额外的迭代并不一定就能够得出正确的解决方案，高质量的反馈是非常重要的。

人类在解决问题时具备很强的适应性，能够依据反馈持续学习并加以完善。同样，先进的 LMM 也应当可以从反馈里进行学习，进而提升解决问题的能力。

评估 LMM 交互智能的关键挑战是自动模型测试。因为不同模型对相同查询的响应不一样，所以需要人类在每一个对话轮次里提供定制化的反馈。

InterFeedback框架设计原理

研究人员提出了 InterFeedback，它是一个框架且基于交互式问题解决。借助 GPT-4o 等模型来模拟人类反馈，从而使 LMM 能在动态交互环境中进行测试与学习。

InterFeedback-Bench把带有反馈的交互式问题解决过程转化为一种数学模型，这种数学模型被称作部分可观测马尔可夫决策过程（POMDP）。

模型通过状态空间、观测值、动作空间、转移函数和奖励函数等要素，能够精确地描述其在交互过程中的行为和决策。

在实际应用里，要是给定了自然语言问题以及输入图像，模型会依据当前状态去获取观测值，接着生成自然语言回复。奖励函数是以精确匹配这种方式来判断任务是否正确的，并且能为模型给予反馈信号。

数据集构建

InterFeedback-Bench运用了两个具有挑战性的数据集，分别是 MathVerse 以及 MMMU-Pro。

MathVerse 是一个数据集，它属于视觉数学问题范畴。这个数据集中包含着各类问题，这些问题需要将图像与数学知识相结合才能得以解决。

MMMU-Pro 是综合性的多模态基准测试，它涵盖了多个领域的问题，这些问题属于专家级水平，包含科学、技术、工程和数学等领域。

利用 LMM（比如 GPT-4o）进行巧妙的模拟人机交互，从而构建出有针对性的测试数据集。

具体来说，通过挑选出反馈提供模型 M_p 答对且反馈接收模型 M_r 答错的那部分内容，以此来保证反馈的相关性与可靠性。

InterFeedback框架

InterFeedback 框架存在两个角色，一个是反馈接收者 M_r，另一个是反馈提供者 M_p。

M_r 是将要接受基准测试的 LMM，例如 Qwen2-VL。M_p 是目前最为优秀的 LMM，像是 GPT-4o，它会在每个时间步代替人类来提供反馈。

M_r模型生成输出之后，M_p依据映射策略给予反馈，模型按照反馈进行改进，接着继续循环，直至获得正确答案或者达到预先设定的迭代次数。

在这个过程里，M_r 依据当下的状态以及观测到的信息，把相应的动作生成出来。M_p 按照模型的回答，给出反馈信息，以此来协助模型对自己的回答进行改进。

团队基于 InterFeedback 框架构建了 InterFeedback-Bench 基准测试。此基准测试的目的是全面对 LMM 的交互式问题解决能力以及反馈学习能力进行评估。

人类评估基准测试

研究团队除了收集自动基准测试的数据外，还收集了用于人工评估闭源模型的 InterFeedback-Human 数据集。

自动基准测试有所不同，InterFeedback-Human 数据集在评估过程中更强调人类的参与与反馈。用户依据模型的回答，给出详细的反馈内容，涵盖对问题的剖析、正确的思考路径以及答案等方面。

这种方式能够让我们更深入地知晓模型在实际人机交互里的表现，也能知晓它们理解和处理人类反馈的能力。

实验结果与分析

研究人员设计了一系列实验，这些实验是在 MathVerse 和 MMMU-Pro 这两个具有代表性的数据集上进行的，并且对多个开源 LMM 进行了全面评估。

通过准确率和纠错率对结果进行评估，纠错率的定义是：在所有错误样本当中，被纠正答案的样本所占的百分比。其中，N 代表样本的总数，N_e 代表错误样本的数量，N_c 代表已经被纠正的样本数量。

准确率和纠错率可以用以下公式表示：

交互过程能提高性能

实验结果说明，交互式过程对大部分 LMM 的性能提升具有明显的促进性作用。

InterFeedback 框架具备让大多数模型从特定模型（如 GPT-4o 和 Claude-3.5-Sonnet 等）所提供的反馈里获得益处的能力。

即使是性能较为逊色的 Fuyu - 8B 模型，凭借 GPT - 4o 的反馈，也能够纠正 24.1%的错误样本。这显示出交互过程能够对大多数 LMM 解决问题的能力起到有效提升的作用。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/274996.html

LMM性能提升关键：InterFeedback框架与高质量人类反馈的重要性