1. 首页>>分享

推箱子、俄罗斯方块成大模型benchmark,o3-pro表现惊人

推箱子、俄罗斯方块等众多人们耳熟能详的怀旧型小游戏,如今也成为了大型模型评估的标准之一。

o3-pro近期同样对这两款游戏进行了挑战,其表现相当出色,甚至成功超越了benchmark的极限。

具体来看,在benchmark测试中,推箱子游戏仅成功通过了被o3-pro突破的第六个关卡;至于俄罗斯方块,其结果则是被迫终止,实际上o3-pro根本无法停止。

与前SOTA的o3相比,o3-pro的表现实现了显著提升,其成绩实现了直接的翻倍增长。

有网民坦言,与大型模型竞赛场相比,这套规范更适宜作为评估大模型的基准。

经典小游戏成为新Benchmark

这两个参与o3-pro挑战的游戏,源自一套称作Lmgame的基准测试集,该测试集的名称本身就表明了其目的是让大型模型进行游戏体验。

o3-pro挑战中的推箱子游戏源自1989年的版本,经过修改。在此之前,衡量标准是玩家在游戏结束前成功推动至目标位置的箱子数量。

然而,此次o3-pro一举通关了所有关卡,给人一种“取得满分只因试卷总分恰好是一百分”的错觉。

无需忧虑,测试的标准将会进行实时调整;半个月前在GitHub仓库中更新的游戏地图仅有四部分,而原版游戏则包含了多达五十余个环节。

在o3-pro挑战赛之前,o3的表现最为出色;紧接着,o4-mini位居第二;而DeepSeek-R1的最新型号(0528)则排在第三。

俄罗斯方块的计算得分规则是将放置的方块数与清除行数的十倍相加,这一过程会持续到游戏最终结束。

在o3-pro问世之前,o3曾是表现最为出色的模型,然而随后R1和o4-mini的排名在推箱子任务中的顺序与之前相比发生了调换。

然而,在操作过程中,o3-pro的步骤非常耗时,每进行一个步骤,都需要花费数分钟的时间。

此外,部分网友提出,若让大型模型负责编写程序而非直接参与竞赛,或许能够取得更佳成效。

在Lmgame平台中,除了o3-pro所提供的推箱子和俄罗斯方块游戏,还涵盖了以下四款热门游戏:2048、糖果传奇、马里奥兄弟以及逆转裁判。

在测试环节,采用了一种循环迭代的交互模式,在此过程中,游戏环境不断向大模型推送游戏状态,模型据此生成一系列动作,这些动作随即在游戏环境中实施,并依据执行效果来评估奖励,随后,游戏状态被更新,以便进行下一轮的决策。

同时,引入了智能体框架这一辅助工具,它集成了感知、记忆、推理等多个模块;为确保评估结果的稳定性和可比性,该模式实施了提示标准化措施,旨在降低提示词所引起的性能波动。

根据游戏的特性和规则,具体到每个游戏的评价方式也有所区别:

超级马里奥兄弟这款游戏,其评分依据是马里奥在各个关卡中累计行进的总距离,该距离以游戏内单位来衡量;这一过程将持续至马里奥耗尽所有三条生命值,或是成功通关最后一关。

在2048游戏中,评估的依据是所有合并后的方块数值之和,这一过程会持续到游戏界面停止更新(即连续十个回合内没有新的合并发生,或者棋盘状态保持不变)时结束。计算最终得分的方法是将上述总和以2为底取对数,然后乘以10。

糖果传奇:评价标准是在固定的 50 回合内消除的糖果总数。

逆转裁判这一机制,是通过计算在所有案件环节中采取正确行动(比如提交证据、选择对话)的总次数来评估的,这一过程将持续进行,直至累积犯下五次错误决策(即生命值耗尽)为止。

不过这些游戏表现的衡量标准当中,都没有将时间作为考量因素。

此外,这一套基准测试工具是公开的,如果您感兴趣,还可以自行下载并测试模型。

还有网友留言说想看宝可梦的结果,团队表示马上安排。

谈及宝可梦,Gemini持续在各大直播平台接受挑战,且在今年五月初顺利完成了宝可梦·蓝的通关任务。

谷歌首席执行官劈柴哥在第一时间内激动地公布了这一喜讯,并且分享了一段记录通关瞬间的宝贵视频。

大模型竞技场顾问课题组出品

该项目源自加州大学圣地亚哥分校的Hao AI Lab,隶属于该校的机器学习实验室以及自然语言处理实验室,其负责人为Halıcıoğlu数据科学研究所的助理教授张昊。

张昊先后在华南理工大学完成了本科和硕士学业,随后在上海交通大学攻读博士学位,博士毕业后,他前往加州大学伯克利分校进行博士后研究,研究工作结束后,他加入了加州大学圣地亚哥分校。

此外张昊也参与过创立LMSYS,并担任大模型竞技场顾问。

LMSYS成立为一个非盈利性机构,其自主研发了包括大模型竞技场以及备受瞩目的模型框架SGLang和vLLM在内的一系列创新产品。

回到Hao AI Lab,该实验室成功推出了众多开源项目,其中GitHub上的星级评价最高的项目是视频加速生成框架FastVideo,该项目的星标数量已达到1.5k。

Hao AI Lab得到了谷歌和英伟达的资金支持,今年四月,英伟达向该实验室赠送了一台DGX B200型设备。

该链接指向的内容涉及一项技术突破,该突破在人工智能领域引起了广泛关注。研究人员成功实现了某种创新,这一成就有望推动相关技术的发展。相关信息已在社交媒体上发布,并迅速吸引了众多网友的关注和讨论。

项目存储库位于:https://github.com/lmgame-org/GamingAgent,请访问此链接获取相关信息。

该榜单可通过以下链接访问:https://huggingface.co/spaces/lmgame/lmgame_bench。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275995.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息