VS-Bench：论如何评估多模态大语言模型的策略能力

VS-Bench 论如何评估多模态大语言模型的策略能力

多模态大语言模型在多智能体环境中的博弈与战略能力评估基准（VISUAL STRATEGIC BENCH，简称 VS-BENCH）是由清华大学、理想汽车等机构的研究团队提出的一项最新研究成果。该工作目前已被 CVPR 2026 接收为 Oral 论文。

与以往只关注单智能体或纯文本环境的基准不同，VS-BENCH 首次将目光投向了更贴近真实世界的场景：即多个智能体在丰富的视觉和文本背景下进行交互。大量评估表明，尽管目前的 VLMs 在“看”的方面（视觉感知）表现出色，但在“想”和“做”（战略推理与决策）上，距离最优水平还有巨大的鸿沟。即便是最强的 gpt-o3 模型，其平均归一化得分也远不及人类普通玩家。

方法论

如简介所述，《VS-BENCH: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》这篇论文最主要的贡献就是提出了一个用于评估VLMs在多智能体环境下表现能力的基准：VS-Bench。《VS-BENCH》的切入点非常敏锐。真实世界本身就是一个多智能体环境，充满了合作、竞争以及两者相混合的复杂交互。仅仅让大模型通过文字玩玩文字游戏，或者通过与GUI交互单独操作电脑界面，是远远不够的，必须也要让智能体适应多智能体环境下的工作。而要实现这个目标，就不能仅靠以往在纯文本环境中对智能体的评估工作。因为人类在交互时，天生的就是在同时接收视觉和文本信息。纯粹基于文本环境的评估，一来可能丢弃掉关键的视觉信息，二来也偏离了现实世界中的人与智能体交互环境。基于这几个原因，作者提出了VS-Bench。

为了全面考察模型，作者精心挑选并改造了 10 个经典的视觉驱动游戏，将其分为三大类：

合作类（Cooperative）： 如 Hanabi、Overcooked、KAZ。大家共享一个目标，一荣俱荣。
竞争类（Competitive）： 如 Breakthrough、Kuhn Poker、Atari Pong。零和博弈，不是你死就是我活。
动机混合类（Mixed-Motive）： 如 Coin Dilemma、Monster Hunt、Battle of the Colors。类似于经典的囚徒困境，需要智能体在个人私利与集体利益之间做权衡。

针对这些环境，VS-BENCH 又提出了三个维度的考核标准：

感知能力（Perception）： 考察基础视力。模型能不能认出图像上的物体、位置和游戏状态？简单来说，就是看图说话的能力。这个能力主要用智能体对物体的识别精度来衡量。
战略推理（Strategic Reasoning）： 考察心智理论（Theory of Mind）。在信息不全的情况下，模型能不能换位思考，预测对手或队友的下一步行动？同理，这个能力可以用智能体对其他智能体的下一步行动预测来衡量。
决策制定（Decision-Making）： 考察全局谋略。在动态变化、与其他玩家互相影响的环境中，模型能不能为了长远利益优化动作，最终拿到高分？这个能力需要做归一化处理：定义随机化智能体的收益为0，Oracle智能体（可以认为是理想状态下的智能体）的收益为100，归一化后可以用公式表达为：
$\text{Normalized return} = \frac{\text{Agent return - Random return}}{\text{Oracle return - Random return}} \times 100\%$

实验

了解了这套考核标准后，作者评估了当今最火的 15 款大模型（包括 o3, Gemini 2.5 Pro, Claude 3.7 以及开源的 Qwen2.5-VL, InternVL3 等）。实验结果非常耐人寻味：

1. 感知能力出众，但战略推理与决策能力低下 实验表明，现有模型在感知任务上表现极佳，平均准确率都在 67.8% 以上，最好的 o3 模型甚至达到了 84.9%。但一到实战，大家集体拉胯。整体来看，即便是表现最好的 o3，平均归一化回报也只有 31.4%。相比之下，人类参与者的平均得分为 62.7%，是 o3 的近两倍。有 4 款模型在某些游戏里甚至还不如纯随机乱走的 Agent。

2. 视觉反成累赘？ 为了证明视觉带来的影响，作者做了一个对照实验：把游戏画面替换成纯文字描述喂给模型。结果让人大跌眼镜：模型在纯文本环境下的决策表现，反而比带视觉图像时还要好一点点。这直接说明了现在的多模态模型根本不擅长从视觉图像中提取博弈所需的高级特征。当面对复杂的视觉画面时，它们很难将其与长远的战略结合起来。

3. 开源模型的“老好人”红利 这是整篇论文非常有意思的一个发现。在整体性能上，闭源的推理模型（如 o3）确实更强。但是在“动机混合类”游戏中，开源模型却能打出和 o3 差不多的成绩。通过对行为的可视化分析发现，o3 这类模型往往更加自私，它们更倾向于单打独斗去吃苹果或抢金币；而开源模型则表现出更强的合作倾向，愿意冒风险去和队友一起打败怪物，从而实现了双赢的高收益。

4. 容易犯下的低级错误 作者对模型的失败案例进行了专门分析，归纳出了两个通病。

无视信息不对称规则： 比如在 Hanabi 游戏中，玩家是看不到自己手牌的。但模型经常开启上帝视角，错误地使用只有自己才知道的私密信息去预测别人的动作。
过度关注自己而忽略他人： 在 Breakthrough中，模型常常沉迷于让自己的棋子往前冲，完全无视对手的棋子已经逼近自家大本营，缺乏防守意识。

感想

《VS-BENCH》的出现恰逢其时。在过去的一年里，大模型界一直在卷多模态的感知力（比如能不能认出图里的字，能不能做数学题），但当多模态大模型真正要作为 Agent 落地到现实社会时，它们必须面对“其他人”或“其他 Agent”。

这篇论文揭示了当前大模型发展的一个严重偏科现象：静态的视觉理解已经很成熟，但动态的、博弈性的视觉推理才刚刚起步。 我们以为模型能认出图里有一个怪物和一个苹果，它就懂得在这个场景下做选择。但实际上，它不仅需要看到元素，还需要在脑海中推演：“如果我抢苹果，队友会不会被怪物打死？如果队友死了，接下来我还能不能赢？”

这让我想起一个著名的心智理论实验：Sally-Anne 测试。Sally 把弹珠放进篮子然后离开，Anne 趁她不注意把弹珠挪到盒子里。问题是，Sally 回来后，会去哪里找弹珠？四岁孩子能答对：去篮子，因为 Sally 不知道弹珠被移走了。三岁以下的孩子会答错，因为他们分不清“自己知道”和“别人知道”的区别。

基于这个实验，美国斯坦福大学李飞飞教授和美国西北大学李曼玲教授团队设计了一套“空间理论”（Theory of Space）来考察AI的空间理解能力。研究中，他们设计了一套测试环境，有文本版和视觉版两种，让模型在多个房间里主动探索，收集信息，构建脑海中的认知地图。实验结果与VS-Bench的结论极其相似：

相比于文本版环境，模型在视觉版环境中表现更差。视觉信息对人类而言是天然、直觉的空间认知通道，而当前多模态模型尚未学会从像素中高效提取空间结构。
除了探索效率低下，模型还存在一个致命的问题：信念惯性。在模型完成初次探索后，悄悄移动或旋转几个物体。当模型再次经过并直接观察到新布局时，一个令人不安的现象出现了：GPT-5.2 在视觉世界中的朝向惯性高达 68.9%，即近七成的情况下仍然坚持报告物体的旧朝向。同一模型在文本世界中惯性只有 5.5%。

这说明模型只是具备了基本的物体感知能力，但并没有理解隐藏在背后的深层逻辑，也缺乏更新自己认知的内在能力。这和 Sally-Anne 测试里三岁幼儿的失败、VS-Bench中分不清“信息不对称”何其相似，只不过幼儿失败是因为认知能力尚未发育，模型失败是因为内部机制存在缺陷。

种种迹象都在给我们当下的技术路线敲响警钟。站在生物学的角度来看，人类的大脑中与视觉相关的神经元占到了百分之二十左右。而我们现在设计的多模态大模型，其实视觉占比只有一小部分，本质上还是靠一个视觉编码器把图像编码输入给一个大语言模型。这么做在让模型正确地感知物体方面的确取得了成绩，但这条路能否让模型理解其背后的逻辑以及物理规律，需要打一个问号。从这个角度看，LeCun提出的世界模型，确有其吸引力，也无怪乎有人感慨，我们熟悉的计算机视觉即将离我们而去。

至少目前来看，现阶段的模型，还远远不具备这种结合视觉的心智理论和长线规划能力。这也为未来的多模态大模型指明了优化方向：未来的多模态大模型，不仅要懂物理世界的规则，更要懂社会互动的博弈逻辑。