7个AI打了200多场"狼人杀"!GPT-5胜率断崖式领先

近日,OpenAI的总裁格雷格・布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。其中GPT-5断崖式领先,胜率达到了惊人的96.7%!是目前当之无愧的MVP。国产模型中Qwen3和Kimi-K2分别位列第4和第6位。

7个AI打了200多场

游民星空

下载游民App,掌握一手游戏情报

7个AI打了200多场"狼人杀"!GPT-5胜率断崖式领先

IT之家 未知 2025-09-03 19:13
0

近日,OpenAI的总裁格雷格・布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。

游民星空

其中GPT-5断崖式领先,胜率达到了惊人的96.7%!是目前当之无愧的MVP。国产模型中Qwen3和Kimi-K2分别位列第4和第6位。

游民星空

官方博客分享了一些有趣的分析,包括这些模型在狼人杀游戏中表现出的性格特质。

比如Kimi-K2居然学会了“悍跳”:在作为狼人且犯了明显错误的情况下,选择公开声称自己是女巫,并成功扭转了局面。可以说是很大胆激进了。

在这场测试中,每对模型进行10场比赛:其中5场由一个模型控制狼玩家,另一个模型运行村民;另外5场角色互换。

这种设置能够看到两个维度:当模型是狼人时,它操纵其他玩家;当它是村民时,它抵抗被操纵。7个模型两两对决时,GPT-5完全没有败绩。

游民星空

责任编辑:童话梅尔菲

APP精彩推荐打开游民APP查看更多

相关内容 打开游民APP查看更多

在线玩推荐更多