AI榜单“变天”了！马斯克发布Grok 4.1，盲测排名登顶第一

　　就在 OpenAI 发布 GPT-5.1，大谈“情商”之际，埃隆·马斯克（Elon Musk）也带着他的 xAI，火速加入了这场“AI 体验”之战。

就在刚刚，xAI 宣布推出 Grok 4.1，这是对现有 Grok 4 模型的重大升级，并已在 grok.com、X平台以及 iOS 和 Android 应用向所有用户全面开放。。官方宣称，新版本在创意表达、情感互动和协同交流方面表现尤为突出，并且出现幻觉的概率仅为此前模型的三分之一。

更引人注目的是，在一个公开的“盲测”竞技场（LMArena）上，Grok 4.1 的“思考模式”版本已悄然登顶总榜第一，甚至其“非推理”的快速模式，都击败了所有对手的“完整推理”模式。

　　这场突如其来的“榜首易主”，无疑为日趋白热化的 AI 竞赛，又增添了浓重的火药味。

　　Grok 4.1 升级了什么？

xAI 本次发布了两个 Grok 4.1 模型：Grok 4.1（非推理模式）和 Grok 4.1 Thinking（思考模式）。这两个模型均可免费使用，但付费用户面临的限制更少。

　　官方表示，新版本能更细致地理解隐含意图，与之对话引人入胜，也更能保持人设的一致性。

为了优化模型的风格、人格和有用性，xAI 利用前沿的代理型推理模型（agentic reasoning models）作为“奖励模型”，在大规模环境中自主评估并迭代模型的回答。

在 11 月 1 日至 14 日的“静默上线”期间，xAI 在真实流量上进行了盲测式的成对比较评估，结果显示，在 64.78% 的情况下，用户更偏好 Grok 4.1。

　　“盲测”登顶，Grok 4.1 到底有多强？

Grok 4.1 在盲测的人类偏好评估中树立了新的行业标准。

　　LMArena 是一个开源工具，用户可以通过并排、盲测的方式，比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里，Grok 4.1 取得了惊人的成绩：

· Grok 4.1 的“思考模式”（代号：quasarflux）以 1483 Elo 的成绩位列总榜第一，领先所有非 xAI 模型 31 分。

· Grok 4.1 的“非推理模式”（代号：tensor）无需使用“思考词元”（thinking tokens），可立即生成回答，并以 1465 Elo 的成绩排名第二。

· 更夸张的是，Grok 4.1 的“非推理”模式表现，超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。

　　与之相比， Grok 4 此前在该榜单上的综合排名仅为第 33 位。

　　“情商”与“文采”，一个都不能少

　　除了通用能力，xAI 还强调了新模型在“软实力”上的提升。

· 情绪智能（Emotional Intelligence）为评估模型在个性与人际互动方面的进展，xAI 对 Grok 4.1 进行了 EQ-Bench3 测试。这是一项由 LLM 作为裁判的测试，用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力（Creative Writing）xAI 同样测量了 Grok 4.1 在 Creative Writing v3 基准测试中的表现。在该测试中，模型需要根据 32 个不同的写作提示，在 3 次迭代中生成回答。

　　更少的“幻觉”

　　快速响应模型在配备搜索工具后，虽然能迅速给出答案，但更容易出现事实性错误。

在 Grok 4.1 的后训练阶段，xAI 重点降低了模型在信息查询类提示中的事实性“幻觉”。

　　根据 xAI 的说法，Grok 4.1 出现幻觉的概率是此前模型的三分之一，这使其成为 xAI 迄今为止的最佳版本之一。

为了验证这一点，xAI 不仅在真实的生产流量中进行了评估，还使用了 FActScore——一个包含 500 道关于人物传记问题的公开基准测试。

　　挑战与未来：真正的对手还在路上

尽管 Grok 4.1 的“盲测”成绩斐然，但 AI 的王座之争远未结束。

　　目前，我们尚不清楚它与 GPT-5.1 相比的真实表现。

　　更重要的是，谷歌（Google）正在准备发布 Gemini 3.0，这可能会成为迄今为止最强大的模型。

Grok 4.1 的发布，无疑是马斯克在 AI 竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中，谁能笑到最后，还远未可知。（易句）

　　（本文由 AI 翻译，网易编辑负责校对）

相关文章