X 微博 RSS Telegram

Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

模型动态 ⏱️ 2026 年 5 月 2 日, 9:33 下午 📝 MISTY

Artificial Analysis 评测显示，xAI Grok 4.3 在 Intelligence Index 上取得 53 分，超越 Muse Spark 与 Claude Sonnet 4.6，较 Grok 4.20 0309 v2 提升 4 分。该模型同时实现成本大幅下降，输入价格降低约 40%，输出价格降低约 60%。

综合排名与定位

Artificial Analysis 最新 Intelligence Index 榜单显示，Grok 4.3 位列 Muse Spark 与 Claude Sonnet 4.6 之上，较其前代 Grok 4.20 0309 v2 上移 4 分。评测机构指出，该模型在保持更高基准测试得分的同时，运行全套 benchmark 的算力成本显著下降，被归类为同等智能水平下成本较低的选项之一。

关键 benchmark 表现

Artificial Analysis 公布的多项核心基准测试数据如下：

Intelligence Index：53 分，超过 Muse Spark 与 Claude Sonnet 4.6
GDPval-AA：ELO 1500，较 Grok 4.20 0309 v2 的 1179 大幅提升 321 分，超越 Gemini 3.1 Pro Preview、Muse Spark、GPT-5.4 mini (xhigh) 与 Kimi K2.5
τ²-Bench Telecom：98%，较前代提升 5 分，与 GLM-5.1 持平
IFBench：81%，性能与前代持平
AA-Omniscience Accuracy：较前代提升 8 分

GDPval-AA 衡量真实世界 AI Agent 任务表现，Grok 4.3 在该项的提升幅度在各项基准中最大。但按标准 ELO 公式计算，其仍落后 GDPval-AA 领先模型 GPT-5.5 (xhigh) 276 个 ELO 分，预期胜率约为 17%。

成本与性价比

根据 Artificial Analysis 测算，Grok 4.3 跑完 Intelligence Index 全套 benchmark 的成本为 395 美元。尽管该模型消耗的总输出 token 数更多，但整体成本较 Grok 4.20 0309 v2 降低约 20%。结合输入价格下降约 40%、输出价格下降约 60% 的定价调整，该机构认为 Grok 4.3 在单位智能成本上具有明显优势。

短板与争议项

Grok 4.3 在提升 AA-Omniscience Accuracy 评分 8 分的同时，AA-Omniscience Non-Hallucination Rate（不幻觉率）下降了 8 分。评测数据指出，当前该指标的榜首仍由 Grok 4.20 0309 v2 保持，MiMo-V2.5-Pro 紧随其后，Grok 4.3 与 MiMo-V2.5-Pro 处于同一水平。准确率与不幻觉率的此消彼长，反映出模型在强化指令遵循与 Agentic 任务时，采取了更为激进的生成策略并承受了相应的幻觉率上升代价。

后续 Grok 4.3 与 GPT-5.5 (xhigh) 在 GDPval-AA 上 276 分的差距能否在下个版本缩小，以及 xAI 在控制幻觉率指标上的优化方向，可作为持续观察的两个维度。

订阅评论

0 评论

最旧

Artificial Analysis 评测: Grok 4.3 综合得分 53 GDPval-AA 提升 321 分

综合排名与定位

关键 benchmark 表现

成本与性价比

短板与争议项

最新文章

最新评论

存档