马斯克的Grok3实测翻车！竟连9.11和9.9哪个大都答不出

77 4 2025-08-12

AI圈的“分数迷思”最近被马斯克旗下xAI的Grok3戳破——这款曾以“数学、科学、编程三大领域超所有主流模型”为卖点的大模型，在实际测试中接连暴露基础能力短板，让“基准高分=现实强”的认知彻底崩塌。 2025年2月18日，马斯克携xAI团队直播发布Grok3，发布前的造势堪称“拉满”：先是公开点评竞品DeepSeek R1，放话xAI将推出更优模型；随后放出的现场数据显示，Grok3在多项标准化评测中得分领先，马斯克更抛出重磅预期——未来将参与SpaceX火星任务计算，甚至预测“三年内实现诺贝尔奖级别突破”，但这场发布的光环下，藏着两个争议点：xAI仅披露部分评测关键数据，未公开完整测试环境、样本来源与评估标准；而发布会上演示的“Grok3分析《流放之路2》职业”环节，早已被游戏玩家埋下“答案存疑”的伏笔。

基础能力“破功”：常识性错误为何频出？

Grok3的实际表现远不如评测数据亮眼,多个基础场景的失误引发广泛讨论：

数值认知：小数点后的“陷阱”与质数计数偏差
除了经典的“9.11和9.9哪个大”（答成9.11更大），有用户测试“1.234和1.2340是否相等”，Grok3回答“不相等，因为小数点后位数不同”；针对“2的10次方是多少”，模型错误给出1023（实际为1024）；“100以内质数数量”的问题，答成30个（正确为25个）。
科学常识：比萨斜塔实验的“惯性误解”
面对“比萨斜塔上两个质量不同的球哪个先落地”，Grok3不仅答错“铁球先落地”，还错误解释“密度大的物体受重力更大”——忽略了重力加速度与质量无关的基本物理原理。

游戏场景“滑铁卢”：职业机制全错，玩家集体吐槽

Grok3在游戏领域的表现堪称“灾难”,多个热门游戏的测试均暴露严重问题：

流放之路系列：不存在的升华与错误天赋
发布会上演示的“《流放之路2》暗影刺客升华技能”被玩家指出“完全不存在”；后续测试《流放之路1》贵族升华职业，错误率达90%——连“贵族可选择任意职业升华”的核心机制都混淆。
原神：角色技能描述的“离谱编造”
有玩家测试“钟离护盾的持续时间与CD”，Grok3回答“护盾永久存在，无冷却”（实际护盾持续20秒，CD12秒）；针对“胡桃E技能是否消耗体力”，模型错误称“不消耗体力”（实际每次开启消耗40体力）。
暗黑破坏神4：形态冷却的混淆
海外玩家测试“德鲁伊狼形态与熊形态的冷却时间”，Grok3不仅将两者冷却时间搞反，还编造“变身持续10分钟”的错误信息——实际变身持续30秒,冷却15秒。

AI评测的“伪命题”：基准分≠实用价值

Grok3的翻车本质是AI领域“标准化评测与现实可用性脱节”的老问题：

训练数据的“偏向性陷阱”
xAI过度聚焦标准化评测的封闭式问题（如固定公式的数学题、明确答案的编程题），忽略了对“日常常识”“游戏实际机制”等非标准化场景的标注，导致模型“只会应对考试，不会解决实际问题”。
行业数据：80%模型的“考试能力”与“干活能力”脱节
根据某第三方AI实用能力评测平台2025年Q3数据，17款主流大模型中，仅3款在“日常场景任务”（如购物清单规划、游戏攻略撰写）中正确率超70%，其余14款均低于60%；而这些模型在标准化评测中的得分均超90分。

用户视角：从点赞10k到调侃“学霸不会生活题”

Reddit论坛上，有用户整理Grok3的12个基础错误案例，获得超10k点赞；技术博主指出，Grok3的算力已达GPT-4的1.2倍，但基础能力缺陷并非算力不足，而是训练策略偏差；网友调侃“Grok3是‘应试学霸’，但连‘生活题’都不会做”。

想第一时间get AI在游戏圈的最新动态，以及热门游戏的实测攻略？赶紧戳33游戏网,一手资讯不迷路！

极限竞速，地平线6解禁倒计时，下周公布首批评测与实机演示

官网变成人网站？《百日战纪》官方愚人节整活恶搞

2026EVO揭晓，不知火舞凭何当选年度最佳格斗角色？

好评合作登山游戏《PEAK》更新上线自动存储功能实装

肉鸽与三消玩法结合《夺宝砖家》4月底推出正式版

百日战纪官网愚人节整活，人网站恶搞新花样引好奇

苏丹的游戏一周年更新，升华之战上线，80万字新故事线+后日谈实装

古林之眼预告片公布，第一人称恐怖冒险，敢挑战吗？

EA Sports FC 26D加密被破，四重防护成空谈

拳头上海操刀英雄联盟ARPG新項目，首次曝光引玩家期待

生化危机4重制版三周年，玩家薅商人成首负

生化危机，安魂曲1.2.0版本更新，拍照模式终于登场！

黎明杀机开发商收七日杀工作室，七日杀更新终于要提速？

怕博德之门剧集改编拉胯？阿斯代伦配音演员恳请给一次机会

星空DLSS5实测，玩家反馈画质提升肉眼可见

评论列表

Amber2026/02/27 回复

Grok3居然连9.11和9.9哪个大都答错，真有点离谱，我之前还挺期待它的，没想到实测翻车了。
Eagle2026/02/27 回复

Grok3这次实测翻车我真惊到了！连9.11和9.9哪个大都答不出有点懵，我之前对它期待值可高了呢，看来AI也不是万能的呀。
DoubtfulUncertain2025/09/06 回复

这Grok3真拉胯，9.11和9.9都分不清，我用类似工具也遇离谱错，看来技术还得进步。
时间藏不住贱人2025/06/05 回复

马斯克的Grok3实测翻车，连9.11和9.9哪个大都答不出，我试了下真被逗笑，这AI咋这么笨呐。