马斯克的Grok3实测翻车!竟连9.11和9.9哪个大都答不出
77
4
AI圈的“分数迷思”最近被马斯克旗下xAI的Grok3戳破——这款曾以“数学、科学、编程三大领域超所有主流模型”为卖点的大模型,在实际测试中接连暴露基础能力短板,让“基准高分=现实强”的认知彻底崩塌。 2025年2月18日,马斯克携xAI团队直播发布Grok3,发布前的造势堪称“拉满”:先是公开点评竞品DeepSeek R1,放话xAI将推出更优模型;随后放出的现场数据显示,Grok3在多项标准化评测中得分领先,马斯克更抛出重磅预期——未来将参与SpaceX火星任务计算,甚至预测“三年内实现诺贝尔奖级别突破”,但这场发布的光环下,藏着两个争议点:xAI仅披露部分评测关键数据,未公开完整测试环境、样本来源与评估标准;而发布会上演示的“Grok3分析《流放之路2》职业”环节,早已被游戏玩家埋下“答案存疑”的伏笔。
基础能力“破功”:常识性错误为何频出?
Grok3的实际表现远不如评测数据亮眼,多个基础场景的失误引发广泛讨论:
- 数值认知:小数点后的“陷阱”与质数计数偏差
除了经典的“9.11和9.9哪个大”(答成9.11更大),有用户测试“1.234和1.2340是否相等”,Grok3回答“不相等,因为小数点后位数不同”;针对“2的10次方是多少”,模型错误给出1023(实际为1024);“100以内质数数量”的问题,答成30个(正确为25个)。 - 科学常识:比萨斜塔实验的“惯性误解”
面对“比萨斜塔上两个质量不同的球哪个先落地”,Grok3不仅答错“铁球先落地”,还错误解释“密度大的物体受重力更大”——忽略了重力加速度与质量无关的基本物理原理。
游戏场景“滑铁卢”:职业机制全错,玩家集体吐槽
Grok3在游戏领域的表现堪称“灾难”,多个热门游戏的测试均暴露严重问题:
- 流放之路系列:不存在的升华与错误天赋
发布会上演示的“《流放之路2》暗影刺客升华技能”被玩家指出“完全不存在”;后续测试《流放之路1》贵族升华职业,错误率达90%——连“贵族可选择任意职业升华”的核心机制都混淆。 - 原神:角色技能描述的“离谱编造”
有玩家测试“钟离护盾的持续时间与CD”,Grok3回答“护盾永久存在,无冷却”(实际护盾持续20秒,CD12秒);针对“胡桃E技能是否消耗体力”,模型错误称“不消耗体力”(实际每次开启消耗40体力)。 - 暗黑破坏神4:形态冷却的混淆
海外玩家测试“德鲁伊狼形态与熊形态的冷却时间”,Grok3不仅将两者冷却时间搞反,还编造“变身持续10分钟”的错误信息——实际变身持续30秒,冷却15秒。
AI评测的“伪命题”:基准分≠实用价值
Grok3的翻车本质是AI领域“标准化评测与现实可用性脱节”的老问题:
- 训练数据的“偏向性陷阱”
xAI过度聚焦标准化评测的封闭式问题(如固定公式的数学题、明确答案的编程题),忽略了对“日常常识”“游戏实际机制”等非标准化场景的标注,导致模型“只会应对考试,不会解决实际问题”。 - 行业数据:80%模型的“考试能力”与“干活能力”脱节
根据某第三方AI实用能力评测平台2025年Q3数据,17款主流大模型中,仅3款在“日常场景任务”(如购物清单规划、游戏攻略撰写)中正确率超70%,其余14款均低于60%;而这些模型在标准化评测中的得分均超90分。
用户视角:从点赞10k到调侃“学霸不会生活题”
Reddit论坛上,有用户整理Grok3的12个基础错误案例,获得超10k点赞;技术博主指出,Grok3的算力已达GPT-4的1.2倍,但基础能力缺陷并非算力不足,而是训练策略偏差;网友调侃“Grok3是‘应试学霸’,但连‘生活题’都不会做”。
想第一时间get AI在游戏圈的最新动态,以及热门游戏的实测攻略?赶紧戳33游戏网,一手资讯不迷路!
![]()