马斯克的Grok3实测翻车!竟连9.11和9.9哪个大都答不出

77 4

AI圈的“分数迷思”最近被马斯克旗下xAI的Grok3戳破——这款曾以“数学、科学、编程三大领域超所有主流模型”为卖点的大模型,在实际测试中接连暴露基础能力短板,让“基准高分=现实强”的认知彻底崩塌。 2025年2月18日,马斯克携xAI团队直播发布Grok3,发布前的造势堪称“拉满”:先是公开点评竞品DeepSeek R1,放话xAI将推出更优模型;随后放出的现场数据显示,Grok3在多项标准化评测中得分领先,马斯克更抛出重磅预期——未来将参与SpaceX火星任务计算,甚至预测“三年内实现诺贝尔奖级别突破”,但这场发布的光环下,藏着两个争议点:xAI仅披露部分评测关键数据,未公开完整测试环境、样本来源与评估标准;而发布会上演示的“Grok3分析《流放之路2》职业”环节,早已被游戏玩家埋下“答案存疑”的伏笔。

基础能力“破功”:常识性错误为何频出?

Grok3的实际表现远不如评测数据亮眼,多个基础场景的失误引发广泛讨论:

  • 数值认知:小数点后的“陷阱”与质数计数偏差
    除了经典的“9.11和9.9哪个大”(答成9.11更大),有用户测试“1.234和1.2340是否相等”,Grok3回答“不相等,因为小数点后位数不同”;针对“2的10次方是多少”,模型错误给出1023(实际为1024);“100以内质数数量”的问题,答成30个(正确为25个)。
  • 科学常识:比萨斜塔实验的“惯性误解”
    面对“比萨斜塔上两个质量不同的球哪个先落地”,Grok3不仅答错“铁球先落地”,还错误解释“密度大的物体受重力更大”——忽略了重力加速度与质量无关的基本物理原理。

游戏场景“滑铁卢”:职业机制全错,玩家集体吐槽

Grok3在游戏领域的表现堪称“灾难”,多个热门游戏的测试均暴露严重问题:

  • 流放之路系列:不存在的升华与错误天赋
    发布会上演示的“《流放之路2》暗影刺客升华技能”被玩家指出“完全不存在”;后续测试《流放之路1》贵族升华职业,错误率达90%——连“贵族可选择任意职业升华”的核心机制都混淆。
  • 原神:角色技能描述的“离谱编造”
    有玩家测试“钟离护盾的持续时间与CD”,Grok3回答“护盾永久存在,无冷却”(实际护盾持续20秒,CD12秒);针对“胡桃E技能是否消耗体力”,模型错误称“不消耗体力”(实际每次开启消耗40体力)。
  • 暗黑破坏神4:形态冷却的混淆
    海外玩家测试“德鲁伊狼形态与熊形态的冷却时间”,Grok3不仅将两者冷却时间搞反,还编造“变身持续10分钟”的错误信息——实际变身持续30秒,冷却15秒。

AI评测的“伪命题”:基准分≠实用价值

Grok3的翻车本质是AI领域“标准化评测与现实可用性脱节”的老问题:

  • 训练数据的“偏向性陷阱”
    xAI过度聚焦标准化评测的封闭式问题(如固定公式的数学题、明确答案的编程题),忽略了对“日常常识”“游戏实际机制”等非标准化场景的标注,导致模型“只会应对考试,不会解决实际问题”。
  • 行业数据:80%模型的“考试能力”与“干活能力”脱节
    根据某第三方AI实用能力评测平台2025年Q3数据,17款主流大模型中,仅3款在“日常场景任务”(如购物清单规划、游戏攻略撰写)中正确率超70%,其余14款均低于60%;而这些模型在标准化评测中的得分均超90分。

用户视角:从点赞10k到调侃“学霸不会生活题”

Reddit论坛上,有用户整理Grok3的12个基础错误案例,获得超10k点赞;技术博主指出,Grok3的算力已达GPT-4的1.2倍,但基础能力缺陷并非算力不足,而是训练策略偏差;网友调侃“Grok3是‘应试学霸’,但连‘生活题’都不会做”。

想第一时间get AI在游戏圈的最新动态,以及热门游戏的实测攻略?赶紧戳33游戏网,一手资讯不迷路!

马斯克的Grok3实测翻车!竟连9.11和9.9哪个大都答不出

极限竞速,地平线6解禁倒计时,下周公布首批评测与实机演示

官网变成人网站?《百日战纪》官方愚人节整活恶搞

2026EVO揭晓,不知火舞凭何当选年度最佳格斗角色?

好评合作登山游戏《PEAK》更新上线 自动存储功能实装

肉鸽与三消玩法结合 《夺宝砖家》4月底推出正式版

百日战纪官网愚人节整活,人网站恶搞新花样引好奇

苏丹的游戏一周年更新,升华之战上线,80万字新故事线+后日谈实装

古林之眼预告片公布,第一人称恐怖冒险,敢挑战吗?

EA Sports FC 26D加密被破,四重防护成空谈

拳头上海操刀英雄联盟ARPG新項目,首次曝光引玩家期待

生化危机4重制版三周年,玩家薅商人成首负

生化危机,安魂曲1.2.0版本更新,拍照模式终于登场!

黎明杀机开发商收七日杀工作室,七日杀更新终于要提速?

怕博德之门剧集改编拉胯?阿斯代伦配音演员恳请给一次机会

星空DLSS5实测,玩家反馈画质提升肉眼可见

评论列表
  1. Amber 回复
    Grok3居然连9.11和9.9哪个大都答错,真有点离谱,我之前还挺期待它的,没想到实测翻车了。
  2. Eagle 回复
    Grok3这次实测翻车我真惊到了!连9.11和9.9哪个大都答不出有点懵,我之前对它期待值可高了呢,看来AI也不是万能的呀。
  3. 这Grok3真拉胯,9.11和9.9都分不清,我用类似工具也遇离谱错,看来技术还得进步。
  4. 马斯克的Grok3实测翻车,连9.11和9.9哪个大都答不出,我试了下真被逗笑,这AI咋这么笨呐。