AI大模型平台集体失算：9.11和9.9大小比较难倒八家巨头

• 发布时间:2024-07-26 10:10:13•浏览次数:165

7月17日，人工智能大模型在数学上的失误引发关注。

一道“9.11与9.9哪个更大”的简单数学题，难住了国内外多个AI大模型平台。其中，百度文心一言、阿里通义千问、腾讯元宝、Minimax答对了，而ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量则答错，且错误各不相同。

公认的全球顶尖大模型ChatGPT认为，9.11大于9.9，理由是小数点后的数字“11”大于“9”。当追问其他比较方法时，ChatGPT将小数转换为分数比较，得出“11/100比90/100小”，这步是对的，但随后又得出“因此9.11比9.9大”，逻辑错误。

国内大模型月之暗面kimi认为，9.11的第一位小数是1，而9.9的第一位小数是0，所以9.11更大。当提出质疑后，kimi才承认自己的答案错误，并给出了正确的比较方法。

字节豆包不仅给出答案，还举例说“9.11元比9.9元多0.21元”以及“9.11米比9.9米长”。看似有理有据，但实际是胡说八道。

AI大模型平台集体失算：9.11和9.9大小比较难倒八家巨头

商汤商量大模型给出的答案也是错误的。追问其比较过程时，它正确得出小数0.11小于0.9，但又称“所以9.11大于9.9”。指出了逻辑问题后，商量承认“解释有误”。

值得注意的是，上月AI大模型也因数学失误引发热议。6月19日，上海人工智能实验室发布AI高考全卷评测结果，大模型的语文、英语水平普遍较高，但数学都不及格。

业内人士认为，大模型答数学题普遍“吃瘪”的原因，可能是它们过度依赖训练数据模式，导致出现幻觉。大模型也难以应对复杂推理。

该负责人进一步指出，从大模型应用的更广阔视角出发，AI 是否能精确地遵照指令，是近期备受关注的关键问题，其潜在的商业价值也可能由此产生。相比之下，解数学题对现阶段的 AI 而言，仍然是一项展示技术的「炫技」行为。

业内人士对南方都市报表示，目前无论是国内还是国外，大模型的数理能力都相对较弱。一位业内人士形象地比喻道：「大模型就像偏科的学生，文科强劲，理科薄弱，这种状况在短期内不太可能得到明显的改善。」

拨打服务热线后的评价

超帅先生2024-08-08

维修师傅服务态度很好，快速的解决了问题，维修速度很快很专业

猫~2024-08-08

不知道是因为什么原因，师傅上门来给我检查了，告诉我了是什么原因，什么问题，然后我就让他修了，修理的很好，价格收费什么的也很合理

Maio2024-08-04

师傅服务态度很好，按约定好的时间很准时到了，维修很专业，一会儿功夫就给修好了，现在终于可以正常运作了

唐伍君2024-07-30

师父上门维修特别快，很仔细很认真，工作态度端正，而且其他问题也能帮忙处理没有收其他费用很满意

碧水铃2024-07-30

预约了师傅马上来上门来了，费用还是可以接受的，师傅态度做事不错

硪的醉暧2024-07-28

有专业的技术的人员，都拥有专业的培训，服务质量好，态度满意，价格合理

发***火（匿名2024-07-10

收费合理，师傅上门准时。态度挺好

俊2024-07-01

找了师傅上门，检查后说是线路故障了，换了一下，半个小时就修好了，很专业

是阿雯吖2024-05-08

下单后师傅很快就联系我了，跟师傅电话聊好价格就上门了，换了显示面板、目前没有再继续乱响。

回忆童年2024-04-01

已修好，师傅服务周到，态度很好

查看更多评价 ∨