24小时故障咨询电话点击右边热线,客服在线解答故障号码:400-889-3660
AI大模型平台集体失算:9.11和9.9大小比较难倒八家巨头

AI大模型平台集体失算:9.11和9.9大小比较难倒八家巨头

发布时间:2024-07-26 10:10:13•浏览次数:127

7月17日,人工智能大模型在数学上的失误引发关注。

AI大模型平台集体失算:9.11和9.9大小比较难倒八家巨头

一道“9.11与9.9哪个更大”的简单数学题,难住了国内外多个AI大模型平台。其中,百度文心一言、阿里通义千问、腾讯元宝、Minimax答对了,而ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量则答错,且错误各不相同。

公认的全球顶尖大模型ChatGPT认为,9.11大于9.9,理由是小数点后的数字“11”大于“9”。当追问其他比较方法时,ChatGPT将小数转换为分数比较,得出“11/100比90/100小”,这步是对的,但随后又得出“因此9.11比9.9大”,逻辑错误。

国内大模型月之暗面kimi认为,9.11的第一位小数是1,而9.9的第一位小数是0,所以9.11更大。当提出质疑后,kimi才承认自己的答案错误,并给出了正确的比较方法。

字节豆包不仅给出答案,还举例说“9.11元比9.9元多0.21元”以及“9.11米比9.9米长”。看似有理有据,但实际是胡说八道。

AI大模型平台集体失算:9.11和9.9大小比较难倒八家巨头

商汤商量大模型给出的答案也是错误的。追问其比较过程时,它正确得出小数0.11小于0.9,但又称“所以9.11大于9.9”。指出了逻辑问题后,商量承认“解释有误”。

值得注意的是,上月AI大模型也因数学失误引发热议。6月19日,上海人工智能实验室发布AI高考全卷评测结果,大模型的语文、英语水平普遍较高,但数学都不及格。

业内人士认为,大模型答数学题普遍“吃瘪”的原因,可能是它们过度依赖训练数据模式,导致出现幻觉。大模型也难以应对复杂推理。

该负责人进一步指出,从大模型应用的更广阔视角出发,AI 是否能精确地遵照指令,是近期备受关注的关键问题,其潜在的商业价值也可能由此产生。相比之下,解数学题对现阶段的 AI 而言,仍然是一项展示技术的「炫技」行为。

业内人士对南方都市报表示,目前无论是国内还是国外,大模型的数理能力都相对较弱。一位业内人士形象地比喻道:「大模型就像偏科的学生,文科强劲,理科薄弱,这种状况在短期内不太可能得到明显的改善。」

拨打服务热线后的评价
超帅先生2024-08-08

维修师傅服务态度很好,快速的解决了问题,维修速度很快很专业

猫~2024-08-08

不知道是因为什么原因,师傅上门来给我检查了,告诉我了是什么原因,什么问题,然后我就让他修了,修理的很好,价格收费什么的也很合理

Maio2024-08-04

师傅服务态度很好,按约定好的时间很准时到了,维修很专业,一会儿功夫就给修好了,现在终于可以正常运作了

唐伍君2024-07-30

师父上门维修特别快,很仔细很认真,工作态度端正,而且其他问题也能帮忙处理没有收其他费用很满意

碧水铃2024-07-30

预约了师傅马上来上门来了,费用还是可以接受的,师傅态度做事不错

硪的醉暧2024-07-28

有专业的技术的人员,都拥有专业的培训,服务质量好,态度满意,价格合理

发***火(匿名2024-07-10

收费合理,师傅上门准时。态度挺好

2024-07-01

找了师傅上门,检查后说是线路故障了,换了一下,半个小时就修好了,很专业

是阿雯吖2024-05-08

下单后师傅很快就联系我了,跟师傅电话聊好价格就上门了,换了显示面板、目前没有再继续乱响。

回忆童年2024-04-01

已修好,师傅服务周到,态度很好

查看更多评价 ∨
电话
预约报修
维修电话