• 发布时间:2024-07-26 10:10:13•浏览次数:127
7月17日,人工智能大模型在数学上的失误引发关注。
一道“9.11与9.9哪个更大”的简单数学题,难住了国内外多个AI大模型平台。其中,百度文心一言、阿里通义千问、腾讯元宝、Minimax答对了,而ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量则答错,且错误各不相同。
公认的全球顶尖大模型ChatGPT认为,9.11大于9.9,理由是小数点后的数字“11”大于“9”。当追问其他比较方法时,ChatGPT将小数转换为分数比较,得出“11/100比90/100小”,这步是对的,但随后又得出“因此9.11比9.9大”,逻辑错误。
国内大模型月之暗面kimi认为,9.11的第一位小数是1,而9.9的第一位小数是0,所以9.11更大。当提出质疑后,kimi才承认自己的答案错误,并给出了正确的比较方法。
字节豆包不仅给出答案,还举例说“9.11元比9.9元多0.21元”以及“9.11米比9.9米长”。看似有理有据,但实际是胡说八道。
商汤商量大模型给出的答案也是错误的。追问其比较过程时,它正确得出小数0.11小于0.9,但又称“所以9.11大于9.9”。指出了逻辑问题后,商量承认“解释有误”。
值得注意的是,上月AI大模型也因数学失误引发热议。6月19日,上海人工智能实验室发布AI高考全卷评测结果,大模型的语文、英语水平普遍较高,但数学都不及格。
业内人士认为,大模型答数学题普遍“吃瘪”的原因,可能是它们过度依赖训练数据模式,导致出现幻觉。大模型也难以应对复杂推理。
该负责人进一步指出,从大模型应用的更广阔视角出发,AI 是否能精确地遵照指令,是近期备受关注的关键问题,其潜在的商业价值也可能由此产生。相比之下,解数学题对现阶段的 AI 而言,仍然是一项展示技术的「炫技」行为。
业内人士对南方都市报表示,目前无论是国内还是国外,大模型的数理能力都相对较弱。一位业内人士形象地比喻道:「大模型就像偏科的学生,文科强劲,理科薄弱,这种状况在短期内不太可能得到明显的改善。」
维修师傅服务态度很好,快速的解决了问题,维修速度很快很专业
不知道是因为什么原因,师傅上门来给我检查了,告诉我了是什么原因,什么问题,然后我就让他修了,修理的很好,价格收费什么的也很合理
师傅服务态度很好,按约定好的时间很准时到了,维修很专业,一会儿功夫就给修好了,现在终于可以正常运作了
师父上门维修特别快,很仔细很认真,工作态度端正,而且其他问题也能帮忙处理没有收其他费用很满意
预约了师傅马上来上门来了,费用还是可以接受的,师傅态度做事不错
有专业的技术的人员,都拥有专业的培训,服务质量好,态度满意,价格合理
收费合理,师傅上门准时。态度挺好
找了师傅上门,检查后说是线路故障了,换了一下,半个小时就修好了,很专业
下单后师傅很快就联系我了,跟师傅电话聊好价格就上门了,换了显示面板、目前没有再继续乱响。
已修好,师傅服务周到,态度很好