快科技10月13日音讯,近日,公司的AI推敲团队发表了一篇题为\"Understanding the Limitations of Large Language Models in Mathematical Reasoning\"的论文,揭示了大型言语模子(LLM)在数学推理方面的显赫局限性。
尽管这些模子在生成东谈主类水平的文本方面弘扬出色,但当解决省略的数知识题时,即使问题仅进行了轻飘的蜕变,如添加无关信息,模子的弘扬也会急剧下跌。
在论文中,推敲东谈主员通过一个省略的数知识题解释了这少量。
他们残酷了一个对于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数目是周五的两倍。奥利弗有几许个猕猴桃?
此时,LLM简略正确地揣度出谜底。
关联词,一朝问题中加入了无关的细节,如\"其中5个奇异果比平均小\",模子便给出了作假的谜底。
推敲东谈主员进一步对数百个近似的问题进行了修改,发现险些统统问题的修改王人导致了LLM回复收服从的大幅裁减。
这一发现标明,LLM并未真确麇集数知识题,而是更多地依赖于磨练数据中的方法进行展望。
当需要进行真确的逻辑推理时,这些模子一样无法产生合理的成果,这一发现对东谈主工智能的发展提供了攻击的参考。
诚然LLM在很多规模弘扬优异,但其推理时间仍有待校正。