TON 网络扩展项目 TAC 完成 650 万美元种子轮融资,Hack VC 和 Symbolic Capital 领投,Primitive、Paper Ventures、Karatage、Animoca Ventures、Spartan ...
苹果工程师最近的研究揭示了先进的大型语言模型(LLMs)在推理能力方面的脆弱性。该研究表明,这些模型在面对基准问题的微小变更时,往往难以处理基本的数学推理,突显出其设计上的重大局限性。
近期,苹果公司的一项研究引起了人工智能领域的广泛讨论。研究表明,当前流行的大语言模型(Large Language Models,LLM)如OpenAI的GPT-4及其开源竞争对手,如Llama、Phi、引发了关于模型推理能力的根本性质疑。研究团队强调,这些模型的高效表现其实并不代表它们具备真正的推理能力,更多的是在执行复杂的模式匹配。 在探索模型为何在理解和解决数学题时显得无能为力时,研究团队提 ...
在这项研究中,苹果的研究人员设计了一个被称为GSM-Symbolic的数据集,其目的是全面评估大模型的数学能力,而这份数据集的设计既具有创新性也突显了现有评估方法的不足。与之前的GSM8K数据集相比,GSM-Symbolic进行了必要的修改,使得模型在面对看似全新的问题时,无法利用记忆历史知识简单作答,从而真实反映出其推理能力的极限。这一研究方法的独特之处在于,尽管只是对题目进行细微的调整,例如更 ...