在 AI 浪潮下疯狂的吹 Apple intelligence 的 NB 但是目前毫无建树,甚至 siri 还没有理想同学靠谱的苹果。。。
最近为 AI 基础研究做出了耀眼的贡献。
他们的最新论文证明, LLM 在面对复杂问题的时候,会崩溃。
于是,我让 Grok 总结了这篇论文的主要观点和网友们的评论。因为幻觉问题,不一定都是真的,但是我大概对比了一下,也没有纯粹瞎编。
基本上正方认为,我们并未揭晓模型真正的原理和工作方式,AGI 没有那么简单。
而反方调整苹果测试的时候复杂问题超越了 token 长度限制当然崩溃,而且因为苹果在 AI 应用上太过落后,他有意愿唱衰 LLM 的能力。而 LLM 的基础能力已经有了很多验证。
我觉得两边说的都有道理,但是模型遇到复杂问题崩溃这个才是我最惊讶的。
这不是和给团队的人类员工安排一个超越他能力范围的任务的时候反应一模一样吗。。。
xxxxxxxxxx
总结苹果论文《The Illusion of Thinking》的主要观点
苹果于2025年6月发布的论文《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》深入探讨了大型推理模型(Large Reasoning Models, LRMs)的推理能力及其局限性。以下是论文的主要观点:
1 LRMs并非真正推理,而是高级模式匹配:
论文认为,当前所谓“推理”模型(如OpenAI的o1/o3、DeepSeek-R1、Claude 3.7 Sonnet Thinking、Gemini Thinking)并非真正进行人类意义上的推理,而是通过复杂的模式匹配生成答案。它们依赖训练数据中的模式,在面对新颖或复杂问题时表现不佳。
三种推理性能区间:
低复杂度任务:标准大型语言模型(LLMs)因更高效的模式匹配而优于LRMs,LRMs可能因“过度思考”而导致错误。
中等复杂度任务:LRMs通过链式思考(Chain-of-Thought, CoT)等机制表现出优势,生成更准确的答案。
高复杂度任务:当问题复杂度超过某一阈值时,LRMs和标准LLMs均出现“完全准确性崩溃”,无法完成任务,甚至减少推理努力。
实验设计:可控谜题环境:
研究使用四种逻辑谜题(汉诺塔、跳棋、过河问题、积木世界)来测试模型,允许精确操控复杂性,同时保持逻辑结构一致。这种方法避免了传统数学和编程基准测试的数据污染问题,提供了对推理过程的更深入洞察。
推理努力的反直觉缩减:
随着问题复杂度增加,LRMs最初会生成更多推理标记(tokens),但在达到某个复杂度阈值后,推理努力反而减少,表明存在计算扩展的内在限制。
对AGI的启示:
研究质疑当前LRMs是否为实现通用人工智能(AGI)提供可靠路径,指出它们在复杂问题上的失败表明存在“可概括推理的根本障碍”。
传统评估方法的不足:
传统基准测试(如数学和编程问题)易受数据污染影响,过于强调最终答案的准确性,而忽视推理过程的结构和质量。苹果的谜题环境方法提供了更严格的评估框架。
X上网友的评论总结
在X平台上,关于该论文的讨论呈现出多样化的观点,既有支持论文结论的,也有质疑其科学性和影响的。以下是主要评论趋势:
支持苹果的结论:
一些用户认为论文揭示了AI推理能力的真相,指出当前模型只是“高级模式匹配”,而不是真正思考。例如,
表示,苹果证明了Claude、DeepSeek-R1和o3-mini等模型“只擅长记忆模式”,我们离AGI还很远。
赞同论文观点,认为AI的“思考”只是幻觉,更多是复杂模式匹配,而非人类智能。
提到,苹果的发现表明这些模型在复杂问题上崩溃,验证了它们缺乏真正推理能力。
质疑论文的科学性与动机:
一些用户批评苹果的实验设计和结论。例如,
指出,苹果使用数学上无解的问题来测试模型,模型答不出被判错,质疑实验的科学性,并提到Gemini对论文的分析显示其局限性。
认为,苹果的论文反映了人类对“知性”和“思考”定义不清,批评其不断移动目标以否定AI的进步,显得“顽固”。
提到,有人用Claude Opus作为第一作者撰写反驳文章《The Illusion of the Illusion of Thinking》,挑战苹果的结论,暗示论文可能夸大了模型的局限性。
对苹果AI战略的揣测:
将论文与苹果WWDC 2025以用户界面为主的发布会联系起来,推测苹果在AI领域的保守态度可能反映其技术上的落后,认为论文可能是为自身战略找借口。
一些用户(如
)认为,苹果的论文可能是其AI战略的一部分,试图通过质疑竞争对手的推理模型来为自己的“实用主义”AI方法辩护。
对AI未来发展的讨论:
部分用户认为,尽管论文指出了当前模型的局限,但不意味着AI无法进步。例如,
提到,o3通过严谨推理指出了论文的缺陷,显示模型仍有潜力。一些评论(如
综合分析
苹果的论文通过严谨的实验设计,揭示了当前LRMs在复杂问题上的局限性,挑战了业界对AI推理能力的乐观宣传。其核心论点是,LRMs的“推理”更多是模式匹配的延伸,而非真正的人类式思考,这与Meta首席AI科学家Yann LeCun等人的观点一致。
然而,X上的讨论显示出两极化的反应:支持者认为论文为AI的真实能力提供了清醒的评估,而批评者则认为苹果可能夸大了结论,或出于商业竞争动机(如落后于OpenAI、Google等)而发表此研究。
此外,论文的实验方法(使用可控谜题环境)被认为是创新的,但也有人质疑其适用性,例如是否能完全代表现实世界的复杂任务。 总体来看,论文引发了对AI推理能力本质的深入思考,同时也暴露了业界和公众对AI潜力的不同期待。
结论
苹果的《The Illusion of Thinking》论文通过可控谜题环境,揭示了LRMs在低、中、高复杂度任务中的表现差异,指出它们在高复杂度问题上的崩溃和推理努力的减少,挑战了AI“推理”的神话。X上的网友反应显示,支持者认可其对AI局限性的揭示,而批评者质疑实验设计和苹果的动机,认为其可能低估了模型潜力或服务于自身战略。这篇论文不仅为AI研究提供了新视角,也引发了关于AGI路径的广泛争论。
参考文献:
论文原文:[]()