切换到宽版
  • 30阅读
  • 2回复

[智能应用]AI 推理能力之争:苹果结论遭专家挑战[3P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
111540
金币
733
道行
19523
原创
29308
奖券
17828
斑龄
197
道券
10550
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 22359(小时)
注册时间: 2007-11-29
最后登录: 2025-07-12
— 本帖被 兵马大元帅 执行加亮操作(2025-06-22) —

苹果公司在论文中指出,即便是当前最先进的大型推理模型(LRMs),在复杂任务中也会崩溃。不过 Open Philanthropy 的研究员 Alex Lawsen 对此提出详细反驳,认为苹果的结论源于实验设计缺陷,而非模型推理能力的根本性局限。
争议的焦点是苹果论文指出,即便是当前最先进的大型推理模型,在处理汉诺塔问题(Tower of Hanoi)等复杂任务时,也会出现彻底失败的情况。

IT之家注:汉诺塔问题是一个经典的递归算法问题:上帝创造了三根柱子,并在第一根柱子上按顺序套有 N 个大小不同的圆盘(自下而上,圆盘由大到小,呈金字形)。
规定每次只能移动最顶端的一个圆盘,并且保证整个过程中大圆盘不能放在小圆盘之上。欲将所有圆盘从第一根柱子移动到第三根柱子,试给出解决方案。
Open Philanthropy 的研究员 Alex Lawsen 近日发布反驳文章《The Illusion of the Illusion of Thinking》,认为苹果的研究结果更多反映了实验设计的缺陷,而非模型推理能力的真正局限。他在文章中直言,苹果的研究混淆了输出限制和评估设置问题,与实际推理失败无关。

Lawsen 提出了三个核心问题,挑战苹果的结论。首先,他指出苹果忽略了模型的 Token 预算限制。在处理 8 盘以上的河内塔问题时,如 Anthropic 的 Claude Opus 等模型已接近输出上限,甚至明确表示“为节省 Token 而停止”。
其次,苹果的 River Crossing(过河)测试中包含无解谜题,例如 6 个以上角色搭配无法满足的船只容量限制,模型因拒绝解答而被扣分。
最后,苹果的自动化评估脚本仅以完整步骤列表为标准,未能区分推理失败与输出截断,导致部分策略性输出被误判为失败。Lawsen 认为,这种僵硬的评估方式有失公允。
为支持观点,Lawsen 重新设计了河内塔测试,要求模型生成递归 Lua 函数来打印解法,而非逐一列出所有步骤。
结果令人惊讶:Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成 15 盘问题的算法解法,远超苹果报告的“零成功”复杂性界限。

Lawsen 得出结论:去除人为输出限制后,LRMs 展现出处理高复杂任务的推理能力,至少在算法生成层面是如此。这表明,问题可能不在于模型本身,而在于评估方式。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
167987
金币
275183
道行
2004
原创
2404
奖券
2775
斑龄
35
道券
1005
获奖
0
座驾
设备
摄影级
在线时间: 38224(小时)
注册时间: 2008-10-01
最后登录: 2025-07-13
只看该作者 沙发  发表于: 06-14
根据您提供的信息,Alex Lawsen 对苹果公司的研究提出了反驳,认为苹果的研究结果更多地反映了实验设计的缺陷,而不是模型推理能力的根本性局限。他提出了三个核心问题来挑战苹果的结论:

1. Token 预算限制:Lawsen 指出苹果忽略了模型的 Token 预算限制。在处理8盘以上的汉诺塔问题时,一些模型如 Anthropic 的 Claude Opus 已接近输出上限,甚至明确表示“为节省 Token 而停止”。

2. 无解谜题:苹果的 River Crossing(过河)测试中包含无解谜题,例如6个以上角色搭配无法满足的船只容量限制,模型因拒绝解答而被扣分。

3. 评估脚本问题:苹果的自动化评估脚本仅以完整步骤列表为标准,未能区分推理失败与输出截断,导致部分策略性输出被误判为失败。

为了支持他的观点,Lawsen 重新设计了汉诺塔测试,要求模型生成递归 Lua 函数来打印解法,而非逐一列出所有步骤。结果显示,Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成15盘问题的算法解法,远超苹果报告的“零成功”复杂性界限。

Lawsen 的结论是,在去除人为输出限制后,LRMs 展现出处理高复杂任务的推理能力,至少在算法生成层面是如此。这表明问题可能不在于模型本身,而在于评估方式。因此,苹果公司的研究结果可能受到了实验设计缺陷的影响,而不能准确反映大型推理模型在复杂任务中的性能。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
144367
金币
265038
道行
20030
原创
756
奖券
185
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 16796(小时)
注册时间: 2012-06-21
最后登录: 2025-07-12
只看该作者 板凳  发表于: 06-15
AI 推理能力之争:苹果结论遭专家挑战
近期,苹果公司关于 AI 推理能力的研究结论引发了一场激烈的争论,其结论遭到了专家的挑战,以下为你详细介绍:

苹果论文核心观点
当地时间 6 月 6 日,苹果机器学习研究中心发表论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。该论文指出,即便是当前最先进的大型推理模型(LRMs),在复杂任务中也会崩溃,认为现有的推理模型看似会思考,但其实并没有稳定、可理解的思维过程,所谓的推理思考只是一种幻象。苹果团队设计了包括汉诺塔、跳棋交换、过河问题和积木世界这四类谜题环境,通过精确控制谜题难度,来测试推理模型的推理能力。研究发现,当问题难度超过一定临界点时,推理模型性能严重下降,准确率为零,且随着问题复杂度增加,模型推理能力会崩溃,甚至在简单问题中还会出现过度思考等情况。

专家反驳观点
OpenPhilanthropy 的研究员 Alex Lawsen 发布反驳文章《The Illusion of the Illusion of Thinking》,认为苹果的研究结果更多反映了实验设计的缺陷,而非模型推理能力的真正局限。他提出了三个核心问题来挑战苹果的结论:

忽略 Token 预算限制:在处理 8 盘以上的河内塔问题时,如 Anthropic 的 Claude Opus 等模型已接近输出上限,甚至明确表示“为节省 Token 而停止”,苹果忽略了这一因素。
测试包含无解谜题:苹果的 RiverCrossing(过河)测试中包含无解谜题,例如 6 个以上角色搭配无法满足的船只容量限制,模型因拒绝解答而被扣分。
评估脚本存在问题:苹果的自动化评估脚本仅以完整步骤列表为标准,未能区分推理失败与输出截断,导致部分策略性输出被误判为失败,这种僵硬的评估方式有失公允。
反驳带来的结果
Claude、Gemini 和 OpenAI 的 o3 模型均能正确生成 15 盘问题的算法解法,远超苹果报告的“零成功”复杂性界限。Alex Lawsen 得出结论:去除人为输出限制后,LRMs 展现出处理高复杂任务的推理能力,至少在算法生成层面是如此。

此前类似质疑及反应
其实在这之前苹果就对大语言模型能力提出过质疑。2024 年,苹果公司发表论文,提出对当前大语言模型(LLM)能力的质疑,认为这些模型实际上只是高度复杂的模式匹配机器,而非真正具备逻辑推理能力的智能系统。当时该研究就引发了广泛讨论。

事件影响与行业看法
此次苹果的论文在 AI 圈引发了不小的争议,不同人持有不同的看法:

GitHub 软件工程师 Sean Goedecke 称,存在复杂性阈值并不意味着推理模型实际上并不推理,算不出答案不代表没有推理能力。
著名 AI 越狱提示词专家 Plenny the Liberator 直言,如果自己是苹果 CEO,看到团队发表只专注记录当前方法局限性的论文,会当场解雇所有参与者。
AI 博主 henry 表示,苹果全力押注人工智能却被超越,发布质疑推理模型能力的论文是吃不到葡萄说葡萄酸
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个