[CL]《Yourthoughtstellwhoyouare:Cha

爱生活爱珂珂 2025-10-01 06:57:21

[CL]《Your thoughts tell who you are: Characterize the reasoning patterns of LRMs》Y Chen, Y Mao, X Yang, S Ge... [Meta Superintelligence Labs & Harvard University] (2025)

LRMs 的思维模式远非表面准确率的简单映射,它们的“思考方式”本身蕴含着区分模型身份的重要信息。最新研究“Your thoughts tell who you are”通过引入 LLM-proposed Open Taxonomy(LOT)方法,首次从归纳角度揭示并量化了不同 LRMs 之间的推理差异,带来以下关键发现:

• LOT 利用大语言模型自动从两种 LRM 的推理轨迹中提炼区别性特征,生成可读的推理分类体系,迭代更新,最终实现 80-100% 的高准确度区分不同规模、基础模型家族及专业领域的 LRMs。相比人类预设的推理分类和现有自动提示工程方法,LOT 在分类性能上显著领先(最高提升 23.8%)。

• 模型规模与推理习惯紧密相关。大型模型(如 Qwen3-32B)更善于回忆相关知识、验证方法适用性,且逻辑连贯,细节执行到位;而小型模型易出现循环推理、理论应用不当、频繁假设转换导致自我混淆。此外,文本模型在化学题中竟会“绘制”分子结构的文本式表示,体现出反直觉的认知策略。

• 基础模型家族和任务领域也塑造了推理风格。基于同一基础模型微调的 LRMs 思路更接近,差异主要体现在推理行为的频率而非种类。专门领域微调(如 Seed-Coder-8B-Reasoning)甚至会将编程思维迁移到数学题中,出现编写并模拟 Python 代码解决数学问题的现象,显示出训练领域对推理习惯的“惯性”影响。

• 通过对小型 Qwen3 模型的推理轨迹进行语义层面编辑,使其推理风格更接近大型模型,测试准确率提升明显(3.3-5.7%),证明推理习惯的调整具备因果提升模型表现的潜力。

心得:

1. 推理风格是模型“个性化”表现,识别并理解这些差异有助于精准调优和模型选择。

2. 训练规模与领域细分不仅影响性能,也深刻塑造模型的思维路径,认知策略的迁移与惯性值得深入研究。

3. 纯粹依赖准确率掩盖了推理过程的复杂性,构建可解释、动态进化的推理特征体系为理解和提升 LRM 打开新局。

了解详情🔗arxiv.org/abs/2509.24147

大语言模型推理模式模型解释人工智能自动提示工程

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注