我们终于能用AI安全地“复制”百年脑损伤研究了！斯坦福研究者故意破坏Transf

我们终于能用AI安全地“复制”百年脑损伤研究了！斯坦福研究者故意破坏Transformer的核心部件，结果AI竟出现了和人类失语症一模一样的症状——但损伤类型不同，症状分布也截然有别。

斯坦福AI Lab的研究团队通过对语言模型（主要是1B规模的Transformer架构如Llama、Gemma、OLMo变体）进行“损伤”（零消融特定组件），模拟人类脑损伤导致的失语症。他们针对注意力机制（Q/K/V/O）和前馈网络（FFN的Gate/Up/Down）共7个核心组件，在不同层和损伤严重度下生成文本，共分析了超过11万条输出，使用专为文本设计的“Text Aphasia Battery (TAB)”临床量表进行评分。

主要发现包括：

1. 损伤注意力组件和FFN组件产生的语言失败模式不同，注意力损伤常导致上下文路由或序列控制问题（如循环、重复、指代不稳），FFN损伤更倾向于内容实现受损（如意义模糊、文本简短公式化、主题漂移）。
2. 层深度有影响：早期层损伤更多关联句法和语义症状，中晚层则更像音韵/流利性问题，这与先前脑-LM对齐研究中中晚层峰值的结果形成对比。
整体上，AI损伤能产生人类失语症的各种症状，但分布和负担不同，为可解释性和认知科学提供了伦理、安全的因果实验方法。

众力资讯网

我们终于能用AI安全地“复制”百年脑损伤研究了！斯坦福研究者故意破坏Transf

热门分类