我们终于能用AI安全地“复制”百年脑损伤研究了!斯坦福研究者故意破坏Transformer的核心部件,结果AI竟出现了和人类失语症一模一样的症状——但损伤类型不同,症状分布也截然有别。
斯坦福AI Lab的研究团队通过对语言模型(主要是1B规模的Transformer架构如Llama、Gemma、OLMo变体)进行“损伤”(零消融特定组件),模拟人类脑损伤导致的失语症。他们针对注意力机制(Q/K/V/O)和前馈网络(FFN的Gate/Up/Down)共7个核心组件,在不同层和损伤严重度下生成文本,共分析了超过11万条输出,使用专为文本设计的“Text Aphasia Battery (TAB)”临床量表进行评分。
主要发现包括:
1. 损伤注意力组件和FFN组件产生的语言失败模式不同,注意力损伤常导致上下文路由或序列控制问题(如循环、重复、指代不稳),FFN损伤更倾向于内容实现受损(如意义模糊、文本简短公式化、主题漂移)。
2. 层深度有影响:早期层损伤更多关联句法和语义症状,中晚层则更像音韵/流利性问题,这与先前脑-LM对齐研究中中晚层峰值的结果形成对比。
整体上,AI损伤能产生人类失语症的各种症状,但分布和负担不同,为可解释性和认知科学提供了伦理、安全的因果实验方法。
