众力资讯网

【陶哲轩直言:大模型数学仅本科水平,难点不在公式】 快速阅读:LLM 的底层数

【陶哲轩直言:大模型数学仅本科水平,难点不在公式】

快速阅读:LLM 的底层数学逻辑其实非常基础,甚至有些枯燥。真正的难题在于,我们能造出这台极其复杂的“引擎”,却无法预判它在什么样的路面上会突然加速,或者在什么时候熄火。

Terence Tao 说 LLM 背后的数学其实很简单,本科水平的线性代数、矩阵乘法和微积分就足够了。这听起来有点冒犯,但确实是事实:我们掌握了制造这些模型的指令集,却依然无法解释它们的行为。

这就像我们完全理解流体力学的方程,却依然无法准确预言湍流的具体走向。这种“机制已知,行为难测”的脱节,让现在的 AI 进展更像是一种经验主义的炼金术。

为什么会这样?

有观点认为,问题的核心在于自然语言的特殊性。它既不像纯粹的噪声那样随机,也不像结构化数据那样规整,而是处于一种“中间态”。这种状态介于字符这种“原子”与语义这种“连续体”之间,目前的数学工具在处理这种尺度时显得非常单薄。

这种不确定性在实际工程中表现得极其粗暴。有网友提到,仅仅改动 Prompt 里的一个 token,准确率就可能产生 20% 的剧烈波动。现在的开发团队做评估,与其说是在做基准测试,不如说是在做类似模糊测试的压力实验。

我们能算出高维向量空间的每一个坐标,但人类的大脑根本无法直观理解千维空间里的几何关系。这种感知能力的缺失,让我们只能通过大规模实验去“撞”出结果,而不是通过理论去“推”出结果。

现在的边界正在发生位移:从“能不能造出来”,变成了“规模化之后,它会变成什么样”。

我们造出了引擎,但还没弄明白为什么它在某些路上跑得飞快,而在另一些路上却纹丝不动。

x.com/rohanpaul_ai/status/2055626471398670447