AI解数学题只靠最后一个tokenAI算数只要最后一个token
大语言模型在解心算题时,只依赖最后一个token?
最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。
AI解数学题只靠最后一个tokenAI算数只要最后一个token
大语言模型在解心算题时,只依赖最后一个token?
最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的最后一个token上完成,而不是分散在所有token中。
这意味着,相较于在Transformer和多层感知机(MLP)中常见的全局信息访问——即每个token在预测时都能查询并利用整个上文信息——在诸如心算这样的特定任务中,全局访问其实并不是必需的。
作者最新文章
热门分类
科技TOP
科技最新文章