众力资讯网

从编程角度介绍下大模型应用(1)最近大模型产业彻底爆发,从2022年底的聊天,发

从编程角度介绍下大模型应用(1)

最近大模型产业彻底爆发,从2022年底的聊天,发展到最近流行的Agent了,每天消耗的token数量爆增,几百万亿个了。日均Token消耗超过100万亿的公司就有三家,字节、谷歌、OpenAI。很多人天天用大模型很熟了,替代了搜索。agent功能都有不少人用了,小龙虾前段时间很火。有些大模型还是原生多模态的,聊天框里贴图直接就能理解。

但我感觉,大家主要还是从外部,形式上接触大模型和各种形式的大模型应用。它内部运作原理,模模糊糊知道一些,transformer都听说过,注意力机制,思维链,联网搜索,但概念多半不太清晰。其实开源运动起来后,特别是DeepSeek把底层技术说得很细,现在大模型行业基本没有技术秘密了。即使现在最火的Claude,怎么做出来的也不是机密,Claude Code的源代码都泄露了。各家大模型区别就是数据、规模、算力、实现细节,主要是工程上的,理论上没有秘密。当然这个工程特别复杂,没一堆天才支撑着玩不动,还要很多钱买算力,门槛相当高。

我学习以后,一个顿悟是,大模型这一个个厉害的功能与应用,说到底都是程序。只不过大模型应用和以前的程序有些区别,一个是神经网络规模特别大有“智能”了,二个是调用神经网络精心包了很多层,也和以前用神经网络不一样。大家理解程序都没啥问题,仔细解释后,应该就能深入理解大模型应用,并不神秘。首先一条,就不要被“智能”吓住,都是程序。

就比如,以前AlphaGo下棋碾压人类,说“智能”超过人了。但好多团队都开发出厉害的AI围棋程序,就发现这东西实质是程序,就不认为是多高级的智能了,实际功能非常单一。不用扯“智能”的定义,还原到底层,核心就是有一个神经网络数据结构,“价值网络”与“策略网略”合二为一的,一个不太大的神经网络,配个GPU强点的单机就能跑。然后还有CPU去调用这个神经网络,跑一个叫MCTS的概率搜索算法,一会让它输出棋局的价值(黑白局势评估),一会输出好的候选点(从这些点开始推理),跑时间够了概率靠谱了,就能输出“胜率”和前几个不错的高胜率好点,非常准确。

我最近寻思,现在的大模型应用,各类常见的Agent应用,本质上和AlphaGo的程序架构是一样的。只是大家不知道细节,就迷糊,把细节说清楚了,就明白居然是这么回事。小龙虾、AI编程、深度研究、文档处理,这些都可以说是Agent应用,而本质就是编程调用大模型,访问神经网络。甚至最简单的大模型聊天框,也可以这样理解。

这里涉及大模型的结构细节,有时说得很复杂,就图中这个transformer结构框图,解释起来要30多个基础概念,根本没人看。但如果从编程角度看,完全可以当黑盒一样简化处理。大模型训练确实难如登天,但大模型推理真不难,人人都可以快速上手调用大模型,和编程一样玩起来不难。以前大伙学编程的时候,编译原理其实是不用学的,直接理解程序就行。下面我按这个路线,从大模型聊天框开始,解释各类大模型应用具体是如何实现的。确实很多细节,要了解细节才能明白怎么回事。