起底deepseek爆火背后的推手 deepseek爆火掀起涨停潮
在当今的科技领域,DeepSeek无疑是一颗璀璨夺目的新星,以其卓越表现掀起了一场全球性的AI风暴,成功吸引了各界的高度关注。
从股权关联层面来看,DeepSeek的崛起有着强大的资本后盾。每日互动,作为数据服务领域的佼佼者,以幻方量化二股东的身份,在DeepSeek的发展进程中扮演着关键角色。这种股权关系不仅赋予了每日互动在DeepSeek战略决策中的重要话语权,更为双方在数据资源与技术研发等方面的深度合作搭建了天然桥梁,为DeepSeek的持续创新提供了有力支撑。浙江东方同样眼光独到,通过旗下杭州东方嘉富基金参投DeepSeek天使轮,早早地为其发展注入了宝贵资金,这一前瞻性布局不仅体现了浙江东方对新兴科技的敏锐洞察力,更有望在未来收获丰厚的回报,同时也为DeepSeek的早期成长奠定了坚实的资金基础。
在团队实力方面,DeepSeek堪称是年轻人才的创新摇篮。团队中,来自清北等高校的应届生与在读生表现活跃,他们以卓越的才华和创新精神,为DeepSeek的发展注入了源源不断的活力。2024年,团队中的一些成员在DeepSeek从事研究工作的同时,其博士学位论文还荣获大奖,实力非凡。像提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻的科研才俊。以DeepSeek - V2为例,2024年5月发布的V2版本中,高华佐和曾旺丁两位年轻人,分别毕业于北大物理系和北邮,他们提出的用MLA替代传统多头注意力的创新,大幅减少了计算量和推理显存,为模型性能的提升做出了重要贡献。而且,DeepSeek十分注重模型算法与硬件工程的协同配合,从DeepSeek V3论文的200位作者构成就能看出,除了负责AI算法和数据的人员,还有一批专注于算力优化硬件的专业人才,他们通过《Fire - Flyer AI - HPC》论文,展示了通过软硬件协同设计降低训练成本的成果,有效解决了传统超算架构在AI训练方面的不足。
技术创新更是DeepSeek的核心竞争力。2024年底,DeepSeek发布的新一代MOE模型DeepSeek - V3并同步开源,其拥有6710亿参数,激活参数为370亿,在14.8万亿token上进行了预训练,在知识类任务、代码能力和数学能力等方面均表现出色。而最令人瞩目的是,其总训练成本仅为557.6万美元,完整训练消耗278.8万个GPU小时,仅为同等性能水平模型训练成本的十分之一左右,这一成本优势让DeepSeek在全球范围内再度爆火。与国外科技巨头微软、Meta、特斯拉等动辄购入10万张英伟达显卡搭建算力中心相比,DeepSeek背后的幻方在拥有1万张英伟达A100显卡的基础上,实现了V3模型用少量卡完成训练的壮举,为AI技术的发展开辟了新的路径。
总之,DeepSeek的爆火并非偶然,股权关联、团队实力、技术创新三驾马车并驾齐驱,共同推动着DeepSeek在AI赛道上飞速驰骋。在未来的AI发展征程中,相信DeepSeek将继续凭借其独特优势,创造更多的辉煌,为全球AI产业的发展带来更多的惊喜与变革。让我们共同拭目以待!