字节Seed首次开源代码模型字节Seed开源代码模型夺SOTA字节跳动的Seed

量子位看科技 2025-05-11 23:26:48

字节Seed首次开源代码模型字节Seed开源代码模型夺SOTA

字节跳动的Seed团队，首次开源了他们的代码大模型——Seed-Coder，参数规模8B，在多个权威基准上击败了Qwen3、DeepSeek-R1，夺得SOTA成绩。

Seed-Coder共发布了三个版本：

- Base：基础模型

- Instruct：强化指令理解，通过监督微调+偏好优化，提升模型“听懂人话”的能力

- Reasoning：面向复杂推理任务，采用强化学习的方式，锻炼多步推理能力，在IOI 2024超过QwQ-32B

这个模型的特别之处在于，团队提出了“用小模型自管数据”的新范式，也就是模型自己策划训练数据，连生成和筛选都由模型完成，人工干预极少，具体方式包括：

1. 四类高质量数据源：

- 文件级代码：从GitHub提取单个文件内容

- 仓库级代码：保留项目结构关系

- Git Commit：覆盖7400万次提交，格式化为代码变更预测任务

- 网络代码相关内容：从网页提取结构化和非结构化代码信息

2. 数据去重与筛选：

- SHA256+MinHash双重去重

- 使用语法解析器排除错误代码

- 通过LLM评分模型评估代码可读性、模块性等质量维度

3. 定制化评分机制：

- 针对不同网站内容风格（博客/论坛）制定不同评分标准，避免误判有价值内容

目前完整代码和模型均已开源：

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

中国车企真实负债情况近年来，中国汽车产业高速发展，行业竞争格局越发激烈。业界对

2

万能格式转换工具开源跨平台格式转换工具VERT：“万能格式转换”工具，支持跨平台

3

AI自己出题做题还进步了零数据也能训出强推理AI不用引入外部数据，通过自我博弈（

4

科学家让铅瞬间变成金科学家上演现实版点石成金在日内瓦CERN的地下，科学家实现了

5

2025腾讯云AI产业应用峰会定档5月21日随着AI大模型技术加速发展，产业应

6

GPT4o生成诡异图片GPT4o生图提示词分享胆小慎入！GPT-4o生成诡异迷雾

7

用AI会让领导认为不积极吗研究表明用AI会被老板认为偷懒职场中，使用AI的人

8

三图解析RAG两大技术路线传统RAG与智能体RAG的核心差异你是否还不清楚传统R

9

第一批AI客服已经失业了仅有四分之一AI项目达到预期ROI第一批上岗的AI，已经

10

OpenAI微软修改数十亿美元合同OpenAI与微软为IPO展开谈判据《金融时报

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

目前接近完美的6部手机，有你在用的嘛？

3

这么老的苹果还在用

4

2025年手机选购指南，全价位段手机推荐

5

六款小屏旗舰，大家喜欢哪一款？[吃瓜]

6

国外拆解Mate30，零部件国产率仅为30%，国外拆解Mate30 5G，零部

7

字节的工资是真的高啊！

8

雷军脑瓜子嗡嗡的了！又一场事故夺命事故发生，车速150公里每小时。速度至上的小米

9

刚刚！#一加13T#首销10分钟破两亿！这手机我也用了几天，最大的感受是真爽，单

10

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

科技最新文章

1

【华为Mate80终极爆料！麒麟9030硬刚苹果，续航直接封神？】据多方消

2

2025年手机选购指南，全价位段手机推荐

3

今年这618预计要杀疯了，这预售都还没开始，苹果就已经开始扔炸弹了，旗舰机iPh

4

重磅出击！满仓笑了，空仓慌了！外骨骼机器人外骨骼机器人外骨骼机器人据2025年政

5

字节的工资是真的高啊！

6

🔥【2亿像素手机巅峰对决！这五款谁是你的菜？】🔥📌**荣耀Mag

7

【苹果渠道官方调价：iPhone16Pro最高降价176美元，Pro

8

炸了！华为这波操作堪称“王炸”！签约全红婵当代言人后，直接给全公司发福利每人一

9

被华为“打脸”一点不冤！真的是麒麟X90，但最意外的竟然还有鲲鹏930！所以

10

iPhone产品线据称将大扩容曝苹果一年将发两次新机苹果有点着急了！一年两次？