字节Seed首次开源代码模型字节Seed开源代码模型夺SOTA字节跳动的Seed

量子位看科技 2025-05-11 23:26:48

字节Seed首次开源代码模型字节Seed开源代码模型夺SOTA

字节跳动的Seed团队,首次开源了他们的代码大模型——Seed-Coder,参数规模8B,在多个权威基准上击败了Qwen3、DeepSeek-R1,夺得SOTA成绩。

Seed-Coder共发布了三个版本:

- Base:基础模型

- Instruct:强化指令理解,通过监督微调+偏好优化,提升模型“听懂人话”的能力

- Reasoning:面向复杂推理任务,采用强化学习的方式,锻炼多步推理能力,在IOI 2024超过QwQ-32B

这个模型的特别之处在于,团队提出了“用小模型自管数据”的新范式,也就是模型自己策划训练数据,连生成和筛选都由模型完成,人工干预极少,具体方式包括:

1. 四类高质量数据源:

- 文件级代码:从GitHub提取单个文件内容

- 仓库级代码:保留项目结构关系

- Git Commit:覆盖7400万次提交,格式化为代码变更预测任务

- 网络代码相关内容:从网页提取结构化和非结构化代码信息

2. 数据去重与筛选:

- SHA256+MinHash双重去重

- 使用语法解析器排除错误代码

- 通过LLM评分模型评估代码可读性、模块性等质量维度

3. 定制化评分机制:

- 针对不同网站内容风格(博客/论坛)制定不同评分标准,避免误判有价值内容

目前完整代码和模型均已开源:

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注