在家里从头开始自制扩散模型“Home-madeDiffusionModel

蚁工厂 2025-09-10 09:45:49

在家里从头开始自制扩散模型 “Home-made Diffusion Model from Scratch to Hatch”

arxiv.org/abs/2509.06068

这篇论文介绍了名为“自制扩散模型”(Home-made Diffusion Model, HDM)的高效文本到图像生成模型 ,其核心目标是在消费级硬件上以极低的成本进行训练 。文章提出了一种名为“交叉U型变换器”(Cross-U-Transformer, XUT)的新颖架构,该架构利用交叉注意力(cross-attention)机制实现更优的特征融合和出色的构图一致性 ;并提供了一套包含“移位方形裁剪”(shifted square crop)策略和TREAD加速技术的完整训练方案 。研究证明,一个3.43亿参数的模型可在四块RTX5090消费级显卡上以约535至620美元的成本完成1024x1024分辨率的高质量训练,并展现出如“相机控制”等涌现能力。

图为一些示例。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注