[CV]《NextVisualGranularityGeneration》

爱生活爱珂珂 2025-08-25 06:25:40

[CV]《Next Visual Granularity Generation》Y Wang, Z Wang, Z Wu, Q Tao... [Nanyang Technological University & SenseTime Research] (2025)

Next Visual Granularity Generation(NVG):一种基于多粒度视觉结构的图像生成新框架,突破传统将图像视为无结构数据的局限,带来更自然且可控的生成过程。

• 多粒度结构序列:将图像编码为多级唯一token序列,空间分辨率不变,token数量递减,逐步揭示从细节到整体的层次结构。

• 结构映射驱动:通过数据驱动的聚类构造多阶段结构图,明确展示各粒度token在潜空间的分布,实现粗到细的布局控制。

• 生成流程创新:每阶段先生成结构映射,再基于结构生成内容,支持用户输入结构导引,提升生成的多样性与一致性。

• 结构感知RoPE编码:扩展旋转位置编码,编码层级结构信息,使模型深刻理解层级token间关系,提升预测准确性。

• 内容生成采用残差量化策略:通过学习当前画布与最终图像的差异,逐步细化图像,避免自回归误差累积,融合扩散与自回归优点。

• 实验结果领先:在ImageNet 256×256分类生成任务上,NVG系列模型在FID、Inception Score及召回率上均优于VAR等先进方法,且训练步骤更少,参数规模合理。

• 结构引导生成:支持基于简单几何结构图或参考图像结构生成新图,灵活控制图像布局及细节,展现强大泛化与纠错能力。

• 长远应用潜力:方法天然适配区域感知生成、物理一致的视频生成和层级空间推理,助力设计、科学可视化等多领域发展。

NVG框架揭示了图像生成的层次化本质,通过明确结构控制实现高质量与高自由度并重的视觉创作路径。

论文🔗 arxiv.org/pdf/2508.12811

了解详情🔗 yikai-wang.github.io/nvg

人工智能图像生成计算机视觉深度学习生成模型视觉结构

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注