众力资讯网

苹果VSSFlow模型对AI领域意义重大。它由苹果与中国人民大学合作推出,首次用

苹果VSSFlow模型对AI领域意义重大。它由苹果与中国人民大学合作推出,首次用单一系统实现无声视频里环境音与语音同步生成,为多模态AI打开新思路。 传统音频生成模型存在“偏科”问题,分阶段训练还会增加复杂度和降低性能。而VSSFlow采用10层架构和流匹配技术,从随机噪声中重构目标声音。它每秒10帧提取视频线索塑造环境音,依据文本生成语音,关键指标优于竞品。 训练中还出现“互助效应”,语音和音效联合训练相互提升。其落地场景明确,如无障碍功能,是音频生成领域的创新,也是推动AI服务落地的重要信号。