苹果VSSFlow模型对AI领域意义重大。它由苹果与中国人民大学合作推出，首次用

苹果VSSFlow模型对AI领域意义重大。它由苹果与中国人民大学合作推出，首次用单一系统实现无声视频里环境音与语音同步生成，为多模态AI打开新思路。传统音频生成模型存在“偏科”问题，分阶段训练还会增加复杂度和降低性能。而VSSFlow采用10层架构和流匹配技术，从随机噪声中重构目标声音。它每秒10帧提取视频线索塑造环境音，依据文本生成语音，关键指标优于竞品。训练中还出现“互助效应”，语音和音效联合训练相互提升。其落地场景明确，如无障碍功能，是音频生成领域的创新，也是推动AI服务落地的重要信号。