还在为视频制作抓耳挠腮?输入不到十个字,几十秒后,一个包含视频、音乐的完整短视频就自动生成了——这不是魔法,而是AI“工作流”带来的现实。当大模型、智能体、工作流这三者强强联合,人工智能不再只是陪你聊天,而是化身为一支高效的“虚拟团队”,帮你搞定复杂任务。大模型、智能体、工作流它们之间到底有何区别?又是如何协同工作的?本文将为您一一揭晓。

01
三大核心揭秘:从“聪明大脑”到“全能员工”
首先说大模型(LLM),它就像一个能理解能对话的“聪明大脑”,比如DeepSeek、豆包、ChatGPT等,但它只能输出文案,且文字字数有限制。
智能体(Agent)这个概念是由ChatGPT的母公司OpenAI于去年七月提出的。它将通用人工智能分为五个等级,每个等级都代表了不同的技术水平和应用场景。智能体是人工智能发展的第三个阶段,第一是聊天机器人,第二是推理者,第三是智能体,第四是发生创新者,第五是组织管理者。智能体尚不具备独立开发或创新能力,但已经具备了逻辑思维能力。它像“有手有脚的机器人”,除了大模型这个大脑外,还能借助各种工具完成实际工作。它主要有两项重要能力:
一是知识库能力:可以导入TXT、Word、PDF、表格、网页、图片等信息,支持10G到100G的知识库,能作为个人助理、老师助手或行业智能客服。比如“媒体人胡二刀的智能体”,装入了胡二刀近两三年写的关于民生和新媒体领域的数百篇文章,可以以胡二刀的口吻自主回答相关问题。
二是插件能力:可以嵌入各种大模型功能,或是工作流过程,从而实现阅读理解、邮件回复、用视频图片音频工具合成内容等。
工作流是智能体的一个特殊工具,能完成更复杂的工作:
比如可以组合大模型、图片、音频、视频工具,按顺序调用,一次性完成文本写作、图片合成、音频视频合成;
比如可以先调用查找资料插件,再调用大模型生成超长文案(几万甚至十万字)。
工作流的出现是为了解决复杂个性化的智能体需求,但搭建需要学习各种插件节点的使用。
02
工作流如何像“智能流水线”一样运转?
工作流是将工作的每一步流程按照先后顺序像流水线一样排列好,然后逐一首尾相接,自动完成一项工作。比如我们制作一个短视频工作流,那就把与短视频制作相关的一系列事项进行拆解,然后逐一作为工作节点,连接起来,从而一键生成视频。
那么,制作一个短视频需要什么要素及步骤呢?
第一步是确定主题,也就是想做一个什么样的视频。比如美女跳舞、老汉扭秧歌。同时,还要确定一个背景音乐风格。
第二步就是根据主题,生成图片或视频文案。
第三步是根据文案生成视频提示词。
第四步是根据提示词生成视频。
第五步是根据音乐风格要求生成背景音乐。
第六步是将视频与背景音乐合成。
第七步是结束,完成视频链接。
也可以把工作流理解成流水上的不同员工。比如开始是销售,对接客户,下需求指令。一号员工负责写文案,二号员工生提示词,三号员工生视频,四号员工生背景音乐,五号员工做剪辑合成,最后结束是老板负责验收交货。
工作流能用在什么地方?比如制作书单号,输入书名和作者,就能自动生成一段关于图书及金句的视频。
比如制作历史人物的一生,输入历史人物名字,就可以按照其生平大事记,生成一个人从婴儿到成年到去世的视频。
这是视频生成方面,除此之外,还可以制作一些潜在客户的分析搜索等。
03
手把手教你搭建第一个AI工作流
我们以最简单的一键生成短视频工作流为例,讲一下工作流的制作方法。

打开COZE开发平台,点资源库,创建工作流。

比如我们做一个输入成语,即可生成视频的工作流。名称这里只能输入英文或拼音,描述可以用中文。

这时进入工作流界面,只有一个开始和结束。可以把他们理解为销售拿到了客户需求,老板等着验收交付,而现在缺的就是中间具体干活的人。
先不急着招人,要把客户需求理解清楚。

点开始,就是销售员接到任务和输出任务的界面。销售员从客户那里拿到制作视频的需求,肯定是多维度的,比如是什么主题,配什么背景音乐。因此,在默认一个输入项的前提下,再点+号,增加一个背景音乐的输入项,可以起名为bgm。
接下来,就需要在人才市场中招募员工了。

点“开始”右侧的+号,弹出一个页面,这就相当于是人才市场,可以从这里招到你需要的具备各种技能的人。我们之前有一个思路,根据客户需求,第一个员工需要进行文案创作,这与文字有关,用到的都是大模型,于是选“大模型”,这是一号员工。

我们可以点大模型右边的三个点,给它重命名,比如叫一号员工做文案,这个一号员工的输入项,就是它的上级销售(开始)员工的输出项,点小六边型,出来下拉菜单,选开始的第一个input,也就是主题。

接下来是系统提示词,需要给员工一个身份,就是他是生成文案的,这个文案具体是什么样的?比如偏成语,偏古代,字数不要超过三百字。如果你不会按格式生成,可以借助右上角的AI生成功能。

再下面就是用户提示词,即给员工发出明确指令,也就是根据前面input生成文案。在这个对话框里,点shift+{(就在字母P的右侧),点击input就上去了。

接着就是招募二号员工。同样,这个岗位的工作是与文字相关,即根据一号员工的文案提炼出图片提示词,而它的输入指令则来自一号员工的输出指令。

对二号员工进行身份设定,然后根据指令完成提示词工作。

接下来招募三号员工,他是负责根据提示词生成图片的,所以就不能用大模型了,而用到图像处理工具,这里选择图像生成。

这里用到的工具是即梦4.0,图片比例和分辩率可选,比如9:16,1K。

输入选择二号员工的输出项。

开始招募四号员工,他是负责视频生成的,从音视频处理中选择“视频生成”。

选择图文生视频,480P和5秒。

它的输入是三号员工的输出,注意选择Image,也就是图片。

五号员工是负责音乐的,在搜索栏中搜“背景音乐”,选第一个“背景音乐库”。

注意啊,这里五号员工的指令并不是来自四号员工,而是来自开始的bgm,也就是直接录入背景音乐风格。

六号员工是负责将已生成的视频和音频合成,所以选择“音视频合成”进行查找。


六号员工的输入有两个值,一个是五号员工生成的音乐,选bgm_url,一个是四号员工生成的视频,选video。

最后是老板验收,他负责引用的是六号员工的音视频合成作品。

点击试运行,有两个必填项,一个是bgm,一个是input。前者填你需要的音乐风格,后者填你想生成视频的成语。最后点试运行,看结果。

通过这个简单的短视频工作流,我们看到了AI将复杂任务自动化、流程化的巨大潜力。这不仅仅是“快”,更是一种工作模式的革新。用好工作流,就如同拥有了一支不知疲倦的AI团队,能让你的创意快速落地,效率倍增。现在,就从搭建你的第一个工作流开始,解锁AI时代的全新工作方式吧!