还在手动做视频？AI“智能员工”正在悄悄接管你的工作！

还在为视频制作抓耳挠腮？输入不到十个字，几十秒后，一个包含视频、音乐的完整短视频就自动生成了——这不是魔法，而是AI“工作流”带来的现实。当大模型、智能体、工作流这三者强强联合，人工智能不再只是陪你聊天，而是化身为一支高效的“虚拟团队”，帮你搞定复杂任务。大模型、智能体、工作流它们之间到底有何区别？又是如何协同工作的？本文将为您一一揭晓。

三大核心揭秘：从“聪明大脑”到“全能员工”

首先说大模型（LLM），它就像一个能理解能对话的“聪明大脑”，比如DeepSeek、豆包、ChatGPT等，但它只能输出文案，且文字字数有限制。

智能体（Agent）这个概念是由ChatGPT的母公司OpenAI于去年七月提出的。它将通用人工智能分为五个等级，每个等级都代表了不同的技术水平和应用场景。智能体是人工智能发展的第三个阶段，第一是聊天机器人，第二是推理者，第三是智能体，第四是发生创新者，第五是组织管理者。智能体尚不具备独立开发或创新能力，但已经具备了逻辑思维能力。它像“有手有脚的机器人”，除了大模型这个大脑外，还能借助各种工具完成实际工作。它主要有两项重要能力：

一是知识库能力：可以导入TXT、Word、PDF、表格、网页、图片等信息，支持10G到100G的知识库，能作为个人助理、老师助手或行业智能客服。比如“媒体人胡二刀的智能体”，装入了胡二刀近两三年写的关于民生和新媒体领域的数百篇文章，可以以胡二刀的口吻自主回答相关问题。

二是插件能力：可以嵌入各种大模型功能，或是工作流过程，从而实现阅读理解、邮件回复、用视频图片音频工具合成内容等。

工作流是智能体的一个特殊工具，能完成更复杂的工作：

比如可以组合大模型、图片、音频、视频工具，按顺序调用，一次性完成文本写作、图片合成、音频视频合成；

比如可以先调用查找资料插件，再调用大模型生成超长文案（几万甚至十万字）。

工作流的出现是为了解决复杂个性化的智能体需求，但搭建需要学习各种插件节点的使用。

工作流如何像“智能流水线”一样运转？

工作流是将工作的每一步流程按照先后顺序像流水线一样排列好，然后逐一首尾相接，自动完成一项工作。比如我们制作一个短视频工作流，那就把与短视频制作相关的一系列事项进行拆解，然后逐一作为工作节点，连接起来，从而一键生成视频。

那么，制作一个短视频需要什么要素及步骤呢？

第一步是确定主题，也就是想做一个什么样的视频。比如美女跳舞、老汉扭秧歌。同时，还要确定一个背景音乐风格。

第二步就是根据主题，生成图片或视频文案。

第三步是根据文案生成视频提示词。

第四步是根据提示词生成视频。

第五步是根据音乐风格要求生成背景音乐。

第六步是将视频与背景音乐合成。

第七步是结束，完成视频链接。

也可以把工作流理解成流水上的不同员工。比如开始是销售，对接客户，下需求指令。一号员工负责写文案，二号员工生提示词，三号员工生视频，四号员工生背景音乐，五号员工做剪辑合成，最后结束是老板负责验收交货。

工作流能用在什么地方？比如制作书单号，输入书名和作者，就能自动生成一段关于图书及金句的视频。

比如制作历史人物的一生，输入历史人物名字，就可以按照其生平大事记，生成一个人从婴儿到成年到去世的视频。

这是视频生成方面，除此之外，还可以制作一些潜在客户的分析搜索等。

手把手教你搭建第一个AI工作流

我们以最简单的一键生成短视频工作流为例，讲一下工作流的制作方法。

打开COZE开发平台，点资源库，创建工作流。

比如我们做一个输入成语，即可生成视频的工作流。名称这里只能输入英文或拼音，描述可以用中文。

这时进入工作流界面，只有一个开始和结束。可以把他们理解为销售拿到了客户需求，老板等着验收交付，而现在缺的就是中间具体干活的人。

先不急着招人，要把客户需求理解清楚。

点开始，就是销售员接到任务和输出任务的界面。销售员从客户那里拿到制作视频的需求，肯定是多维度的，比如是什么主题，配什么背景音乐。因此，在默认一个输入项的前提下，再点+号，增加一个背景音乐的输入项，可以起名为bgm。

接下来，就需要在人才市场中招募员工了。

点“开始”右侧的+号，弹出一个页面，这就相当于是人才市场，可以从这里招到你需要的具备各种技能的人。我们之前有一个思路，根据客户需求，第一个员工需要进行文案创作，这与文字有关，用到的都是大模型，于是选“大模型”，这是一号员工。

我们可以点大模型右边的三个点，给它重命名，比如叫一号员工做文案，这个一号员工的输入项，就是它的上级销售（开始）员工的输出项，点小六边型，出来下拉菜单，选开始的第一个input，也就是主题。

接下来是系统提示词，需要给员工一个身份，就是他是生成文案的，这个文案具体是什么样的？比如偏成语，偏古代，字数不要超过三百字。如果你不会按格式生成，可以借助右上角的AI生成功能。

再下面就是用户提示词，即给员工发出明确指令，也就是根据前面input生成文案。在这个对话框里，点shift+{（就在字母P的右侧），点击input就上去了。

接着就是招募二号员工。同样，这个岗位的工作是与文字相关，即根据一号员工的文案提炼出图片提示词，而它的输入指令则来自一号员工的输出指令。

对二号员工进行身份设定，然后根据指令完成提示词工作。

接下来招募三号员工，他是负责根据提示词生成图片的，所以就不能用大模型了，而用到图像处理工具，这里选择图像生成。

这里用到的工具是即梦4.0，图片比例和分辩率可选，比如9：16，1K。

输入选择二号员工的输出项。

开始招募四号员工，他是负责视频生成的，从音视频处理中选择“视频生成”。

选择图文生视频，480P和5秒。

它的输入是三号员工的输出，注意选择Image，也就是图片。

五号员工是负责音乐的，在搜索栏中搜“背景音乐”，选第一个“背景音乐库”。

注意啊，这里五号员工的指令并不是来自四号员工，而是来自开始的bgm，也就是直接录入背景音乐风格。

六号员工是负责将已生成的视频和音频合成，所以选择“音视频合成”进行查找。

六号员工的输入有两个值，一个是五号员工生成的音乐，选bgm_url，一个是四号员工生成的视频，选video。

最后是老板验收，他负责引用的是六号员工的音视频合成作品。

点击试运行，有两个必填项，一个是bgm，一个是input。前者填你需要的音乐风格，后者填你想生成视频的成语。最后点试运行，看结果。

通过这个简单的短视频工作流，我们看到了AI将复杂任务自动化、流程化的巨大潜力。这不仅仅是“快”，更是一种工作模式的革新。用好工作流，就如同拥有了一支不知疲倦的AI团队，能让你的创意快速落地，效率倍增。现在，就从搭建你的第一个工作流开始，解锁AI时代的全新工作方式吧！

众力资讯网

还在手动做视频？AI“智能员工”正在悄悄接管你的工作！

热门分类