最近,阿里巴巴通义千问的技术负责人林俊旸在社交平台上发了一条消息,说公司内部已经组建了一个专门研究机器人和具身智能的小团队。
消息一出,不少科技圈的朋友都开始讨论:
阿里这是要干什么?
其实,这件事并不突然。
如果你留意过去一年阿里在AI领域的动作,就会发现,他们一直在悄悄地把AI从“纸上谈兵”往“动手干活”方向推。
这次成立机器人团队,更像是水到渠成的一小步,而不是什么惊天动地的大动作。
那么,什么是“具身智能”?
这个词听起来有点学术,但说白了,就是让AI不仅会“想”,还能“动”。
以前我们熟悉的AI,比如聊天机器人、图像生成器,它们都是在虚拟世界里打转:
你输入一段话,它给你一段回答;
你上传一张图,它给你修图或者生成新图。
但它们没法真正碰触现实世界,更别说搬东西、拧螺丝、送快递了。
而具身智能的目标,就是给AI配上“身体”:
比如机械臂、轮子、摄像头、传感器,让它能感知环境、理解指令、做出动作。
换句话说,就是让AI从“键盘侠”变成“实干家”。
阿里这次组建的团队,就专门干这个事。
他们打算把通义千问已经很强的多模态能力——也就是能同时理解文字、图像、声音的能力,用到机器人身上。
比如,你对机器人说:
“把桌上那个红色的杯子拿给我。”
它得先听懂你的话,再用摄像头找到红色杯子,判断位置、距离、障碍物,然后控制机械臂准确抓取,最后递到你手里。
这一连串动作,背后需要极强的感知、推理和执行能力。
听起来是不是有点像科幻电影?
其实,这已经在一些工厂和仓库里悄悄发生了。
比如,阿里投资的那家叫“自变量机器人”的公司,就在做能自主决策的工业机器人。
它们不是按固定程序走,而是能根据现场情况动态调整动作,比如货物堆得歪了,它会自己判断怎么抓最稳。
这种能力,靠的就是类似通义千问这样的大模型做“大脑”。
为什么现在大厂都开始搞机器人?
原因很简单:
AI光会聊天、画画,已经不够用了。
过去几年,大模型火得不行,但大家很快发现,光靠生成内容,很难真正赚钱。
企业要的是能降本增效的工具,而不是一个会写诗的AI。
而机器人,恰恰是把AI能力落地到实体经济的最佳载体之一。
制造业、物流、仓储、零售、医疗……这些行业每天都在处理大量重复、繁琐、甚至危险的任务。
如果能用智能机器人替代一部分人力,不仅能提高效率,还能减少错误和事故。
比如,在一个大型电商仓库里,每天有成千上万的包裹需要分拣。
传统做法是靠人眼识别、人工搬运,效率低还容易出错。
而一个具备视觉识别和路径规划能力的机器人,可以24小时不间断工作,准确率还更高。
阿里作为中国最大的电商平台之一,对这类场景的需求非常真实。
他们旗下的菜鸟网络、盒马、天猫超市,背后都有庞大的物流和仓储体系。
如果能把具身智能技术用进去,哪怕只提升5%的效率,一年省下的成本也是天文数字。
当然,做机器人不是光有算法就行。
它还需要硬件、传感器、控制系统、安全机制,甚至还要考虑人机协作的舒适度。
比如,一个家庭服务机器人,如果动作太生硬、反应太迟钝,用户会觉得它“笨”;
如果动作太快太猛,又可能让人害怕。
所以,真正的智能机器人,不仅要“聪明”,还得“体贴”。
这也是为什么阿里选择从内部孵化团队,而不是直接收购一家机器人公司。
因为核心的AI能力,尤其是多模态理解和长时序推理是他们的强项。
而硬件和工程化能力,可以通过合作、投资、逐步积累来补足。
你看,过去一年,阿里已经接连投资了逐际动力、星动纪元、自变量机器人等多家具身智能相关企业,还和Manus这样的国际公司达成合作。
这种“技术+资本+生态”的打法,比单打独斗稳妥得多。
值得一提的是,这次带队的是林俊旸,一个32岁的年轻人,却是阿里内部最早研究多模态AI的核心人物之一。
他参与过M6、OFA、CogView这些早期多模态项目,后来又主导了Qwen3-Max、QwQ-32B等旗舰模型的开发。
可以说,通义千问今天在视觉、语音、文本融合上的能力,很大程度上出自他和团队之手。
让这样一位技术背景扎实、又熟悉AI前沿趋势的人来牵头机器人项目,说明阿里不是在“试水”,而是认真想把这件事做成。
那么,普通人什么时候能用上这样的机器人?
别急,短期内可能还看不到家用机器人满街跑,但在特定场景里,它们已经在路上了。
比如,在工厂里,你可能会看到能自动巡检设备的机器人;
在医院,有能运送药品、回收医疗废物的智能小车;
在商场,有能引导顾客、回答问题的服务机器人。
这些都不是科幻,而是正在发生的现实。
阿里最近和NBA中国的合作,也透露出一个信号:他们不仅想让AI“干活”,还想让它“互动”。
在即将举行的NBA中国赛上,球迷可以通过通义千问生成自己的虚拟形象,甚至用自己声音模仿解说员。
这种技术,未来完全可以移植到服务机器人身上。
比如,一个酒店前台机器人,不仅能办理入住,还能用你的家乡话跟你聊天,甚至讲个笑话缓解旅途疲劳。
这种“有温度的智能”,才是具身智能真正打动人的地方。
当然,挑战也不少。
首先是成本。
一个高性能的智能机器人,动辄几十万,中小企业根本用不起。
其次是可靠性。
AI在虚拟世界犯错,顶多是答错一道题;
但在现实世界犯错,可能撞坏设备、伤到人。
所以,安全性和稳定性必须放在第一位。
此外,还有数据隐私的问题。
机器人要感知环境,就得装摄像头、麦克风,这就涉及用户隐私保护。
阿里在企业级AI部署中一直强调数据安全,未来在消费级产品上,也必须把这根弦绷紧。
不过,这些问题都不是无解的。
随着芯片成本下降、算法效率提升、行业标准逐步建立,智能机器人的门槛会越来越低。
就像智能手机刚出来时也是奢侈品,现在连千元机都能实现很多功能。
从全球来看,特斯拉的Optimus、波士顿动力的Atlas、谷歌的RT-2模型,都在推动具身智能向前走。
中国科技公司当然不能掉队。
阿里这次的动作,既是自身业务发展的需要,也是在参与这场全球技术竞赛。
但和某些公司高调喊口号不同,阿里这次显得很低调。
没有发布会,没有PPT,只是一条简单的社交动态。
这种“少说多做”的风格,反而让人觉得更靠谱。
毕竟,真正的技术进步,从来不是靠喊出来的,而是靠一行行代码、一次次调试、一个个真实场景的打磨积累出来的。
回到开头的问题:阿里为什么要搞机器人?
答案其实很朴素,因为他们看到了AI下一步的价值不在屏幕里,而在现实世界中。
而要让AI真正走进现实,就得给它一个“身体”。
这个过程不会一蹴而就,可能需要三五年,甚至更久。
但只要方向对了,慢一点也没关系。
毕竟,科技的意义,从来不是炫技,而是让生活变得更简单、更高效、更有温度。
而具身智能,或许就是通往这个目标的一条新路。
现在,阿里已经迈出了第一步。
接下来,就看他们怎么把这条路走宽、走稳、走远。