众力资讯网

还在玩AI 3D手办?Gemini 3 Deep Think已能直出STL,可打印实物

编辑|sia 推理模型赛道,已经近乎肉搏。 一边是 OpenAI o1 系列,主打「多想一步」的强化推理路线,用更长

编辑|sia

推理模型赛道,已经近乎肉搏。

一边是 OpenAI o1 系列,主打「多想一步」的强化推理路线,用更长思考时间换更稳的结论。

一边是 Anthropic 的 Claude Thinking,深耕研究与分析场景,强调长上下文下的审慎与可靠。

现在,谷歌也重兵压上——Gemini 3 Deep Think 迎来重大升级。

不过真正吸睛的,早就不是又赢了几个 benchmark,而是它的定位:「参与科研和工程决策」的实力。

业内一直流传一套很经典的民间压力测试,让模型生成「一只骑自行车的鹈鹕」(A pelican riding a bicycle)的 SVG 代码。

题目看起来像 meme,但懂的人都知道,它同时卡三件事:空间逻辑、结构正确性、细节遵从能力。

已有网友放出相当惊艳的版本,也是我见过最好的一张。

案例来自 https://simonwillison.net/

加码难度,上硬核约束:

Generate an SVG of a California brown pelican riding a bicycle. The bicycle must have spokes and a correctly shaped bicycle frame. The pelican must have its characteristic large pouch, and there should be a clear indication of feathers. The pelican must be clearly pedaling the bicycle. The image should show the full breeding plumage of the California brown pelican.

难度瞬间从「会画图」,跃迁到「会建模 + 会生物 + 会物理」。

尤其是,画出「加州褐鹈鹕繁殖羽」。这不是随便涂个颜色就能糊弄的。繁殖期它的头部会偏黄,颈部呈红棕色,要求模型具备非常专业的生物知识。

「正在蹬踏」要求 AI 能正确处理肢体与机械的交互:动物的脚丫子,必须对准踏板。

结果,Gemini 3 Deep Think 还能稳定交出质量很高的 SVG。

案例来自 https://simonwillison.net/

这里释放的信号其实很清晰:Gemini 3 Deep Think 追求的不是「更会想」,而是在科研级、工程级、多条件约束问题上,能更可靠地把事情做对。

从「纸上谈兵」进化到「动手造物」,更明显的用例,是它能把用户的要求、草图甚至照片,直接建模成可 3D 打印的实体文件。

来自谷歌软件工程师@rakyll

其实,谷歌也在推广中主打Deep Think会分析图纸,构建复杂的形状,并生成文件,使用3D打印机创建实体对象。

要知道 AI 以前只是个画家,你给它看一张锅的照片,它能临摹出一张一模一样的画,但那只是平面的影子。

现在, Gemini 3 Deep Think 看一眼照片,就能脑补全这张锅在各个角度的长宽高、厚度甚至把手的弧度,直接变出一个立体实物原型。

换句话说,它不止要会空间推理(理解结构、体积、厚度、连接),还要考虑一个更现实的问题:这东西能不能被制造出来、能不能被真实使用。

答案是肯定的。

它甚至开始带着审美与结构意图去做生成设计。

这是它设计的一个花盆。

来自x网友@ytiskw,「请设计一个全新的时尚花盆,并使用 Python 输出为 STL 文件。条件:可以排水……」

从不同角度看,「面」和「角」的视觉会发生变化,立体感和现代感都很强,不像是单纯堆几何体,更像是在做造型语言。

还有更硬核的玩法。

这位 MIT 教授先给它一张 3D 蜘蛛网图片,要求生成交互式设计工具。

结果,它一步到位,直接产出了一整套完整的设计套件,涵盖程序化控制、仿真与优化流程,并支持 STL 文件导出。

https://x.com/ProfBuehlerMIT/status/2022635227609268480

教授甚至用这套工具设计了全新的超材料结构,以及一款受蜘蛛网启发的桥梁方案。

3D 打印后,还做了受力测试(用的是 nvidia DGX Spark ,大约 2 斤半重),确认结构在工程上也立得住。

想象一下,你在网上刷到一个造型奇特的设计。

过去你想 3D 打印一个相近的,得会 Blender、Fusion 360 这类软件,拉曲面、调尺寸、做厚度,新手往往得学好几周。

现在,截图给 AI → 输出 STL → 丢进 3D 打印机 → 几小时后实物到手,等于把专业 3D 建模几乎压缩成了「一键生成」。

再看看另一个用例。用 Deep Think 把周围的 WiFi 网络空间化、可视化,用 3D 方式展示信号强度和可能的物理位置关系。

平时手机里的 WiFi 列表按信号强度(RSSI)排序,但在物理空间里,强度不等于距离。比如,离你 2 米、隔着承重墙的路由器,可能比 10 米外空旷区域的路由器还要弱。

这里, Deep Think 聪明地引入了统计关联,如皮尔逊相关分析,去推断哪些 AP在物理上更可能彼此接近。

此外,还有更典型的科研叙事。比如,Deep Think 能审阅高度专业的数学论文,指出同行评审漏掉的细微逻辑缺陷,也被用于优化半导体晶体生长流程。

换句话说,谷歌想证明的不是它更会「想」,而是它开始真的能「干活」。

它盯住的是科研与工程里的硬骨头:没有明确边界、没有唯一答案、数据又脏又乱的真实研究问题。

而且,不只是卷数学、编程,而是把触角伸向化学、物理(包括理论物理)等多个科学领域,全面铺开。

随着通用对话能力快速商品化,那些真正能处理复杂财务模型、实验数据与工程设计的深度推理能力,正在成为新的竞争高地。

谷歌正在试图把大模型从信息助手,推向科研与工程体系里的「第二大脑」。如果后续真实采用率跟得上,这一步的分量,可能会比单纯的性能提升更大。