众力资讯网

一个看似简单却有实用性的建议:在与 AI 对话时,试着在结尾加上一句“请用 HT

一个看似简单却有实用性的建议:在与 AI 对话时,试着在结尾加上一句“请用 HTML 格式输出”。这个小技巧背后,隐藏着人机交互的一个核心矛盾:我们给 AI 输入时,语音是最自然的;但 AI 给我们输出时,视觉才是带宽最高的高速公路。

为什么是 HTML?不是 Markdown

Karpathy 大神曾描绘一条清晰的演进路线:

1. 纯文本(Plain Text):信息密度低,阅读费力,早期形态。
2. Markdown:目前的主流,有了标题、加粗、表格,比纯文本好,但排版能力有限。
3. HTML:当前的“新高地”。虽然底层仍是代码,但它解锁了排版、图形、颜色、交互的全部可能性。
- 你可以让 AI 生成幻灯片、数据看板、带样式的报告。
- 直接在浏览器中打开,体验远超黑白终端。

这背后的生理学依据是:人类大脑约三分之一的区域用于处理视觉信息。相比于逐行阅读文字,视觉呈现是一次性的、高维度的信息摄入。

终极愿景:从静态页面到交互式模拟

然而,HTML 可能只是一个过渡形态,未来的终极方向是:

由神经网络直接生成的交互式视频或模拟环境。

想象一下,AI 不再给你一份文字报告,而是直接生成一个可交互的 3D 场景或动态仿真,让你“走进”答案里,而不是“读”答案。

现实世界的反馈:甜蜜与代价

在评论区,开发者们给出了非常接地气的反馈:

- 成本问题:HTML 输出的 Token 消耗通常是 Markdown 的 2‑3 倍,对于高频使用者来说,这是一笔不小的开销。
- 自发行为:Claude 等模型有时已经会“自觉”地生成 HTML 来展示结构化信息。
- 协作瓶颈:Meta 员工透露内部常用 HTML 做原型,但最大的痛点是无法直接评论。大家只能把 HTML 截图发群里讨论,这又退化回了低效的视觉沟通。

输入端的缺失

输出端在进化,输入端仍有巨大缺口。Karpathy 指出,我们急需一种方式,能像指着屏幕一样对 AI 说:“就是这个”。

目前的语音、文字、视频上传都不足以完美解决“指代”问题,这也是多模态交互的下一块拼图。

一句话总结:

在脑机接口真正成熟之前,通过 HTML 输出 最大化利用人类的视觉带宽,是当前提升 AI 沟通效率最具性价比的“工程化捷径”。

你会愿意为了更好的阅读体验,多花几倍的 Token 成本吗?