到底Token(词元)是个啥? Token突然热起来,搜索量急剧增加,今天带您全面了解一下。 词元(Token),是人工智能(AI)大语言模型处理信息的最小基本单元。今年3月,国家数据局正式确认其为AI领域的标准中文译名,此前也常被称为“令牌”或“标记”。 一、通俗理解:AI的“文字积木” 你可以把它理解为AI用来“说话”和“认字”的最小文字积木。 - 人类:看完整的句子、段落。 - AI:看不懂整句,必须先把内容拆分成一个个词元,再进行计算、理解和生成。 二、词元长什么样? 它不是固定的“字”或“词”,而是根据模型规则切分的片段: 中文:通常是 1个汉字、1个词语 或 1个标点。 例:“我爱中国!” → 拆分为 4个词元:[我, 爱, 中国, !] 英文:通常是 完整单词 或 单词的一部分(子词)。 - 例:"running" → 可能拆分为 [run, ing] 两个词元。 - 其他:数字、符号、表情(😊)、空格,都算独立词元。 三、核心作用:三重身份 1. 计算单位:AI所有的思考、写作、翻译,本质上都是在处理词元 。 2. 计量单位:模型有“上下文窗口”限制(如8K、16K),指最多能处理的词元数量。 3. 计价单位:使用AI服务(如API接口)时,通常按输入+输出的词元总量来收费。 四、与“字”、“词”的区别 汉字:固定的书写单位(如“中”“国”)。 词语:固定的语义单位(如“中国”)。 词元:AI专用的计算单位,大小灵活,是为了方便模型计算而存在。 简单来说,词元就是AI世界里的“通用语言货币”,你每跟AI聊一句话,让它写一段文字,都是在“消费”词元。 不久之后,词元就会跟流量,豆包等一样流行!