LLM 扫盲:什么是 Tokens?

作者:mCell日期:2025/12/2

同步至个人网站:LLM扫盲: 什么是tokens

072

LLM 基础:什么是 Tokens?

GPT 5.1 发布已经有一段时间了,LLM(大语言模型)的能力边界再一次被拓宽。对于应用开发者而言,虽然模型越来越智能,但 API 的计费逻辑和底层限制依然没有变:Token 始终是那个核心计量单位。

很多人对 Token 有误解,认为它等同于字符(Character)或单词(Word)。这种误解往往导致两个问题:一是预估 API 成本时出现较大偏差,二是无法精确控制 Prompt 的上下文长度,导致模型“失忆”。

今天,我们再来系统地梳理一下 Token 的概念。

机器如何阅读文本?

计算机只能处理数字,不能直接处理文本。因此,当我们向 LLM 发送一段话时,必须经历一个转码过程。

  1. 输入文本:人类语言。
  2. Tokenization(分词):将文本切分成一个个具备语义的最小单位(Token),并转换为数字 ID。
  3. 模型计算:模型对这些数字 ID 进行预测和计算。

Token 就是这个中间层的最小单位。

为什么不直接用“汉字”或“单词”做单位?

  • 字符粒度太细:如果用字符(如 a, b, c),语义太稀疏,模型计算量会呈指数级上升。
  • 单词粒度太粗:人类语言词汇量太大,且不断有新词产生,这会导致模型的词表(Vocabulary)过于庞大。

因此,LLM 采用的是 Sub-word(子词) 方案:常用的词是一个 Token,不常用的词拆分成多个 Token。

Token 的切分原理

Token 的切分规则并非一成不变,不同模型使用的编码器(Encoding)不同,结果也不同。

英文与中文的差异

  • 英文:通常一个单词是一个 Token,但复杂的词会被拆分。例如 smart 是一个,但合成词或生僻词会被拆解。
  • 中文:在 GPT-3 时,中文非常“吃亏”,一个汉字往往需要 2-3 个 Token。

到了现在的 GPT-5.1,Token 编码(如 o200k_base 或更新的编码集)对多语言进行了深度优化。 目前,绝大多数常用汉字,1 个汉字 = 1 个 Token。只有极少数生僻字或复杂的古文,才会被拆解。

这意味着,同样的预算,现在能处理的中文内容比两三年前多了将近一倍。

代码演示(Node.js)

光说概念比较抽象,我们直接看代码。

在 Web 开发或 Node.js 环境中,我们通常使用 npm 包 @dqbd/tiktoken 来在本地计算 Token 数,这比每次调用 API 估算要快得多,也更省钱。

安装:

1npm install @dqbd/tiktoken
2

代码示例:

1import { encoding_for_model } from "@dqbd/tiktoken"
2
3// 获取 GPT-5.1
4const enc = encoding_for_model("GPT-5.1")
5
6const text = "AI技术"
7
8// 将文本转换为 Token ID 数组
9const tokens = enc.encode(text)
10
11console.log(tokens)
12// 输出可能是: Uint32Array(2) [ 12345, 67890 ]
13// 解释:'AI' 是一个 Token,'技术' 作为一个常用词可能被编码为一个 Token,或者两个汉字各一个。
14
15console.log("Token Count:", tokens.length)
16
17// 记得释放内存
18enc.free()
19

71

通过这种方式,你可以在发送请求前,精确地知道这段文本会消耗多少 Token。

Token 的实际影响

理解 Token 主要为了解决两个现实问题。

计费(Cost)

API 计费公式通常是:(Input Tokens + Output Tokens)× 单价

值得注意的是,随着模型迭代(如 GPT-5.1),推理成本虽然在下降,但 Output(生成内容)的价格通常依然高于 Input(输入内容)。

  • Input:你发给模型的 Prompt。
  • Output:模型生成的回答。

如果你的业务场景是“读长文、写摘要”,成本相对可控;如果是“读短句、写长文”,成本会显著增加。

上下文窗口(Context Window)

这是 Token 最关键的物理限制。

虽然 GPT-5.1 的上下文窗口已经非常大(通常在 128k 甚至 200k tokens 以上),但它依然不是无限的。

  • 早期模型:GPT-3.5 只有 4k context(约 3000 汉字),稍微聊几句就得“遗忘”前面的对话。
  • 当前模型:128k context 意味着你可以一次性把几本长篇小说塞给模型。

但是,“能塞进去”不代表“效果好”。虽然 Token 容量变大了,但输入的内容越多,模型对中间信息的“注意力”(Attention)可能会被稀释。因此,开发者依然需要利用 RAG(检索增强生成)等技术,精简输入给模型的 Token,这不仅是为了省钱,更是为了提高回答的准确率。

四、 总结

  1. Token 是计费和计算的单位:它介于字符和单词之间。
  2. 中文效率已大幅提升:在 GPT-5.1 时代,中英文的 Token 效率差距已大大缩小,基本可以按 1 字 = 1 Token 估算。
  3. 开发者应当在本地计算:使用 @dqbd/tiktoken 等库在本地预计算 Token,是控制成本和上下文管理的最佳实践。

理解 Token,是开发 LLM 应用的第一步,也是从“用户”进阶为“开发者”的必修课。

(完)


LLM 扫盲:什么是 Tokens?》 是转载文章,点击查看原文


相关推荐


【产品运营必备】数据分析实战宝典:从入门到精通,驱动业务增长(附相关材料下载)
小飞象—木兮2025/12/11

木木自由,专注更多数据分析,经营分析、财务分析、商业分析、数据治理、数据要素、数据资产干货以及资料分享木木自由·   数据分析·领地在产品迭代与运营增长的赛道上,数据分析早已不是“加分项”,而是驱动决策的“核心引擎”。很多产品、运营人员面对数据时常常陷入困境:看着后台一堆指标无从下手,明明做了活动用户却不买账,想优化产品却找不到具体方向。其实,数据分析的核心并非复杂的公式,而是“立足场景、解决问题”的思维的方法。在此,【数据分析·领地】整理了一套《数据分析实战宝典》,将围绕产品与运营的高频场景,


基于大衍数构造的稀疏校验矩阵LDPC误码率matlab仿真,对比不同译码迭代次数,码率以及码长
我爱C编程2025/12/19

目录 1.引言 2.算法测试效果 3.算法涉及理论知识概要 4.MATLAB核心程序 5.完整算法代码文件获得 1.引言        基于大衍数的LDPC校验矩阵构造,本质是利用大衍数序列的周期性和互素性,设计具有规则稀疏结构的校验矩阵,兼顾性能与实现复杂度。基于大衍数列构造准循环低密度校验码的方法,该方法利用大衍数列固定项差对应的值单调递增的特点,构造出的校验矩阵具有准循环结构,节省了校验矩阵的存储空间。 2.算法测试效果 3.算法涉及理论知识概要


基于 YOLOv8 的驾驶员疲劳状态识别系统实战(含完整源码与可视化界面)
我是杰尼2025/12/28

基于 YOLOv8 的驾驶员疲劳状态识别系统实战(含完整源码与可视化界面) 一、项目背景与研究意义 随着汽车保有量的持续增长,疲劳驾驶已成为交通事故的重要诱因之一。据统计,在高速公路和长途驾驶场景中,由于驾驶员长时间保持同一姿态,容易出现注意力下降、反应迟钝、频繁眨眼、打哈欠等疲劳特征,从而显著提升事故风险。 传统的疲劳检测方法多依赖以下方式: 车载方向盘行为分析 心率、脑电等生理传感器 人工巡查与事后分析 这些方法或成本较高,或依赖额外硬件,或难以规模化部署。相比之下,基于计算机视觉的疲劳


2026:一名码农的“不靠谱”年度规划
苏渡苇2026/1/6

又到了一年一度列计划的时候,我对着屏幕敲下“2026年度目标”这几个字,感觉就像在代码里写下了一个暂时没有具体实现的接口——定义很美好,实现嘛,有待观察。 一、工作要干得出彩,还得有点新花样 说真的,每年我都告诉自己,今年一定要写出那种能让同事看了忍不住赞叹“妙啊”的代码。但实际情况往往是,我对着三年前自己写的代码陷入沉思:“这真是我写的吗?当时怎么想的?” 新点子倒是不缺,缺的是能让这些点子安全落地还不引起生产事故的魔法。我现在的原则是:每个炫酷的想法,都必须配套一个“搞砸了怎么办”的预案。


一个致力于为 C# 程序员提供更佳的编码体验和效率的 Visual Studio 扩展插件
追逐时光者2026/1/14

前言 今天大姚给大家分享一个致力于为 C# 程序员提供更佳的编码体验和效率的 Visual Studio 扩展插件:Codist。 Codist 插件介绍 Codist 是一个使用 .NET 编写、开源免费的 Visual Studio 扩展插件,致力于为 C# 程序员提供更好的编程体验和生产效率。它不仅强化了语法高亮、快速信息提示、导航栏、滚动条和显示质量,还集成了自动版本号更新、括号自动补全、支持高级编辑功能的智能工具栏、代码分析等功能。 支持 Visual Studio 版本 Visu


没显卡也能玩!Ollama 本地大模型保姆级入门指南
字节逆旅2026/1/22

如果你想在自己电脑上跑 AI,又不希望数据被大厂拿走,Ollama 绝对是目前最香的选择。不用配复杂的 Python 环境,不用求爷爷告奶奶找 API Key,只要一键安装,就能实现“大模型自由”。不过我的电脑很早就有了python环境了,忘记啥时候安装的,虽然在python方面还是个菜鸟。 1. 怎么安装 直接去 Ollama 官网 下载。有1个多G,先有个心理准备。 第一步: 安装完后,它会躲在右下角任务栏。 第二步: 打开终端(CMD 或 PowerShell),输入下面的命令。这

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客