Ginv · 公众号:Adobe of Amazon
AI 知识库
Token
Token · 分词器 · 上下文窗口 · Transformer
#Token #Tokenizer #Context Window #Transformer #Attention #Token Tools
7
知识章节
4
Token工具
2026.3
更新时间
Ginv
整理制作
第一章

Token 的本质:AI 世界的「最小语言单位」

1.1 从人类认知到机器认知

人类阅读文字时,大脑能够瞬间识别含义,并在毫秒内完成语义处理。但计算机本质上是一台数学机器——它只能处理数字,无法直接理解「苹果」「猫」「快乐」这些抽象符号。

这就引出了一个根本问题:AI 如何把人类的语言转化为自己能「计算」的形式?答案就是 Token(词元)

💡 核心比喻:大模型对文字的理解,就像人类快速认读词语——我们看到「椅角夯晃」「媒妁之言」「邯郸学步」这些词,瞬间就能念出来,但并不需要逐字分析笔画。AI 也是同样的道理:它「认」的不是单个字母,而是有意义的「块」。

1.2 Token 的精确定义

Token 是大语言模型(LLM)处理文本的最小语义单元。一段文字首先被切分为若干 Token,再经过编码转换为数字向量,最终进入神经网络参与运算。

Token 并不等于一个字或一个单词。它可以是:

  • 一个完整单词:funis
  • 一个词的词根/后缀:Run + ning = "Running" 被切为两个 Token
  • 一个标点符号:,? 各算一个 Token
  • 一个特殊控制符:<|endoftext|> 是一个 Token
  • 一个或多个汉字:「苹果」可能是 1 个 Token,也可能是 2 个
Running "Running" = 2 Tokens   苹果 = 1 Token (DeepSeek)   , = 1 Token
📌 关键公式:Token ≠ 字 ≠ 词 ≠ 句子。Token 是分词器(Tokenizer)对文本切分后的最小单元,其边界由训练数据和算法共同决定。

1.3 Token 与数字 ID 的映射

每一个 Token 在模型词汇表中都对应一个唯一的整数 ID。这个映射关系在训练时确定,并固化在分词器中。

Token(文本形式)Token ID(数字)说明
苹果19416DeepSeek-R1 分词结果
哈哈哈40886三字合为 1 个 Token
RunningRun=3866, ning=278一词被切为 2 个 Token
<|endoftext|>(特殊 ID)文本结束标记符
第二章

分词器(Tokenizer):AI 如何「发明」自己的词典

2.1 什么是分词器

分词器(Tokenizer)是将原始文本切分为 Token 序列的算法模块——所有输入文本必须经过分词器处理才能进入模型;所有输出的数字序列也必须经过分词器还原为可读文字。

分词器代表模型核心算法
BPE(Byte Pair Encoding)GPT 系列基于字节对统计合并
WordPieceBERT 系列基于似然最大化
SentencePiece多语言模型支持任意语言,无需预分词
TiktokenOpenAI / DeepSeek高性能 BPE 实现

2.2 词汇表是如何「炼成」的

AI 的词汇表不是人工整理的字典,而是从海量文本中自动发现的。

Step 1:扫描海量文本

分词器会先扫描训练语料(通常数千亿个字符),统计所有字符和字符组合的出现频率。

Step 2:发现高频组合(BPE 算法核心)

系统自动发现哪些字符组合频繁出现在一起。在大量中文语料中,「苹果」作为整体出现频率极高,因此被作为独立 Token 收入词汇表,赋予唯一 ID(如 19416)。

Step 3:构建词汇表

最终词汇表包含数万至十余万个 Token,涵盖单字符、高频词、词根、标点、特殊符号等。词汇表大小(Vocabulary Size)通常在 3 万~15 万之间。

🔑 核心洞见:「AI 不是背了一本字典,而是自己从数据里发明了一本词典。这本词典里的每个词,都是从无数文本中提炼出来的高频组合。」
第三章

Token 的万千形态:不只是文字

类型示例说明
完整词is / fun / 苹果高频词直接作为整体 Token
词根/后缀Run + ning低频词被拆解为词根+后缀
标点符号, / ? / .每个标点独立占一个 Token
特殊符号<|endoftext|>控制模型行为的特殊标记
汉字组合哈哈哈 → 1 Token多字合并或单字拆分,取决于训练频率
数字/代码2024 / def / {}数字和代码符号有独特的切分规律

3.1 终极案例:三个「苹果」如何区分?

📍 场景:「我叫苹果,我爱吃苹果,我用苹果手机。」三个「苹果」的 Token ID 完全相同——但 AI 如何知道它们含义不同?
👤
+ 苹果
→ 人名
🍎
+ 苹果
→ 水果
📱
+ 苹果手机
→ 品牌
🧠 核心结论:归功于 Transformer 的「注意力机制」——模型在处理「苹果」时,能同时关注上下文的「叫」与「吃」,从而精准理解其在当前语境下的确切含义。
第四章

上下文窗口(Context Window):AI 的「工作记忆」

4.1 定义

上下文窗口是大模型在单次推理时能够「看到」和「处理」的最大 Token 数量,决定了 AI 在一次对话中能记住多少信息。

简单理解:上下文窗口 = AI 的短期工作记忆容量。窗口之外的内容,模型完全「看不见」。

4.2 「有效工时」类比

⏰ 雇佣钟点工

约定 4 小时有效工时,可做:擦玻璃(10分)、洗衣服(10分)、做晚饭(10分)…

关键:「有效工时」不含交通时间

🤖 使用大模型

128K Token 上下文窗口,可容纳:长文章 + 对话记录 + 当前问题…

关键:超出后旧内容被截断

模型上下文窗口约折合中文字数定位
GPT-4o128K Token≈ 8.5 万字通用旗舰
Claude 3.5 Sonnet200K Token≈ 13 万字长文档处理
Gemini 1.5 Pro1M Token≈ 66 万字超长上下文
DeepSeek-R1128K Token≈ 8.5 万字推理增强
⚠️ 注意:「有上下文窗口」≠「完全记住」。当输入接近上限时,早期内容的注意力权重会下降,模型对远处信息的利用率降低。这是当前架构的固有局限。

4.3 上下文窗口占用可视化

上下文窗口占用示意(128K Token 为例)
系统提示
历史对话
当前输入
输出空间
剩余可用
系统提示词
历史对话记录
当前用户输入
模型输出空间
剩余可用

当总 Token 数超过上下文窗口时,系统通常会截断最早的对话,这就是为什么超长对话中 AI 会「忘记」开头说了什么。

第五章

中英文 Token 差异:为什么中文「更贵」?

🇺🇸
英文
1 : 1~1.5
1 个单词 ≈ 1~1.5 个 Token
「apple」= 1 Token ✅
🇨🇳
中文
1 : 1~3
1 个汉字 ≈ 1~3 个 Token
「男」≈ 2 Token(拆分)⚠️
📌 关键数据:同等语义的中文文本消耗的 Token 数量通常是英文的 2~3 倍。专为中文优化的模型(DeepSeek、通义千问、百川等)可大幅改善这一差距。

5.1 根本原因与实际影响

主流大模型训练数据以英文为主(通常占比超 70%),分词器对英文词汇进行大量合并,而中文字符频率相对低,往往需要多个字节表达。

影响维度中文不利场景应对策略
API 费用同等内容中文比英文贵 2-3 倍用中文优化模型;精简提示词
上下文占用中文长文章更快填满窗口摘要化历史对话;分段处理
响应速度Token 数多 → 生成时间略长流式输出;预处理分块
第六章

Transformer 架构:Token 如何「活」起来

6.1 Transformer 解决的核心问题

Token 本身只是数字 ID,没有任何语义信息。真正让「苹果」在不同语境中含义不同的,是 Transformer 中的注意力机制(Attention Mechanism)

🔑 核心洞见:Transformer 让模型在处理每一个 Token 时,都能同时「看到」并「关注」序列中其他所有 Token,通过计算注意力权重来动态决定哪些上下文对当前 Token 的语义最重要。

6.2 从 Token 到语义:完整处理流程

📝 文本输入
Tokenizer
分词
Embedding
嵌入
位置编码
Self-Attention
FFN 前馈
×N 层
📤 输出
1
Tokenization(分词)
文本 → Token ID 序列
BPE / WordPiece / SentencePiece
2
Embedding(嵌入)
Token ID → 高维向量
Embedding 矩阵(可学习参数)
3
Positional Encoding(位置编码)
为每个向量加入位置信息
正弦位置编码 / RoPE
4
Self-Attention(自注意力)⭐
每个 Token 与所有其他 Token 交互,计算相关性权重
Q-K-V 矩阵、Softmax
5
Feed-Forward(前馈网络)
对注意力输出进行非线性变换
两层全连接网络 + 激活函数
6
Output(输出预测)
在词汇表上预测下一个 Token 的概率
线性层 + Softmax + 采样策略

6.3 注意力机制的直觉理解

  • 模型计算「苹果」与上下文中所有 Token 的相关性分数(Attention Score)
  • 「叫」与「苹果」的相关性分数很高 → 注意力权重大
  • 最终「苹果」的语义向量被「叫」大幅影响 → 推断为人名

6.4 层叠与规模

模型参数量Transformer 层数特点
GPT-31750亿96 层通用基础
GPT-4未公开~100+ 层多模态
DeepSeek-R16710亿 MoE61 层推理增强

每一层都在前一层基础上提取更抽象的特征——底层捕捉语法,中层捕捉语义,高层捕捉推理逻辑。

第七章

综合知识图谱与实践指南

7.1 核心概念关系图

用户输入文本
Tokenizer 分词器
Token 序列
Embedding 嵌入层
Transformer N 层
输出层预测
循环生成
Tokenizer 解码
最终文字输出

7.2 实用速查表

使用场景Token 估算注意事项建议
200 字中文提示词≈ 200~400 Token汉字消耗多精简用词
10 万字文档≈ 10万~25万 Token可能超出窗口分章节处理
200 行 Python 代码≈ 800~1500 Token代码效率较高可直接输入
连续对话 30 轮≈ 6000~15000 Token历史累积快定期开新对话

7.3 常见误区澄清

1
「Token 就是一个字或一个词」
Token 是分词器切分的最小单元,边界由算法决定,与字/词不完全对应
2
「上下文窗口越大,记忆越完整」
窗口大帮助更多,但注意力对远距离信息的利用率仍会下降
3
「中文比英文笨,因为 Token 多」
Token 效率是工程问题,不代表理解能力。中文优化模型已大幅改善
4
「AI 真的理解了文字的含义」
AI 通过向量运算「模拟」语义关系,不等于哲学意义上的「理解」
5
「Token 价格 = 模型全部成本」
API 计费基于 Token,但总成本还包括推理计算、存储、网络等

7.4 延伸学习路径

1
基础巩固

动手使用 Tiktokenizer 工具,输入不同语言/类型文本,观察 Token 切分结果

2
实践应用

在实际 API 调用中监控 Token 消耗,优化提示词降低成本

3
进阶原理

学习 BPE 算法具体步骤(Sennrich et al., 2015《Neural Machine Translation of Rare Words with Subword Units》)

4
架构理解

阅读 Attention Is All You Need(Vaswani et al., 2017),理解 Multi-head Attention 的完整数学形式

5
前沿追踪

关注 MLA(Multi-head Latent Attention)、Flash Attention、Mamba SSM 等新型注意力变体

🔧 Interactive Tools

Token 工具集

四款工具,帮助直观理解 Token 机制,优化 Prompt ,估算 API 费用

🔍 分词器
✂️ Prompt Token 优化器
🌐 中英文 Token 对比
💰 Token 费用估算

在下方输入任意文本,模拟查看 Token 的切分方式与统计数据。支持中文、英文、代码、混合文本。

Token 数
字符数
字/Token
点击「分词分析」查看结果
💡 不同模型的分词结果存在差异,中文模型(DeepSeek)对中文 Token 效率更高

粘贴你的 Prompt,一键分析并生成 Token 优化版本,减少 Token 消耗同时保留语义完整性。

点击下方「开始优化」查看结果
原始 Token
优化后 Token
节省比例

输入同义的中文和英文文本,直观对比两者在 Token 数量上的差异,理解中文「更贵」的原因。

🇨🇳 中文文本
🇺🇸 英文文本

根据你的使用量和模型价格,估算每天/每月的 Token API 费用。

📝 使用量参数
💲 模型定价(每 1M Token)
每日费用估算
¥0.00
人民币 / 天
每日输入 Token
每日输出 Token
每日美元费用$—
每月估算¥—
每年估算¥—
注:实际费用因上下文积累、系统提示词等因素可能有所不同。部分模型含免费额度。工具仅作为学习估算,实际结果以各平台为准
...