Token - AI大模型理解世界的最小单位
词元(Token)是AI大模型处理文本的基本单位。不同于我们日常理解的"单词",词元是通过特定算法将文本切分后的最小语义单元。
不同的AI模型使用不同的分词器(Tokenizer),因此同样的文本在不同模型中会被计算为不同数量的词元。
| 文本 | GPT-4 | Claude | 中文 |
|---|---|---|---|
| Hello World | 2 | 2 | - |
| 人工智能 | 4-6 | 4-6 | 4字 |
| 中华人民共和国 | 8-12 | 8-12 | 7字 |
词元直接影响使用AI的成本和效率。模型按处理的词元数量收费,理解词元有助于优化提示词(Prompt)以降低成本。
文本如何变成Token?
用户输入的自然语言文本
使用BPE等算法切分文本
转换为数字向量表示
神经网络计算生成输出
Byte Pair Encoding
GPT系列使用基于Unigram语言模型
LLaMA、T5使用Google开发的子词算法
BERT使用OpenAI的快速分词器
GPT-3.5/4使用从语言到数字,从人类到机器
"词元是AI时代的象形文字,是人类智慧向机器传递的密码。"
词元代表了人类语言向机器可理解形式的转换,是文明传承的新方式。
词元是人类思维与AI理解之间的桥梁,让跨物种交流成为可能。
如同原子构成物质,词元构成了AI世界中的信息基本单位。
掌握词元规律,优化提示词,已成为AI时代的新艺术形式。
英文通常比中文占用更少的Token
精简语言,直接表达核心需求
结构化内容比长段落更高效
利用多轮对话减少重复输入
了解当前AI领域的主流大语言模型
OpenAI开发的旗舰级大语言模型,在推理、创作、编程等方面表现卓越。
Anthropic开发的AI助手,以安全性和超长上下文窗口著称。
Google DeepMind开发的多模态大模型,原生支持文本、图像、音频、视频。
Meta开源的大语言模型,可本地部署,社区生态丰富。
中国月之暗面科技开发,以超长上下文和中文理解能力见长。
百度开发的国产大语言模型,深度整合百度生态和服务。
阿里云开发的大语言模型,在中文理解和多模态方面表现出色。
深度求索开发的国产大模型,以高性价比和强推理能力著称。
主流大模型API价格排行榜(每百万Token)
* 价格仅供参考,以各平台官方最新定价为准
| 排名 | 模型 | 提供商 | 输入价格 | 性价比 |
|---|---|---|---|---|
| 1 | DeepSeek V3 | 深度求索 | ¥0.5-1 | 极高 |
| 2 | LLaMA 3 | Meta | 免费(自托管) | 开源免费 |
| 3 | GPT-4o-mini | OpenAI | $0.15 | 高 |
| 4 | 通义千问-Turbo | 阿里云 | ¥2 | 高 |
| 5 | Kimi | 月之暗面 | ¥3-6 | 高 |
| 6 | 文心一言 | 百度 | ¥4-8 | 中 |
| 7 | GPT-4o | OpenAI | $2.50 | 中 |
| 8 | Claude 3.5 Sonnet | Anthropic | $3 | 中 |
| 9 | GPT-4 | OpenAI | $30 | 低 |
| 10 | Claude 3 Opus | Anthropic | $15 | 低 |
| 排名 | 模型 | 提供商 | 输出价格 | 性价比 |
|---|---|---|---|---|
| 1 | DeepSeek V3 | 深度求索 | ¥2-4 | 极高 |
| 2 | LLaMA 3 | Meta | 免费(自托管) | 开源免费 |
| 3 | GPT-4o-mini | OpenAI | $0.60 | 高 |
| 4 | 通义千问-Turbo | 阿里云 | ¥6 | 高 |
| 5 | Kimi | 月之暗面 | ¥6-12 | 高 |
| 6 | 文心一言 | 百度 | ¥8-16 | 中 |
| 7 | GPT-4o | OpenAI | $10 | 中 |
| 8 | Claude 3.5 Sonnet | Anthropic | $15 | 中 |
| 9 | Claude 3 Opus | Anthropic | $75 | 低 |
| 10 | GPT-4 | OpenAI | $60 | 低 |