Search
在大型语言模型 (LLM) 中, Token 是文本处理的基本单元.
如果是开源模型, 可以在模型仓库中找到 tokenizer.json 文件, 里面包含了词汇表和对应的 token 映射关系.
其结构类似:
{ "version": "1.0", "added_tokens": [ { "id": 151643, "content": "<|endoftext|>", }, ... ], "model": { "type": "BPE", "vocab": { "!": 0, "\"": 1, "#": 2, "$": 3, "%": 4, "&": 5, ... } } }
其中:
模型是怎样计算 token 使用量的?
注意:
如果使用大模型 API 写了一个服务, 该怎样计算 token 用量?
模型该怎样与向量数据库结合?