大模型 Token 究竟是啥:图解大模型Token
前几天,一个朋友问我:“大模型中的 Token 究竟是什么?”这确实是一个很有代表性的问题。许多人听说过 Token 这个概念,但未必真正理解它的作用和意义。思考之后,我决定写篇文章,详细解释这个话题。
我说:像 DeepSeek 和 ChatGPT 这样的超大语言模型,都有一个“刀法精湛”的小弟——分词器(Tokenizer)。
当大模型接收到一段文字。
会让分词器把它切成很多个小块。
这切出来的每一个小块就叫做一个 Token。
比如这段话(我喜欢唱、跳、Rap和篮球),在大模型里可能会被切成这个样子。
像单个汉字,可能是一个 Token。
两个汉字构成的词语,也可能是一个 Token。
三个字构成的常见短语,也可能是一个 Token。
一个标点符号,也可能是一个 Token。
一个单词,或者是几个字母组成的一个词缀,也可能是一个 Token。
大模型在输出文字的时候,也是一个 Token 一个 Token 的往外蹦,所以看起来可能有点像在打字一样。
朋友听完以后,好像更疑惑了:
于是,我决定换一个方式,给他通俗解释一下。
大模型的Token究竟是啥,以及为什么会是这样。
首先,请大家快速读一下这几个字:
是不是有点没有认出来,或者是需要愣两秒才可以认出来?
但是如果这些字出现在词语或者成语里,你瞬间就可以念出来。
那之所以会这样,是因为我们的大脑在日常生活中,喜欢把这些有含义的词语或者短语,优先作为一个整体来对待。
不到万不得已,不会去一个字一个字的抠。
这就导致我们对这些词语还挺熟悉,单看这些字(旯妁圳侈邯)的时候,反而会觉得有点陌生。
而大脑
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页:
[1]