在自然语言处理中,神经网络的典型默认是以单词作为标记。
OpenAI编码是基于GPT-3,但也涉及源代码.对于一般的源代码,没有相应的标记的明显选择,因为每种编程语言都有不同的标记化规则。我不认为Codex对每种语言都使用了单独的标记器。
用什么做代币?
发布于 2023-03-04 18:50:48
NLP神经网络不再使用字标记。有一段时间以来,人们已经有一段时间没有使用副词了。定义子单词词汇表的常用方法是字节对编码(BPE)、字片或一元标记化。
GPT-3使用标记化。根据OpenAI的令牌工具网站:
Codex模型使用了一组不同的编码,从而更有效地处理空白。
从这一点上,我知道他们使用的是BPE,但词汇表不同。这是由这个javascript令牌程序支持的,它是通过从OpenAI自己的在线令牌器工具中提取BPE词汇表来创建的。
https://datascience.stackexchange.com/questions/119952
复制相似问题