我正在努力寻找更多的关于预先训练的模型distilbert-base-nli-mean-tokens的信息。有人能告诉我这是文件还是文件吗?它是基于蒸馏,一个蒸馏版本的伯特:更小,更快,更便宜和更轻文件吗?该报告于2020年3月发表。我正在寻找这份文件和句子之间的链接-伯特(句子转换器)。原始判刑-伯特论文发表于2019年8月。我想尝试使用S-伯特模型进行预训练的模型,因此我尝试了distilbert-base-nli-mean-tokens 模型。在实现之后,我发现它比在语句转换网站上可用的其他经过预先训练的模型要快得多。在研究这篇论文的时候,我意识到原始论文没有提到这个预先训练过的模型。
我发现了用知识蒸馏制作单语句子嵌入多语种,这篇文章是由同一作者发表的,其中提到了DistilmBERT,但没有提到DistilBert,有人能帮我解开这个谜团吗?
发布于 2021-02-26 14:28:15
distilbert-base-nli-mean-tokens模型是使用CLS标记的平均池策略的自然语言推理的DistilBERT基模型。有关DistilBERT基本模型的更多信息,请查看原稿。池策略就是模型将来自不同层的不同嵌入(以及信息)组合在一起的方式。
https://datascience.stackexchange.com/questions/89915
复制相似问题