首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BERT标记URL

BERT标记URL
EN

Stack Overflow用户
提问于 2020-10-27 23:51:42
回答 1查看 1.1K关注 0票数 1

我想对一堆推文进行分类,因此我使用了BERT的拥抱实现。但是,我注意到耳聋BertTokenizer没有为urls使用特殊的令牌。

代码语言:javascript
复制
>>> from transformers import BertTokenizer
>>> tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
>>> tokenizer.tokenize("https://stackoverflow.com/questions/ask")
['https', ':', '/', '/', 'stack', '##over', '##flow', '.', 'com', '/', 'questions', '/', 'ask']

对我来说,这似乎是无效的。什么是最好的方式,编码URL?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-28 08:51:46

那得看情况了。如果URL包含与分类相关的信息,那么您可以做的最好的事情就是保持它的原样。训练前的数据中当然有一些网址,伯特学会了如何正确地处理它们。

如果您确定URL与分类器无关,您可以用一个特殊的令牌替换它们,这在NLP中是非常常见的事情。但在这种情况下,你需要微调伯特,这样它就知道什么是特殊的象征。如果你不微调伯特,只在上面训练一个分类器,那么你能做的最好的事情就是保持URL的原样。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64564545

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档