文章/答案/技术大牛

发布

问BERT标记URL
EN

Stack Overflow用户

提问于 2020-10-27 23:51:42

回答 1查看 1.1K关注 0票数 1

我想对一堆推文进行分类，因此我使用了BERT的拥抱实现。但是，我注意到耳聋BertTokenizer没有为urls使用特殊的令牌。

>>> from transformers import BertTokenizer
>>> tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
>>> tokenizer.tokenize("https://stackoverflow.com/questions/ask")
['https', ':', '/', '/', 'stack', '##over', '##flow', '.', 'com', '/', 'questions', '/', 'ask']

对我来说，这似乎是无效的。什么是最好的方式，编码URL？

python

machine-learning

bert-language-model

huggingface-transformers

huggingface-tokenizers

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-28 08:51:46

那得看情况了。如果URL包含与分类相关的信息，那么您可以做的最好的事情就是保持它的原样。训练前的数据中当然有一些网址，伯特学会了如何正确地处理它们。

如果您确定URL与分类器无关，您可以用一个特殊的令牌替换它们，这在NLP中是非常常见的事情。但在这种情况下，你需要微调伯特，这样它就知道什么是特殊的象征。如果你不微调伯特，只在上面训练一个分类器，那么你能做的最好的事情就是保持URL的原样。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64564545

复制

相似问题

问BERT标记URL
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BERT标记URLEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BERT标记URL
EN