我想对一堆推文进行分类,因此我使用了BERT的拥抱实现。但是,我注意到耳聋BertTokenizer没有为urls使用特殊的令牌。
>>> from transformers import BertTokenizer
>>> tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
>>> tokenizer.tokenize("https://stackoverflow.com/questions/ask")
['https', ':', '/', '/', 'stack', '##over', '##flow', '.', 'com', '/', 'questions', '/', 'ask']对我来说,这似乎是无效的。什么是最好的方式,编码URL?
发布于 2020-10-28 08:51:46
那得看情况了。如果URL包含与分类相关的信息,那么您可以做的最好的事情就是保持它的原样。训练前的数据中当然有一些网址,伯特学会了如何正确地处理它们。
如果您确定URL与分类器无关,您可以用一个特殊的令牌替换它们,这在NLP中是非常常见的事情。但在这种情况下,你需要微调伯特,这样它就知道什么是特殊的象征。如果你不微调伯特,只在上面训练一个分类器,那么你能做的最好的事情就是保持URL的原样。
https://stackoverflow.com/questions/64564545
复制相似问题