文章/答案/技术大牛

发布

社区首页 >问答首页 >在伯特，表情符号被认为是未知的(UNK)

问在伯特，表情符号被认为是未知的(UNK)
EN

Stack Overflow用户

提问于 2021-10-06 12:32:09

回答 1查看 948关注 0票数 1

我的研究兴趣是表情在文本中的作用。我试图将讽刺性的推文归类为文本。一个月前，我使用了一个dataset，其中我使用：

Tokenizer.add_tokens(“表情符号列表”)。

因此，当我测试BERT模型时，它成功地添加了令牌。但是两天前，当我对另一个数据集做同样的事情时，BERT模型被归类为'UNK‘令牌。我的问题是，BERT模式最近有变化吗？我已经用下面的令牌程序尝试过了，

BertTokenizer.from_pretrained('bert-base-uncased')

蒸馏器也是一样的。它不承认表情符号，尽管显式地添加了它们。一开始，我在某个地方读到，没有必要在令牌器中添加它们，因为伯特或蒸馏器已经在30000标记中使用了这些表情符号，但我尝试了两者。通过添加和不添加。在这两种情况下，它都不承认表情符号。

我能做些什么来解决这个问题。你对此的想法将不胜感激。

python

nlp

sentiment-analysis

回答 1

Stack Overflow用户

发布于 2021-10-07 07:38:42

您可能需要区分BERT模型(体系结构)和预先培训的BERT模型。前者绝对可以支持emoji；后者只有在用于创建WordPiece令牌程序的数据中才会为它们保留代码点。

这里是119,547 WordPiece语音在HuggingFace多语种模型中的应用分析，它没有提到表情符号。注意，119 K对于一个单词来说是非常大的；更正常的是8K、16K或32K。词汇表的大小对模型大小有相当大的影响:转换器(例如，BERT)模型的第一层和最后一层的权重要比其他层之间的权重大得多。

我一直在浏览报纸是时候认真对待Emoji了:他们极大地改进了临时会话模式是如何处理它的。他们在词汇的末尾附加了3267个表情符号。然后用表情符号在一些数据上训练它，这样它就可以尝试学习如何处理这些新字符了。

顺便说一下，对HuggingFace github存储库的搜索发现他们正在使用from emoji import demojize。这听起来像是他们把表情符号转换成文字。根据您正在做的事情，您可能需要禁用它，或者相反，您可能需要在管道中使用它。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69465778

复制

相似问题

问在伯特，表情符号被认为是未知的(UNK)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在伯特，表情符号被认为是未知的(UNK)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在伯特，表情符号被认为是未知的(UNK)
EN