首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在伯特,表情符号被认为是未知的(UNK)

在伯特,表情符号被认为是未知的(UNK)
EN

Stack Overflow用户
提问于 2021-10-06 12:32:09
回答 1查看 948关注 0票数 1

我的研究兴趣是表情在文本中的作用。我试图将讽刺性的推文归类为文本。一个月前,我使用了一个dataset,其中我使用:

Tokenizer.add_tokens(“表情符号列表”)。

因此,当我测试BERT模型时,它成功地添加了令牌。但是两天前,当我对另一个数据集做同样的事情时,BERT模型被归类为'UNK‘令牌。我的问题是,BERT模式最近有变化吗?我已经用下面的令牌程序尝试过了,

BertTokenizer.from_pretrained('bert-base-uncased')

蒸馏器也是一样的。它不承认表情符号,尽管显式地添加了它们。一开始,我在某个地方读到,没有必要在令牌器中添加它们,因为伯特或蒸馏器已经在30000标记中使用了这些表情符号,但我尝试了两者。通过添加和不添加。在这两种情况下,它都不承认表情符号。

我能做些什么来解决这个问题。你对此的想法将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2021-10-07 07:38:42

您可能需要区分BERT模型(体系结构)和预先培训的BERT模型。前者绝对可以支持emoji;后者只有在用于创建WordPiece令牌程序的数据中才会为它们保留代码点。

这里是119,547 WordPiece语音在HuggingFace多语种模型中的应用分析,它没有提到表情符号。注意,119 K对于一个单词来说是非常大的;更正常的是8K、16K或32K。词汇表的大小对模型大小有相当大的影响:转换器(例如,BERT)模型的第一层和最后一层的权重要比其他层之间的权重大得多。

我一直在浏览报纸是时候认真对待Emoji了:他们极大地改进了临时会话模式是如何处理它的。他们在词汇的末尾附加了3267个表情符号。然后用表情符号在一些数据上训练它,这样它就可以尝试学习如何处理这些新字符了。

顺便说一下,对HuggingFace github存储库的搜索发现他们正在使用from emoji import demojize。这听起来像是他们把表情符号转换成文字。根据您正在做的事情,您可能需要禁用它,或者相反,您可能需要在管道中使用它。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69465778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档