首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词片标记化与传统柠檬化?

词片标记化与传统柠檬化?
EN

Stack Overflow用户
提问于 2019-07-16 13:07:37
回答 1查看 1.2K关注 0票数 7

我在看NLP预处理。在某种程度上,我想实现一个上下文敏感的单词嵌入,作为识别词义的一种方式,我正在考虑使用来自BERT的输出来这样做。我注意到伯特使用WordPiece标记化(例如,"play“->”play“+ "##ing")。

现在,我使用一个在空格/一些标点符号上拆分的标准标记器对我的文本进行预处理,然后我有一个狐猴(“->"play")。我想知道WordPiece标记化比标准令牌化+柠檬化有什么好处。我知道WordPiece在词汇方面有帮助,但是还有什么其他的吗?也就是说,即使我最终没有使用BERT,我是否应该考虑用字片标记替换我的记号器+狐猴呢?在什么情况下,这是有用的?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-17 09:10:01

文字片段标记在多种方面都有帮助,而且应该比柠檬酒更好。由于多种原因:

  1. 如果你有“玩”、“玩”、“玩”等词,并将其归纳为“玩”,它可能会失去一些信息,比如playing是现在时,played是过去式,这在文字标记化中是不会发生的。
  2. 单词片段标记涵盖所有单词,甚至字典中没有出现的单词。它拆分单词,就会有字段标记,这样,您就可以为拆分的单词片段进行嵌入,而不像删除单词或用“未知”标记替换。

使用文字片段标记化而不是tokenizer+lemmatizer只是一种设计选择,词块标记化应该表现得很好。但是,您可能需要计算,因为字段标记化会增加标记的数量,而在柠檬化中则不是这样。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57057992

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档