我在看NLP预处理。在某种程度上,我想实现一个上下文敏感的单词嵌入,作为识别词义的一种方式,我正在考虑使用来自BERT的输出来这样做。我注意到伯特使用WordPiece标记化(例如,"play“->”play“+ "##ing")。
现在,我使用一个在空格/一些标点符号上拆分的标准标记器对我的文本进行预处理,然后我有一个狐猴(“->"play")。我想知道WordPiece标记化比标准令牌化+柠檬化有什么好处。我知道WordPiece在词汇方面有帮助,但是还有什么其他的吗?也就是说,即使我最终没有使用BERT,我是否应该考虑用字片标记替换我的记号器+狐猴呢?在什么情况下,这是有用的?
发布于 2019-07-17 09:10:01
文字片段标记在多种方面都有帮助,而且应该比柠檬酒更好。由于多种原因:
playing是现在时,played是过去式,这在文字标记化中是不会发生的。使用文字片段标记化而不是tokenizer+lemmatizer只是一种设计选择,词块标记化应该表现得很好。但是,您可能需要计算,因为字段标记化会增加标记的数量,而在柠檬化中则不是这样。
https://stackoverflow.com/questions/57057992
复制相似问题