搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

3回答

BPE和WordPiece令牌-什么时候使用/哪个？

选择BPE和WordPiece令牌有什么一般的权衡呢？什么时候一个比另一个更好？两者在模型性能上有什么不同吗？我正在寻找一个总的答案，并以具体的例子作为后盾。

浏览 0修改于2021-02-22得票数 8

1回答

BPE vs WordPiece标记化-何时使用/哪种？

在选择BPE和WordPiece标记化之间的一般权衡是什么？什么时候一个比另一个更可取？这两者在模型性能上有什么不同吗？我正在寻找一个通用的整体答案，并用具体的例子加以支持。谢谢!

浏览 0提问于2020-06-02得票数 4

1回答

伯特使用WordPiece，RoBERTa使用BPE

在最初的伯特文件“A.2预培训程序”一节中，提到： LM掩蔽是在WordPiece标记化后进行的，平均掩蔽率为15%，对部分词段不作特殊考虑。

浏览 0提问于2020-12-11得票数 0

回答已采纳

2回答

WordPiece标记化如何帮助有效地处理NLP中的稀有单词问题？

我已经看到，NLP模型(如 )利用WordPiece进行令牌化。在playing中，我们将像play和##ing.这样的令牌拆分为有人提到，它涵盖更广泛的范围外词汇(OOV)的词汇.请有人帮我解释一下WordPiece标记化是如何实现的，它是如何有效地处理稀有/OOV

浏览 0提问于2019-03-27得票数 52

回答已采纳

1回答

对于BPE或WordPiece，可能有多种方法来编码一个单词。例如，假设(为简单起见)令牌词汇表包含所有字母以及合并的符号("to“、"ke”、"en")。本教程https://blog.floydhub.com/tokenization-nlp/中也提到了这种不明确的编码然而，在hugginface教程中提到"BPE和WordPiece……以特定的顺序制定规则在使用BPE/WordPiece时，这些规则到底是如何存储和应用的，例如，在上面

浏览 17提问于2020-08-05得票数 0

1回答

词片标记化与传统柠檬化？

我注意到伯特使用WordPiece标记化(例如，"play“->”play“+ "##ing")。我想知道WordPiece标记化比标准令牌化+柠檬化有什么好处。我知道WordPiece在词汇方面有帮助，但是还有什么其他的吗？

浏览 0修改于2020-04-20得票数 7

回答已采纳

1回答

机器翻译变压器输出-“未知”令牌？

stackoverflow.com/questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何标记我的数据，我使用德语到英语翻译任务。

浏览 0提问于2021-11-02得票数 1

回答已采纳

2回答

很难理解Roberta模型中使用的令牌器

’有'Ġ24'，'GB'，'Ġof'，'ĠVR'，'AM‘Bert模型使用WordPiece在WordPiece词汇表中没有出现的任何单词都会被贪婪地分解成子单词。例如

浏览 4修改于2020-04-10得票数 13

回答已采纳

2回答

伯特的TokenEmbeddings是如何创建的？

在中，有一个关于WordPiece嵌入的段落。我们使用WordPiece嵌入(Wu等人，2016)和一个30,000个令牌词汇表。每个序列的第一个令牌总是一个特殊的分类令牌(CLS)。据我所知，WordPiece将单词拆分成像#I #、#游泳#ing这样的词块，但它不会生成嵌入。但是，我在论文和其他来源中没有发现任何东西，这些令牌嵌入是如何生成的。他们在实际的训练前接受过预训练吗？

浏览 0提问于2019-09-16得票数 9

回答已采纳

1回答

bert_vocab.bert_vocab_from_dataset太久了

Arguments for `text.BertTokenizer` # Arguments for `wordpiece_vocab.wordpiece_tokenizer_learner_lib.learn

浏览 15提问于2022-01-20得票数 0

1回答

在安装了标记器之后，我在conda环境中找不到bert base uncased

Exception: Error while initializing WordPiece

浏览 25提问于2020-04-17得票数 0

1回答

bert_en_uncased_preprocess是如何制作的？比如通过训练神经网络或者手动编码？

据我所知，它完成了所有那些WordPiece标记化工作，因此它应该包含一些编码，而不仅仅是培训。

浏览 4提问于2021-06-04得票数 1

2回答

我应该如何使用BERT嵌入来进行聚类(而不是对一个受监督的任务的BERT模型进行微调)

此外，我认识到使用WordPiece标记器可以代替柠檬化，因此标准的NLP预处理应该更简单。但是，由于我们已经只使用第一个N个标记，如果我们没有消除停止词，那么无用的停止词将出现在第一个N标记中。对WordPiece嵌入进行平均处理以获得矩阵(如果您想进行集群)是个好主意吗？使用BERT嵌入来获取可以集群的文档的特性以便找到类似的文档组是个好主意吗？还是有其他更好的方法？

浏览 0修改于2020-08-21得票数 8

回答已采纳

1回答

什么是整个词掩蔽在最近的伯特模型？

下面是一个描述它的片段：Input Text: the man jumped up , put his basket on

浏览 0修改于2019-06-16得票数 11

回答已采纳

1回答

BertWordPieceTokenizer和BertTokenizer来自HuggingFace

BertWordPieceTokenizer和BertTokenizer之间的根本区别是什么，因为据我所知，BertTokenizer也在幕后使用WordPiece。谢谢

浏览 7修改于2020-06-21得票数 5

回答已采纳

1回答

NotFoundError Tensorflow Text Tokenization不工作

library_filename) NotFoundError: /usr/local/lib/python3.6/dist-packages/tensorflow_text/python/ops/_wordpiece_tokenizer.so

浏览 2提问于2020-04-20得票数 0

1回答

像伯特·托肯泽那样用单词来分割句子？

我看到伯特用WordPiece在子单词中标记，而对于完整的单词则不使用。

浏览 3修改于2021-02-23得票数 0

回答已采纳

1回答

如何在AllenNLP中将基于RoBERTa的语义角色标记转换为AllenNLP

_wordpiece_tokenize_input( word_pieces= self.bert_tokenizer.wordpiece_tokenizer.tokenize

浏览 20修改于2022-02-24得票数 2

回答已采纳

2回答

变压器模型文本分类的预处理(BERT变体)

为了处理词汇表中不可用的单词，BERT使用了一种称为基于BPE的WordPiece标记化技术。在这种方法中，一个词汇外的单词被逐步地分成子词，然后这个词由一组子词表示。

浏览 0修改于2020-10-13得票数 14

2回答

文本摘要的BERT

因为我在一个包含5个样本的开发集上工作，最多有30个WordPiece令牌，并且预测相同的数据，所以我只得到第一个或两个正确的令牌，然后它只是重复最后看到的令牌，或PAD令牌。

浏览 3提问于2019-08-21得票数 2

第 2 页

BPE和WordPiece令牌-什么时候使用/哪个？

BPE vs WordPiece标记化-何时使用/哪种？

伯特使用WordPiece，RoBERTa使用BPE

WordPiece标记化如何帮助有效地处理NLP中的稀有单词问题？

BPE多种方式对单词进行编码

词片标记化与传统柠檬化？

机器翻译变压器输出-“未知”令牌？

很难理解Roberta模型中使用的令牌器

伯特的TokenEmbeddings是如何创建的？

bert_vocab.bert_vocab_from_dataset太久了

在安装了标记器之后，我在conda环境中找不到bert base uncased

bert_en_uncased_preprocess是如何制作的？比如通过训练神经网络或者手动编码？

我应该如何使用BERT嵌入来进行聚类(而不是对一个受监督的任务的BERT模型进行微调)

什么是整个词掩蔽在最近的伯特模型？

BertWordPieceTokenizer和BertTokenizer来自HuggingFace

NotFoundError Tensorflow Text Tokenization不工作

像伯特·托肯泽那样用单词来分割句子？

如何在AllenNLP中将基于RoBERTa的语义角色标记转换为AllenNLP

变压器模型文本分类的预处理(BERT变体)

文本摘要的BERT

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐