腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(27)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
3
回答
BPE和
WordPiece
令牌-什么时候使用/哪个?
选择BPE和
WordPiece
令牌有什么一般的权衡呢?什么时候一个比另一个更好?两者在模型性能上有什么不同吗?我正在寻找一个总的答案,并以具体的例子作为后盾。
浏览 0
修改于2021-02-22
得票数 8
1
回答
BPE vs
WordPiece
标记化-何时使用/哪种?
在选择BPE和
WordPiece
标记化之间的一般权衡是什么?什么时候一个比另一个更可取?这两者在模型性能上有什么不同吗?我正在寻找一个通用的整体答案,并用具体的例子加以支持。谢谢!
浏览 0
提问于2020-06-02
得票数 4
1
回答
伯特使用
WordPiece
,RoBERTa使用BPE
在最初的伯特文件“A.2预培训程序”一节中,提到: LM掩蔽是在
WordPiece
标记化后进行的,平均掩蔽率为15%,对部分词段不作特殊考虑。
浏览 0
提问于2020-12-11
得票数 0
回答已采纳
2
回答
WordPiece
标记化如何帮助有效地处理NLP中的稀有单词问题?
我已经看到,NLP模型(如 )利用
WordPiece
进行令牌化。在playing中,我们将像play和##ing.这样的令牌拆分为有人提到,它涵盖更广泛的范围外词汇(OOV)的词汇.请有人帮我解释一下
WordPiece
标记化是如何实现的,它是如何有效地处理稀有/OOV
浏览 0
提问于2019-03-27
得票数 52
回答已采纳
1
回答
BPE多种方式对单词进行编码
对于BPE或
WordPiece
,可能有多种方法来编码一个单词。例如,假设(为简单起见)令牌词汇表包含所有字母以及合并的符号("to“、"ke”、"en")。本教程https://blog.floydhub.com/tokenization-nlp/中也提到了这种不明确的编码 然而,在hugginface教程中提到"BPE和
WordPiece
……以特定的顺序制定规则在使用BPE/
WordPiece
时,这些规则到底是如何存储和应用的,例如,在上面
浏览 17
提问于2020-08-05
得票数 0
1
回答
词片标记化与传统柠檬化?
我注意到伯特使用
WordPiece
标记化(例如,"play“->”play“+ "##ing")。我想知道
WordPiece
标记化比标准令牌化+柠檬化有什么好处。我知道
WordPiece
在词汇方面有帮助,但是还有什么其他的吗?
浏览 0
修改于2020-04-20
得票数 7
回答已采纳
1
回答
机器翻译变压器输出-“未知”令牌?
stackoverflow.com/questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何标记我的数据,我使用德语到英语翻译任务。
浏览 0
提问于2021-11-02
得票数 1
回答已采纳
2
回答
很难理解Roberta模型中使用的令牌器
’有'Ġ24','GB','Ġof','ĠVR','AM‘Bert模型使用
WordPiece
在
WordPiece
词汇表中没有出现的任何单词都会被贪婪地分解成子单词。例如
浏览 4
修改于2020-04-10
得票数 13
回答已采纳
2
回答
伯特的TokenEmbeddings是如何创建的?
在中,有一个关于
WordPiece
嵌入的段落。 我们使用
WordPiece
嵌入(Wu等人,2016)和一个30,000个令牌词汇表。每个序列的第一个令牌总是一个特殊的分类令牌(CLS)。据我所知,
WordPiece
将单词拆分成像#I #、#游泳#ing这样的词块,但它不会生成嵌入。但是,我在论文和其他来源中没有发现任何东西,这些令牌嵌入是如何生成的。他们在实际的训练前接受过预训练吗?
浏览 0
提问于2019-09-16
得票数 9
回答已采纳
1
回答
bert_vocab.bert_vocab_from_dataset太久了
Arguments for `text.BertTokenizer` # Arguments for `
wordpiece
_vocab.
wordpiece
_tokenizer_learner_lib.learn
浏览 15
提问于2022-01-20
得票数 0
1
回答
在安装了标记器之后,我在conda环境中找不到bert base uncased
Exception: Error while initializing
WordPiece
浏览 25
提问于2020-04-17
得票数 0
1
回答
bert_en_uncased_preprocess是如何制作的?比如通过训练神经网络或者手动编码?
据我所知,它完成了所有那些
WordPiece
标记化工作,因此它应该包含一些编码,而不仅仅是培训。
浏览 4
提问于2021-06-04
得票数 1
2
回答
我应该如何使用BERT嵌入来进行聚类(而不是对一个受监督的任务的BERT模型进行微调)
此外,我认识到使用
WordPiece
标记器可以代替柠檬化,因此标准的NLP预处理应该更简单。但是,由于我们已经只使用第一个N个标记,如果我们没有消除停止词,那么无用的停止词将出现在第一个N标记中。对
WordPiece
嵌入进行平均处理以获得矩阵(如果您想进行集群)是个好主意吗? 使用BERT嵌入来获取可以集群的文档的特性以便找到类似的文档组是个好主意吗?还是有其他更好的方法?
浏览 0
修改于2020-08-21
得票数 8
回答已采纳
1
回答
什么是整个词掩蔽在最近的伯特模型?
下面是一个描述它的片段:Input Text: the man jumped up , put his basket on
浏览 0
修改于2019-06-16
得票数 11
回答已采纳
1
回答
BertWordPieceTokenizer和BertTokenizer来自HuggingFace
BertWordPieceTokenizer和BertTokenizer之间的根本区别是什么,因为据我所知,BertTokenizer也在幕后使用
WordPiece
。 谢谢
浏览 7
修改于2020-06-21
得票数 5
回答已采纳
1
回答
NotFoundError Tensorflow Text Tokenization不工作
library_filename) NotFoundError: /usr/local/lib/python3.6/dist-packages/tensorflow_text/python/ops/_
wordpiece
_tokenizer.so
浏览 2
提问于2020-04-20
得票数 0
1
回答
像伯特·托肯泽那样用单词来分割句子?
我看到伯特用
WordPiece
在子单词中标记,而对于完整的单词则不使用。
浏览 3
修改于2021-02-23
得票数 0
回答已采纳
1
回答
如何在AllenNLP中将基于RoBERTa的语义角色标记转换为AllenNLP
_
wordpiece
_tokenize_input( word_pieces= self.bert_tokenizer.
wordpiece
_tokenizer.tokenize
浏览 20
修改于2022-02-24
得票数 2
回答已采纳
2
回答
变压器模型文本分类的预处理(BERT变体)
为了处理词汇表中不可用的单词,BERT使用了一种称为基于BPE的
WordPiece
标记化技术。在这种方法中,一个词汇外的单词被逐步地分成子词,然后这个词由一组子词表示。
浏览 0
修改于2020-10-13
得票数 14
2
回答
文本摘要的BERT
因为我在一个包含5个样本的开发集上工作,最多有30个
WordPiece
令牌,并且预测相同的数据,所以我只得到第一个或两个正确的令牌,然后它只是重复最后看到的令牌,或PAD令牌。
浏览 3
提问于2019-08-21
得票数 2
第 2 页
领券