搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

具有多语言预训练维基单词向量的ValueError

我正在尝试使用来自FastText (https://fasttext.cc/docs/en/pretrained-vectors.html)的多语言预训练的维基词向量。= 0: deu_output.write(line) 我正在做的事情在某些语言或一定数量的向量上工作得很好，但对于其他一些语言或超过一定数量的元素，我会得到以下错误： Traceback我在其他语言中得到了同样的错误，但在其他一些语言</

浏览 32修改于2021-08-11得票数 0

1回答

如何制作其他语言的预训练向量(word2vec)？

我想尝试实现word2vec到越南语，但我对预训练的向量感到困惑，当我尝试在英语中使用时，我使用谷歌新闻矢量-负向量300.bin.gz(大约3.4‘m)作为预训练的向量，它工作得很好。如果我使用越南语，我应该自己制作数据预训练向量吗?？如何制作一个预先训练好的向量，比如Google News- vectors Negative300.bin.gz，然后我尝试将Google News-vectors Negative300.bin转换成文本格式

浏览 1提问于2016-05-26得票数 0

2回答

在小型定制语料库上预训练语言模型

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：从我的新文本中获取新的标记，并将它们添加到现有的经过预先培训的语言模型中(例如，vanilla BERT)。使用组合标记器在自定义语料库上

浏览 5修改于2020-04-26得票数 7

2回答

使用MLM对语言模型进行持续的预训练与微调

到目前为止，我已经尝试了以下两种方法： BertForPreTraining model)Starting 从一个预先培训的BERT检查点开始，并继续使用蒙面语言建模(MLM) +下一句预测(NSP)头进行预培训(例如使用带有MLM目标的预先训练的BERT模型(例如，假设我们不需要NSP作为培训前部分的BertForMaskedLM模型)。但我仍然感到困惑的是，如果使用BertForPreTraining或BertForMaskedLM真的对伯特进行持续的预培训，或者这只是两个微调模型，分别使用MLM+NSP和MLM对伯特

浏览 5提问于2021-07-20得票数 5

回答已采纳

1回答

在Python语言中使用MXNet预训练的图像分类模型

这里描述了R语言的教程：致以良好的问候，凯文

浏览 3修改于2016-11-08得票数 1

1回答

spark nlp中的多语言bert

我想知道是否有预训练的多语种Bert在sparknlp中可用？如你所知，Bert经过了109种语言的预训练。我想知道是不是所有这些语言都在spark bert中？谢谢

浏览 24提问于2020-10-19得票数 2

1回答

为OOV词添加新向量的适当方法

我使用的是一些特定于领域的语言，它有大量的OOV单词和一些排字。我注意到Spacy会为这些OOV单词分配一个全零向量，所以我想知道如何正确地处理这个问题。老实说，我似乎无法正确地解析来自网站的解释：采用近似语言建模的方法，对管道组件的“令牌到矢量”(tok2vec)层进行预训练.具体来说，我们加载预训练向量，并训练像CNN、BiLSTM等组件来预测与预训练向量匹配的向量什么意味着加载预先训练过的向量，然后

浏览 8提问于2020-07-28得票数 5

回答已采纳

1回答

伯特是否只对蒙面的代币进行预训练？

我对伯特预科训练中蒙面语言模型的细节有点困惑。该模型是仅为预训练的目的预测蒙面标记，还是对所有标记进行预测？

浏览 0提问于2020-07-06得票数 -1

回答已采纳

1回答

如何从头开始训练通用句子编码器

我想使用通用句子编码器，但问题是谷歌的预训练版本不支持我的语言(甚至不支持多语言版本：) 有没有什么教程或者方法可以用我自己的语料库从头开始训练我自己的通用句子编码器？

浏览 14提问于2020-05-23得票数 1

回答已采纳

1回答

大型的预培训语言模型是否已经“了解”NLP任务？

目前，NLP最先进的技术是在特定的任务上完善一个大型的预先训练的语言模型，如BERT/GPT等。这些语言模型是对大量数据进行预训练，然后根据为回答问题、机器翻译等。而发布的流行标记数据集进行基本评估。因此，这些数据集(训练和测试数据)基本上包括分类任务中的标签或Q/A任务中的答案。所以现在，当训练一种新的大型语言模型(使用一种新的体系结构)时，它会被大量的文本数据所填充，而这些数据通常也是从互联网上刮来的。这将基本上违背评估的目的，

浏览 0提问于2022-10-21得票数 5

1回答

通过word2vec给出预先训练的嵌入词在新词汇表上的嵌入

我对语言有预习的恩布丁。我有该语言的词汇表，通过word2vec模型使用预培训嵌入来训练这个词汇表的管道是什么？

浏览 0提问于2023-01-19得票数 0

1回答

无法加载经过预先训练的韩语word2vec

我想下载并加载经过预先训练的分析韩文的word2vec。我在这里下载了预训练的word2vec：，从30+语言的预训练词向量：中下载。

浏览 7提问于2021-12-23得票数 1

回答已采纳

1回答

为什么BERT模型必须保持10%的掩码标记不变？

在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

浏览 151提问于2020-09-23得票数 2

回答已采纳

1回答

是否可以训练spacy来识别任何随机的组织名称

是否有可能将任意语言的任意组织名称以空格标识为实体我尝试了spacy的预训练模型来识别组织名称，但在某些地方失败了，例如Rama在远程软件工作

浏览 1提问于2019-05-21得票数 0

1回答

针对不同语言的特定领域微调BERT？

我想对一个预先训练好的BERT模型进行微调。但是，我的任务使用特定领域内的数据(比如生物医学数据)。此外，我的数据也是一种不同于英语的语言(比如荷兰语)。现在，我可以微调荷兰bert-base-荷兰案例预训练模型。然而，我该如何对生物医学BERT模型进行微调，比如BioBERT，它属于正确的领域，但语言错误？如果我在没有对模型进行任何更改的情况下进行微调，我担心模型不会很好地学习任务，因为它是在完全不同的语言上预先训练的。

浏览 4提问于2021-01-28得票数 2

3回答

ImportError:使用基于QRNN的预训练语言模型时，没有名为“forget_mult_cuda”的模块出现错误

我正在尝试使用基于QRNN的编码器通过调整QRNN预先训练的LM来进行文本分类。

浏览 49提问于2019-03-29得票数 1

1回答

使用HuggingFace对预训练任务进行mBART微调

我想使用预训练任务对我的数据进行facebook/mbart-large-cc25调优，特别是掩蔽语言建模(MLM)。我如何在HuggingFace中做到这一点？编辑:为了清晰起见，重写了问题

浏览 147修改于2021-09-23得票数 1

1回答

Pytorch running_mean、running_var和num_batches_tracked在培训期间更新，但我想修复它们。

在pytorch中，我想使用预先训练的模型并训练我的模型来向模型结果中添加一个增量，即： input------------- (my model) --------- Δresult --+-- final_result 创建我的模型并

浏览 9提问于2021-12-07得票数 1

1回答

如何微调伯特自己的任务？

我想用我自己语言的数据对伯特进行预培训，因为BERT的多语言(包括我的语言)模型并不成功。由于整个训练成本很高，所以我决定对其进行微调，包括两个任务:蒙面语言模型和下一个句子预测。

浏览 1提问于2019-05-03得票数 0

1回答

如何创建一个类似于Imagenet或Noisy student的预训练权重模型？

我正在尝试创建一个预训练的权重模型文件，该文件可用于初始化类似于imagenet预训练的权重文件或噪声学生的模型。我有足够大的数据集，这些数据集非常多样化，但特定于我感兴趣的领域。我希望创建一个通用的预训练权重文件，该文件特定于我感兴趣的领域。我知道我不能训练和保存模型权重，因为在生成的预训练权重文件和我试图使用该预训练权重的网络之间，类的数量不会匹配(因此不会匹配层数)。我在互联网上找不到任何

浏览 23提问于2020-06-29得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

具有多语言预训练维基单词向量的ValueError

如何制作其他语言的预训练向量(word2vec)？

在小型定制语料库上预训练语言模型

使用MLM对语言模型进行持续的预训练与微调

在Python语言中使用MXNet预训练的图像分类模型

spark nlp中的多语言bert

为OOV词添加新向量的适当方法

伯特是否只对蒙面的代币进行预训练？

如何从头开始训练通用句子编码器

大型的预培训语言模型是否已经“了解”NLP任务？

通过word2vec给出预先训练的嵌入词在新词汇表上的嵌入

无法加载经过预先训练的韩语word2vec

为什么BERT模型必须保持10%的掩码标记不变？

是否可以训练spacy来识别任何随机的组织名称

针对不同语言的特定领域微调BERT？

ImportError:使用基于QRNN的预训练语言模型时，没有名为“forget_mult_cuda”的模块出现错误

使用HuggingFace对预训练任务进行mBART微调

Pytorch running_mean、running_var和num_batches_tracked在培训期间更新，但我想修复它们。

如何微调伯特自己的任务？

如何创建一个类似于Imagenet或Noisy student的预训练权重模型？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐