搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

我可以访问用于训练斯坦福NER中文模型的原始语料库吗

我正在尝试重新训练斯坦福大学名称实体识别器的中文模型。我想知道是否有办法获得用于训练官方模型的原始中文语料库？斯坦福-nlp的网页上说，他们使用了来自CoNLL，MUC-6，MUC-7和ACE的语料库。我检查了一下，CoNLL2003似乎没有中文语料库，我需要为MUC-6，MUC-7和ACE付费。

浏览 6提问于2016-01-28得票数 0

1回答

但在文本挖掘任务中，通常需要消除资源文档中的断点，然后构建语料库或其他进一步的过程。如何使用“秒针”来处理使用text2vec构建语料库、dtm和中医的文档？我以前使用tm进行文本挖掘。此外，tm中的格式交换函数在中文中存在乱码问题。如果使用text2vec读取文档，它能将一张纸读入矢量吗？向量的体积是否足以在期刊上发表一篇论文？)否则，在text2vec中构建的语料库和向量与在tm中内置的内容兼容吗？

浏览 7修改于2016-07-12得票数 1

回答已采纳

1回答

是否可以使用IBM Watson机器翻译API创建自定义域？

如果我正确理解了文档()，我只能在现有域和语言对的基础上进行构建。因此，对于汉英翻译，我只能选择专利领域，导入自己的词典和语料库，然后重新训练。虽然不确定这是否有意义，但也不清楚我们谈论的是繁体中文还是简体中文。我首先需要繁体中文服务，然后才是简体中文服务。另一种选择是建立在财经新闻域的基础上，但中文-英文的新闻不可用。

浏览 1提问于2016-08-24得票数 3

1回答

使用tf-idf时使用R和tm的新数据

使用R和tm，我已经加载和清理了一堆文本文档，并将它们制成语料库。在那之后，我使用tf-idf构建了他们的DTM，我可以将其用于所有类型的分类聚类算法。到现在为止还好。现在，让我们假设我有一个新文档，并尝试计算它到语料库中文档的距离。当然，我需要将我应用于原始集合的所有变换应用于它。将新文档添加到语料库并重新计算其tf-idf DTM不能正常工作:不仅效率低下，而且每个新文档都会碰上已经看到的文档的值，这将改变我可能将它们作为训练集运行的任何聚类分类算法的结果。因此，我的问题是，如何使用R和tm计算新文档

浏览 15提问于2017-07-03得票数 0

2回答

用更多的训练数据从MarianMT中增强HuggingFace的预训练模型

我也有一套高质量的英语到德语句子对，我想用它来提高模型的性能，这个模型是在操作系统语料库上训练的，但是没有的使模型忘记了OPUS的训练数据。有办法吗？谢谢。

浏览 5提问于2020-09-07得票数 0

回答已采纳

1回答

具有大或小语料库的Tf-idf

“在大型语料库中使用Tf-Idf方法的一个本质是，使用的语料库越大，术语的唯一权重就越多。这是因为语料库中文档大小或文档长度的增加使得语料库中两个术语的权重值重复的概率较低。在小语料库中，Tf-Idf不能造成这种差异，因为有巨大的潜力找到具有相同权重的两个术语，因为它们在每个文档中以相同的频率共享相同的源文档。通过在抄袭检测领域中使用Tf-Idf加权方案，根据语料库的大小，该特征可以成为反对者和支持者。是否有任何链接或

浏览 2修改于2021-11-19得票数 6

1回答

如何初始化gensim LDA主题模型？

有人认为，使用词簇初始化主题模型可以获得更高质量的模型或更健壮(一致)的推理。我说的是初始化优化器，而不是设置优先级。下面是一些代码来说明我想要做的事情：然后配合语料库：谢谢你的帮助！

浏览 0修改于2018-06-30得票数 0

1回答

有没有通用的中文系统字体？

我很难找到一个关于中文字体可用性的权威来源。有没有人知道在OSx和Windows系统上同时推送的字体？我已经看到了高质量的英文字体比较，但想找一些中文相关的。

浏览 0提问于2012-09-25得票数 3

回答已采纳

1回答

LVM逻辑卷快照备份不一致的可能性

我想开始使用LVM快照来帮助确保高质量的备份。如果我有一个独立于根文件系统的卷上的/var分区，我还能确保备份在特定的时间点准确地反映整个系统的状态吗？基于/var中文件的性质，是否值得关注这个问题？

浏览 0提问于2011-02-16得票数 4

1回答

使用Watson文档转换保持HTML

我们有Microsoft文档的结构，以便使用沃森文档会话服务生成高质量的RaR JSON应答单元。但是，Word文档中的任何工作链接都将由Doc服务在生成的JSON应答单元中删除，这只是平面文本。如果没有，您建议我们如何继续获取具有工作链接的Word文档到我们的RaR语料库。

浏览 5修改于2017-08-31得票数 1

回答已采纳

1回答

Python:高效实现特征向量

我把特征向量作为语料库中文档的位映射来实现。我已经拥有了整个语料库的词汇表(作为一个列表/集)和每个文档中的术语列表。例如，如果语料库词汇表为['a', 'b', 'c', 'd']，而文档d1中的术语为['a', 'b', 'd', 'd']，则d1的特征向量应为[1, 1, 0, 2]。为了生成特征向量，我会遍历语料库词汇表，检查每个

浏览 4修改于2011-04-12得票数 2

回答已采纳

2回答

nltk.word_tokenize和nltk.pos_tag支持哪些语言

我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。有没有这两个函数支持的所有语言的列表？有没有一种方法可以使用其他语料库，以便将这些语言包括在内？

浏览 3提问于2013-02-27得票数 4

回答已采纳

1回答

NLTK语料库中不间断单词的计数

我可以想出如何使语料库中的单词被一个类别过滤，例如棕色语料库中所有用于“新闻”的单词是：另外，我可以弄清楚如何获取特定文档的所有单词，例如，棕色语料库中文档‘cj47’中的所有单词是：然后，我可以循环的结果和计数的词，不是停止词。

浏览 2修改于2016-03-05得票数 0

回答已采纳

1回答

NLP文本注释存储和访问

我有一个庞大的文本语料库(大约1000万个句子)，我想用各种NLP工具(词性标记器、语法分析器、依存关系分析器等)对其进行预处理。我需要以某种方式存储由这些工具创建的各种注释层，并从我的Java代码中动态地访问它们(可能是通过提供语料库中文本范围的开始和结束索引，以及注释的类型)。

浏览 3提问于2012-08-18得票数 2

回答已采纳

1回答

如何使用R中元数据将语料库转换为data.frame

如何将语料库转换为包含元数据的R中的数据帧？我已经尝试了来自的建议，但得到的数据框只包含语料库中所有文档的文本行。我还需要文档ID，也许还需要两列中文本行的行号。sapply(corpus, `[`, "content")), 但是没有帮助；我只得到了一个错误信息"Error in match.fun(FUN)：‘meta(语料库，"id")’ist nicht Funktion，Zeichen oder Symbol“ 语

浏览 3提问于2015-08-16得票数 3

1回答

如何构建StanfordNER分类器

因为它们都是基于不同的语料库，所以我猜在语料库上训练一个机器学习分类器，如SVM和OVR (用于多标签案例)，以检测ORGANIZATION、PERSON、LOCATION等实体，这意味着训练数据将是语料库中文档的完整文本

浏览 3修改于2016-01-24得票数 2

回答已采纳

2回答

在txt中读取中文时出错:语料库()仅适用于字符、语料库、语料库、data.frame、kwic对象

我尝试生成一个词云，并使用R、jiebaR和语料库获取中文语音的词频，但无法建立语料库。fasterword')[1] dfm <- dfm(tokens)我的文本文件包含以下段落：创建语料库时出现错误

浏览 0修改于2020-01-28得票数 4

1回答

文本和模型-Decode结果错误

前两天看到xtr33me发的消息“#Textsum# -解码结果比ref文件不正确”，我现在测试的情况和这是一样的，我用中文语料库，训练到running_avg_loss = 0.00001，但是我解码的结果是错误的

浏览 1修改于2016-11-29得票数 0

5回答

如何将列表数组转换为字符串语料库，并将字符串乘以数字(提供的示例)

'1', 'am', 'a', 'girl', '1']) array(['I', '1', 'am', '1', 'non-binary', '2'])corpus = [ "I am a boy boy boy", "I

浏览 0提问于2021-05-23得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

我可以访问用于训练斯坦福NER中文模型的原始语料库吗

词组消去与矢量生成

是否可以使用IBM Watson机器翻译API创建自定义域？

使用tf-idf时使用R和tm的新数据

用更多的训练数据从MarianMT中增强HuggingFace的预训练模型

具有大或小语料库的Tf-idf

如何初始化gensim LDA主题模型？

推荐不断变化的文档

有没有通用的中文系统字体？

LVM逻辑卷快照备份不一致的可能性

使用Watson文档转换保持HTML

Python:高效实现特征向量

nltk.word_tokenize和nltk.pos_tag支持哪些语言

NLTK语料库中不间断单词的计数

NLP文本注释存储和访问

如何使用R中元数据将语料库转换为data.frame

如何构建StanfordNER分类器

在txt中读取中文时出错:语料库()仅适用于字符、语料库、语料库、data.frame、kwic对象

文本和模型-Decode结果错误

如何将列表数组转换为字符串语料库，并将字符串乘以数字(提供的示例)

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐