搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

定量评价两个文本语料库之间的相似性

我想评估两个语料库有多相似或不同，以及这种相似性是否具有统计学意义。一些接近Kolmogorov-Smirnov测试的统计数据，但文本数据。对于附加语境，两个语料库与同一事件相关，其中一个语料库随后比另一个语料库大。任何关于这方面的线索/suggestions都将不胜感激。谢谢

浏览 0提问于2023-01-10得票数 1

1回答

如何从预先训练的模型中获得Gensim中的word2vec训练损失？

我有一些预先训练好的word2vec模型，我想用相同的语料库对它们进行评估。在给定模型转储文件和内存中的语料库的情况下，有没有办法获得原始的训练损失？

浏览 0提问于2019-03-30得票数 0

2回答

命名实体识别黄金标准语料库的样本大小

我有一个包含170部荷兰文学小说的语料库，我将在其中应用命名实体识别。为了评估现有的荷兰语NER标记器，我想在这个语料库的随机样本中手动标注命名实体-为此，我使用。在我对NER标记器的评估中，手动注释的随机样本将作为“黄金标准”。我编写了一个Python脚本，在句子级别输出我的语料库的随机样本。我的问题是:就每本小说的句子数量而言，随机样本的理想大小是多少？

浏览 29修改于2016-11-22得票数 3

1回答

是否在一种不同类型的语料库上应用预先训练过的模型？

我在A语料库上训练了我的分类模型，并在B语料库上对其进行了评估。我这么做是因为A语料库的标记句比B多。A中句子的性质与B中的句子不同。

浏览 0提问于2020-11-13得票数 1

回答已采纳

1回答

在自然语言中比较几个语料库的最佳方法是什么？

我有几个较小的语料库(每个语料库从1400到200个文档-我知道，这很小！)我想进行比较，但除了查看每个LDA模型(例如使用pyLDAviz)之外，我不知道如何进行比较。在语料库/主题模型中比较主题的一些好方法是什么？例如，是否可以估计两个LDA模型重叠的程度？或者，有没有其他方法来评估几个语料库的主题相似性？提前感谢您的帮助！

浏览 0提问于2017-09-01得票数 4

1回答

在没有任何标签数据的情况下，在web上对文档进行排序

该语料库中的文本是标准英语，但没有任何标签(即没有查询相关的文档结构)。是否有可能使用在大型语料库(如bert或word2vec)上训练过的预先训练过的模型，并在未进行任何评估的情况下将其直接用于被刮过的数据集并获得良好的结果？如果不是这样，在MS宏数据集上训练一个模型并将其应用于这个语料库是否值得探索？

浏览 0提问于2021-07-06得票数 1

1回答

Apache OpenNLP词性标记器:在哪个数据集上训练？

我正在尝试评估标记器的性能，我想知道它可能是在哪些数据上训练的？存在于英语的模型的名称没有给出关于所使用的训练数据的任何提示。Apache OpenNLP文档提到了几个语料库，这些语料库也可能被用来训练POS标签者。有谁知道如何找出英语POS模型是在哪些训练数据上训练的？

浏览 0提问于2015-05-02得票数 1

1回答

将word2vec偏向于特殊语料库

我想使用一个特定领域的语料库(如物理教科书)来使用Word2Vec创建单词向量。由于语料库的体积较小，这种独立的方法不能提供好的结果。这尤其让人伤心，因为我们想要评估那些很可能不在课本词汇表之外的单词。有没有尝试将两个语料库的向量表示结合起来--一般的和特定的。

浏览 1修改于2015-06-05得票数 2

2回答

如何从文本语料库中提取语义相关性

目的是评估大型文本语料库中的语义关联，例如“警察”和“犯罪”应该比“警察”和“山”具有更强的语义相关性，因为它们往往在相同的语境中共同发生。我所读过的最简单的方法是从语料库中提取信息。

浏览 2修改于2022-04-08得票数 1

1回答

文本分类的区间随机林模型

我在语料库上创建了一个TFIDF，没有英语停止词，训练/测试了一个随机森林分类器，对模型进行了评估，并将该模型应用于一个更大的文本语料库。

浏览 2提问于2015-12-28得票数 3

回答已采纳

1回答

与Glove字典的主题一致性(gensim)

我正在尝试评估一个自制的主题模型。为此，我使用主题列表(由关键字表示)，并希望使用gensim.models.coherencemodel.CoherenceModel，并在语料库上调用它，语料库是一个字符串列表(每个字符串都是一个文档

浏览 10提问于2020-03-25得票数 0

回答已采纳

1回答

选择合适的语料库，建立一个用于比较两个字符串相似性的TF-下手向量器

我正在评估一组字符串对象何时可以被认为是相等的(例如，考虑到我们谈论的是期刊，“国际空气和水污染杂志”是否与“空气和水污染”相同？)我想知道什么是合适的语料库来构建TF以色列国防军向量器。我目前使用属于同一类型的这些字符串的所有不同值作为语料库(在本例中，所有引用日志的字符串)。这是一个有效的方法吗？为什么？其他有效的方法可能是什么？

浏览 0修改于2017-09-08得票数 1

1回答

我有几个语料库和NLP系统(包括几个合并的这些系统的输出以联合和交叉的形式结合在一起)，我提取了语料库内所有文档中每个语料库的注释跨度集{(开始，结束)}，并将跨度集与每个语料库各自的金本位进行了比较，我试图定性地评估为什么某些系统不能像F-得分的特定组合那样表现得那么好，所以我认为最简单的方法是生成精确召回或ROC曲线。对于系统预测和金本位，我在语料库中的每个文档都有相同长度的numpy向量，所以我计划在生成我的ROC曲线时将这些向量用于y_true和y_predict。

浏览 0提问于2020-01-29得票数 4

6回答

Keras文本预处理-将Tokenizer对象保存到文件中以进行评分

使用Tokenizer对象/类将文本语料库转换为序列现在，为了使用这个模型进行评分，我能够将模型保存到一个文件中，并从一个文件中加载没有这个，我将不得不处理语料库，每次我需要得分，甚至一个句子。有办法绕道吗？

浏览 18修改于2017-12-30得票数 63

回答已采纳

1回答

我们可以使用F-measure，精度，召回率，以及排名检索结果吗？

这些值是否有某种相关性，比如评估查询是否接近语料库？我知道map值是用来评估排名结果的。但我想知道如果F-measure..。可能对其他东西有用。

浏览 1提问于2018-03-18得票数 0

1回答

在python的文本语料库中找到最相似的句子/字符串

我的目标很简单:我有一组字符串或句子，我想在文本语料库中找到最相似的一个。因此，当输出时，我应该得到的是：“库前装饰”。这似乎是一种效率很低

浏览 0提问于2019-03-18得票数 1

1回答

求词的线性代数结构评价手套模型

在此实现之后，我在我的文本语料库上使用c++应用程序构建了手套模型。我想找到嵌入这个词的方式如果A与B相关，C与D相关，则and +B应等于D。我想在python中评估这些嵌入。

浏览 1提问于2017-08-15得票数 1

1回答

NER评价指标

我试着在带注释的语料库上比较两个NER工具，我不确定哪一个是最好的度量标准，因为我以前从未使用过NER模型。具体来说，我只对一个类感兴趣，所以我想在这个特定的类上对它们进行评估。

浏览 0修改于2021-01-16得票数 2

回答已采纳

1回答

精确度、召回率、ROC in solr

我正在使用solr来访问和检索本体中的数据，这些数据稍后将用作语料库。我对这些(信息检索、本体、python和solr)完全陌生。在信息检索中有一个步骤来评估查询结果。我计划使用Precision、Recall和ROC score来评估这一点。有没有办法使用solr中的函数来计算查准率、召回率和ROC的分数？无论是来自solr界面还是背后的代码都无关紧要。

浏览 1提问于2016-05-18得票数 0

1回答

如何评估我自己的文本分类器

我还在我的金标语料库上使用了NB分类器，并使用Python中的Sci-kit学习库通过CV评估了它的性能。然而，我正在努力找出如何评估我自己的分类器的性能。

浏览 0提问于2016-05-11得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

定量评价两个文本语料库之间的相似性

如何从预先训练的模型中获得Gensim中的word2vec训练损失？

命名实体识别黄金标准语料库的样本大小

是否在一种不同类型的语料库上应用预先训练过的模型？

在自然语言中比较几个语料库的最佳方法是什么？

在没有任何标签数据的情况下，在web上对文档进行排序

Apache OpenNLP词性标记器:在哪个数据集上训练？

将word2vec偏向于特殊语料库

如何从文本语料库中提取语义相关性

文本分类的区间随机林模型

与Glove字典的主题一致性(gensim)

选择合适的语料库，建立一个用于比较两个字符串相似性的TF-下手向量器

信息抽取中F-分数差异的可视化

Keras文本预处理-将Tokenizer对象保存到文件中以进行评分

我们可以使用F-measure，精度，召回率，以及排名检索结果吗？

在python的文本语料库中找到最相似的句子/字符串

求词的线性代数结构评价手套模型

NER评价指标

精确度、召回率、ROC in solr

如何评估我自己的文本分类器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐