腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
定量评价两个文本
语料
库之间的相似性
我想
评估
两个
语料
库有多相似或不同,以及这种相似性是否具有统计学意义。一些接近Kolmogorov-Smirnov测试的统计数据,但文本数据。对于附加语境,两个
语料
库与同一事件相关,其中一个
语料
库随后比另一个
语料
库大。 任何关于这方面的线索/suggestions都将不胜感激。谢谢
浏览 0
提问于2023-01-10
得票数 1
1
回答
如何从预先训练的模型中获得Gensim中的word2vec训练损失?
我有一些预先训练好的word2vec模型,我想用相同的
语料
库对它们进行
评估
。在给定模型转储文件和内存中的
语料
库的情况下,有没有办法获得原始的训练损失?
浏览 0
提问于2019-03-30
得票数 0
2
回答
命名实体识别黄金标准
语料
库的样本大小
我有一个包含170部荷兰文学小说的
语料
库,我将在其中应用命名实体识别。为了
评估
现有的荷兰语NER标记器,我想在这个
语料
库的随机样本中手动标注命名实体-为此,我使用。在我对NER标记器的
评估
中,手动注释的随机样本将作为“黄金标准”。我编写了一个Python脚本,在句子级别输出我的
语料
库的随机样本。 我的问题是:就每本小说的句子数量而言,随机样本的理想大小是多少?
浏览 29
修改于2016-11-22
得票数 3
1
回答
是否在一种不同类型的
语料
库上应用预先训练过的模型?
我在A
语料
库上训练了我的分类模型,并在B
语料
库上对其进行了
评估
。 我这么做是因为A
语料
库的标记句比B多。A中句子的性质与B中的句子不同。
浏览 0
提问于2020-11-13
得票数 1
回答已采纳
1
回答
在自然语言中比较几个
语料
库的最佳方法是什么?
我有几个较小的
语料
库(每个
语料
库从1400到200个文档-我知道,这很小!)我想进行比较,但除了查看每个LDA模型(例如使用pyLDAviz)之外,我不知道如何进行比较。在
语料
库/主题模型中比较主题的一些好方法是什么?例如,是否可以估计两个LDA模型重叠的程度?或者,有没有其他方法来
评估
几个
语料
库的主题相似性? 提前感谢您的帮助!
浏览 0
提问于2017-09-01
得票数 4
1
回答
在没有任何标签数据的情况下,在web上对文档进行排序
该
语料
库中的文本是标准英语,但没有任何标签(即没有查询相关的文档结构)。是否有可能使用在大型
语料
库(如bert或word2vec)上训练过的预先训练过的模型,并在未进行任何
评估
的情况下将其直接用于被刮过的数据集并获得良好的结果?如果不是这样,在MS宏数据集上训练一个模型并将其应用于这个
语料
库是否值得探索?
浏览 0
提问于2021-07-06
得票数 1
1
回答
Apache OpenNLP词性标记器:在哪个数据集上训练?
我正在尝试
评估
标记器的性能,我想知道它可能是在哪些数据上训练的?存在于英语的模型的名称没有给出关于所使用的训练数据的任何提示。Apache OpenNLP文档提到了几个
语料
库,这些
语料
库也可能被用来训练POS标签者。 有谁知道如何找出英语POS模型是在哪些训练数据上训练的?
浏览 0
提问于2015-05-02
得票数 1
1
回答
将word2vec偏向于特殊
语料
库
我想使用一个特定领域的
语料
库(如物理教科书)来使用Word2Vec创建单词向量。由于
语料
库的体积较小,这种独立的方法不能提供好的结果。这尤其让人伤心,因为我们想要
评估
那些很可能不在课本词汇表之外的单词。有没有尝试将两个
语料
库的向量表示结合起来--一般的和特定的。
浏览 1
修改于2015-06-05
得票数 2
2
回答
如何从文本
语料
库中提取语义相关性
目的是
评估
大型文本
语料
库中的语义关联,例如“警察”和“犯罪”应该比“警察”和“山”具有更强的语义相关性,因为它们往往在相同的语境中共同发生。 我所读过的最简单的方法是从
语料
库中提取信息。
浏览 2
修改于2022-04-08
得票数 1
1
回答
文本分类的区间随机林模型
我在
语料
库上创建了一个TFIDF,没有英语停止词,训练/测试了一个随机森林分类器,对模型进行了
评估
,并将该模型应用于一个更大的文本
语料
库。
浏览 2
提问于2015-12-28
得票数 3
回答已采纳
1
回答
与Glove字典的主题一致性(gensim)
我正在尝试
评估
一个自制的主题模型。为此,我使用主题列表(由关键字表示),并希望使用gensim.models.coherencemodel.CoherenceModel,并在
语料
库上调用它,
语料
库是一个字符串列表(每个字符串都是一个文档
浏览 10
提问于2020-03-25
得票数 0
回答已采纳
1
回答
选择合适的
语料
库,建立一个用于比较两个字符串相似性的TF-下手向量器
我正在
评估
一组字符串对象何时可以被认为是相等的(例如,考虑到我们谈论的是期刊,“国际空气和水污染杂志”是否与“空气和水污染”相同?)我想知道什么是合适的
语料
库来构建TF以色列国防军向量器。我目前使用属于同一类型的这些字符串的所有不同值作为
语料
库(在本例中,所有引用日志的字符串)。这是一个有效的方法吗?为什么?其他有效的方法可能是什么?
浏览 0
修改于2017-09-08
得票数 1
1
回答
信息抽取中F-分数差异的可视化
我有几个
语料
库和NLP系统(包括几个合并的这些系统的输出以联合和交叉的形式结合在一起),我提取了
语料
库内所有文档中每个
语料
库的注释跨度集{(开始,结束)},并将跨度集与每个
语料
库各自的金本位进行了比较,我试图定性地
评估
为什么某些系统不能像F-得分的特定组合那样表现得那么好,所以我认为最简单的方法是生成精确召回或ROC曲线。对于系统预测和金本位,我在
语料
库中的每个文档都有相同长度的numpy向量,所以我计划在生成我的ROC曲线时将这些向量用于y_true和y_predict。
浏览 0
提问于2020-01-29
得票数 4
6
回答
Keras文本预处理-将Tokenizer对象保存到文件中以进行评分
使用Tokenizer对象/类将文本
语料
库转换为序列 现在,为了使用这个模型进行评分,我能够将模型保存到一个文件中,并从一个文件中加载没有这个,我将不得不处理
语料
库,每次我需要得分,甚至一个句子。有办法绕道吗?
浏览 18
修改于2017-12-30
得票数 63
回答已采纳
1
回答
我们可以使用F-measure,精度,召回率,以及排名检索结果吗?
这些值是否有某种相关性,比如
评估
查询是否接近
语料
库? 我知道map值是用来
评估
排名结果的。但我想知道如果F-measure..。可能对其他东西有用。
浏览 1
提问于2018-03-18
得票数 0
1
回答
在python的文本
语料
库中找到最相似的句子/字符串
我的目标很简单:我有一组字符串或句子,我想在文本
语料
库中找到最相似的一个。 因此,当输出时,我应该得到的是:“库前装饰”。 这似乎是一种效率很低
浏览 0
提问于2019-03-18
得票数 1
1
回答
求词的线性代数结构评价手套模型
在此实现之后,我在我的文本
语料
库上使用c++应用程序构建了手套模型。我想找到嵌入这个词的方式 如果A与B相关,C与D相关,则and +B应等于D。我想在python中
评估
这些嵌入。
浏览 1
提问于2017-08-15
得票数 1
1
回答
NER评价指标
我试着在带注释的
语料
库上比较两个NER工具,我不确定哪一个是最好的度量标准,因为我以前从未使用过NER模型。具体来说,我只对一个类感兴趣,所以我想在这个特定的类上对它们进行
评估
。
浏览 0
修改于2021-01-16
得票数 2
回答已采纳
1
回答
精确度、召回率、ROC in solr
我正在使用solr来访问和检索本体中的数据,这些数据稍后将用作
语料
库。我对这些(信息检索、本体、python和solr)完全陌生。 在信息检索中有一个步骤来
评估
查询结果。我计划使用Precision、Recall和ROC score来
评估
这一点。有没有办法使用solr中的函数来计算查准率、召回率和ROC的分数?无论是来自solr界面还是背后的代码都无关紧要。
浏览 1
提问于2016-05-18
得票数 0
1
回答
如何
评估
我自己的文本分类器
我还在我的金标
语料
库上使用了NB分类器,并使用Python中的Sci-kit学习库通过CV
评估
了它的性能。然而,我正在努力找出如何
评估
我自己的分类器的性能。
浏览 0
提问于2016-05-11
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券