搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

棕色语料库的规则标签集和非规则标签集有什么不同

我正在使用棕色语料库进行训练。我不清楚棕色语料库的不同标签。例如NN或NN-TL。我感兴趣的问题类型..1. NN和NN-TL的区别是什么？

浏览 0修改于2014-08-07得票数 2

1回答

编辑NLTK语料库

除了nltk附带的语料库之外，我还想用我自己的语料库来训练它，该语料库遵循相同的词性规则。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？

浏览 2修改于2015-03-11得票数 1

回答已采纳

2回答

文件分类的方法？

基于规则的:尝试从每个类别的训练语料库中提取一些规则。还有别的办法吗？

浏览 2提问于2014-03-31得票数 0

1回答

寻找匹配词

我有一个语料库文件和规则文件。我试图找到匹配的词，其中从规则出现在语料库中。

浏览 4提问于2022-02-01得票数 0

回答已采纳

1回答

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行)，它们处理格式奇怪的txt文件:语料库中的每个文档都必须以*开头，然后每个语料库变量都必须编码为*variablename_value(遵守一些格式规则)，并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和语料库变量作为列的数据帧转换为这种格式

浏览 0提问于2021-11-28得票数 0

2回答

如何为PHPixie中的模型指定数据库表名？

PS或指定规则列表(如 ) {“儿童”、“儿童”}{“语料库”、“语料库”}{“人”、“人”}

浏览 3修改于2017-09-03得票数 0

回答已采纳

1回答

如何计算具有已知分布的任意密码规则的熵？

我想知道如何计算密码分布的熵，它由一个或多个子规则组成，这些子规则是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码2.从流行文化从10,000,000词组语料库中选出5个词组3.带有附加“强度”规则从

浏览 0提问于2023-01-19得票数 -1

1回答

是否有BigramTagger工作所需的最小数据大小？

我用nltk附带的棕色语料库来训练一个“部分句子”标签。我们得到了预期的输出：它不能标记这些单词，因此它给它们添加了None标签： (那个，没有)，(‘任何’，没有)，(‘违规’

浏览 4修改于2017-08-23得票数 3

回答已采纳

1回答

R生成NA值。

当我试图将stemCompletion应用于一个语料库时，这个函数会生成NA值。removePunctuation) (结果之一是：[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵，然

浏览 2修改于2013-09-13得票数 2

1回答

用于训练Gensim Word2vec模型的每个句子的最小字数

假设我有一个短句语料库，字数从1到500个左右，平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型，我应该全部使用这些句子吗？如果是这样的话，是否有一个经验规则的最低字数？

浏览 2提问于2021-05-13得票数 0

回答已采纳

2回答

Word2Vec模型词汇表中的最小单词数？

我有一个短文语料库(大约5000句)，它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型，但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗？如果是的话，是否有关于词汇表大小的大拇指规则？

浏览 5修改于2021-02-19得票数 0

回答已采纳

1回答

使用python和语法中的列表进行文本文件解析

我必须做一个解析:目标是创建一个将应用于语料库的语法规则。我有一个问题:有可能在语法中列出一个列表吗？

浏览 1提问于2017-08-31得票数 1

回答已采纳

1回答

一种多标签文本分类方法

我想做一个分类器，用正确的标签在语料库中标注每一个文本(S)。我可以直接去ML使用sklearn多标签文本分类，甚至到DL使用LSTM。但是，从简单开始，首先使用基于规则的系统不是更好吗？

浏览 0提问于2020-06-03得票数 1

回答已采纳

1回答

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。我的问题是，在建立与语料库1的句子相关的向量的过程中，我使用语料库2的索引，通过汇总与X术语相关的文档来获得

浏览 10提问于2017-01-16得票数 0

回答已采纳

1回答

这是python3.8的gensim hdp模型上的一个bug吗？

我想使用来自gensim的HDP模型来获得我的语料库的主题数，我已经用这个语料库和字典从gensim训练了一个规则的LDA模型，它工作得很好。

浏览 10修改于2020-04-22得票数 2

回答已采纳

1回答

如何对文本数据进行整数编码？

如果我们有这样的数据，首先，他们在我们的语料库中获得单词的频率。基于单词频率，整数标签被分配给word。如果我们遵循这个规则，它会提高准确性吗？

浏览 4提问于2020-01-25得票数 0

回答已采纳

1回答

管道中的Spacy包含规则匹配器

我的语料库中有一些短语需要spacy来忽略(希望避免过度匹配)。它们是相当简单的正则表达式公式，我也可以用Spacy's基于规则的匹配的格式来编写。

浏览 15提问于2018-02-23得票数 3

1回答

需要为大型语料库应用基于规则的算法来查找元素数组中存在的相似/相关关键字

目前正在NLP工作空间中各自处理文本数据。我想通过基于搜索的方式找出基于列的实际给定的基于关键字的领域字典。analyst_position=['qa', 'testing','plsql'] data_science_position=['analytics lead','lead','py

浏览 5修改于2021-12-30得票数 0

1回答

使用stanford解析器生成句子

步骤：3.替换一些终结值我有三个疑问：2.使用generate函数时，对于几个句子，我得到以下错误。

浏览 1提问于2017-10-11得票数 0

1回答

用相关语料库和随机语料库计算TF-以色列国防军单词评分

给出一个相关文档语料库(语料库)和一个随机文档语料库( ran_CORPUS )，我想用ran_CORPUS作为基线来计算语料库中所有单词的TF-以色列国防军分数。在我的项目中，ran_CORPUS的文档数量大约是语料库的10倍。(现在，语料库是一个包含一个长字符串元素的列表)。在语料库中，我附加了所有的ran_CORPUS文档。然后，使用sklearn's TfidfTransformer，我将计算语料库(现在由语料库和r

浏览 1提问于2018-11-12得票数 2

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

棕色语料库的规则标签集和非规则标签集有什么不同

编辑NLTK语料库

文件分类的方法？

寻找匹配词

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

如何为PHPixie中的模型指定数据库表名？

如何计算具有已知分布的任意密码规则的熵？

是否有BigramTagger工作所需的最小数据大小？

R生成NA值。

用于训练Gensim Word2vec模型的每个句子的最小字数

Word2Vec模型词汇表中的最小单词数？

使用python和语法中的列表进行文本文件解析

一种多标签文本分类方法

两个语料的Tf-Idf计算

这是python3.8的gensim hdp模型上的一个bug吗？

如何对文本数据进行整数编码？

管道中的Spacy包含规则匹配器

需要为大型语料库应用基于规则的算法来查找元素数组中存在的相似/相关关键字

使用stanford解析器生成句子

用相关语料库和随机语料库计算TF-以色列国防军单词评分

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐