搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

寻找匹配词

我有一个语料库文件和规则文件。我试图找到匹配的词，其中从规则出现在语料库中。# cat corpus.txtsecond lineac#

浏览 4提问于2022-02-01得票数 0

回答已采纳

1回答

编辑NLTK语料库

除了nltk附带的语料库之外，我还想用我自己的语料库来训练它，该语料库遵循相同的词性规则。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？

浏览 2修改于2015-03-11得票数 1

回答已采纳

2回答

文件分类的方法？

基于规则的:尝试从每个类别的训练语料库中提取一些规则。还有别的办法吗？

浏览 2提问于2014-03-31得票数 0

1回答

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行)，它们处理格式奇怪的txt文件:语料库中的每个文档都必须以*开头，然后每个语料库变量都必须编码为*variablename_value(遵守一些格式规则)，并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和语料库变量作为列的数据帧转换为这种格式

浏览 0提问于2021-11-28得票数 0

1回答

如何计算具有已知分布的任意密码规则的熵？

我想知道如何计算密码分布的熵，它由一个或多个子规则组成，这些子规则是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码2.从流行文化从10,000,000词组语料库中选出5个词组3.带有附加“强度”规则从

浏览 0提问于2023-01-19得票数 -1

2回答

如何为PHPixie中的模型指定数据库表名？

PS或指定规则列表(如 ) {“儿童”、“儿童”}{“语料库”、“语料库”}{“人”、“人”}

浏览 3修改于2017-09-03得票数 0

回答已采纳

1回答

用于训练Gensim Word2vec模型的每个句子的最小字数

假设我有一个短句语料库，字数从1到500个左右，平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型，我应该全部使用这些句子吗？如果是这样的话，是否有一个经验规则的最低字数？

浏览 2提问于2021-05-13得票数 0

回答已采纳

1回答

两个语料的Tf-Idf计算

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。我的问题是，在建立与语料库1的句子相关的向量的过程中，

浏览 10提问于2017-01-16得票数 0

回答已采纳

2回答

Word2Vec模型词汇表中的最小单词数？

我有一个短文语料库(大约5000句)，它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型，但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗？如果是的话，是否有关于词汇表大小的大拇指规则？

浏览 5修改于2021-02-19得票数 0

回答已采纳

1回答

使用python和语法中的列表进行文本文件解析

我必须做一个解析:目标是创建一个将应用于语料库的语法规则。我有一个问题:有可能在语法中列出一个列表吗？示例：2) Write the grammatical rules (just an example): grammar("""

浏览 1提问于2017-08-31得票数 1

回答已采纳

1回答

如何对文本数据进行整数编码？

如果我们有这样的数据，首先，他们在我们的语料库中获得单词的频率。基于单词频率，整数标签被分配给word。频率较高的单词被分配为1，然后是2，等等。我的问题是我们为什么要这么做？我们就不能随机分配单词的整数值吗。如果我们遵循这个规则，它会提高准确性吗？

浏览 4提问于2020-01-25得票数 0

回答已采纳

1回答

使用stanford解析器生成句子

步骤：3.替换一些终结值我有三个疑问：2.使用generate函数时，对于几个句子，我得到以下错误。

浏览 1提问于2017-10-11得票数 0

1回答

这是python3.8的gensim hdp模型上的一个bug吗？

我想使用来自gensim的HDP模型来获得我的语料库的主题数，我已经用这个语料库和字典从gensim训练了一个规则的LDA模型，它工作得很好。__version__)Linux ** 5.5.9-arch1-2 #1 SMP PREEMPT Thu, 12 Mar 2020 23:01:33 +0000 x86

浏览 10修改于2020-04-22得票数 2

回答已采纳

1回答

如何拟合多个向量的MultinomialNB？

我对ML和堆栈溢出都非常陌生，所以如果这是一个愚蠢的问题，或者如果我违反了任何规则，我会提前道歉。TitleString ## The corpusArticleVectorArray = ArticleVector.fit_transform(ArticleString).toarray() model_2</e

浏览 2修改于2020-04-08得票数 0

回答已采纳

1回答

是否有BigramTagger工作所需的最小数据大小？

我用nltk附带的棕色语料库来训练一个“部分句子”标签。我们得到了预期的输出：它不能标记这些单词，因此它给它们添加了None标签： (那个，没有)，(‘任何’，没有)，(‘违规’

浏览 4修改于2017-08-23得票数 3

回答已采纳

1回答

R生成NA值。

当我试图将stemCompletion应用于一个语料库时，这个函数会生成NA值。removePunctuation) (结果之一是：[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵，然

浏览 2修改于2013-09-13得票数 2

1回答

语料库组合中语料库的Docvar指示器

在组合quanteda语料库(使用加号运算符)时，是否有任何方法可以自动创建一个指示变量，以标记文档来自哪个源语料库？例如，假设你有两个语料库，corpus1和corpus2。您运行以下命令：我想找到一些方法来创建一个新的docvar，它指示corpus3中每个文档来自哪个语料库。有什么想法吗？

浏览 0修改于2018-07-29得票数 1

回答已采纳

1回答

Training gensim doc2vec出现内存错误？

我想用gensim训练doc2vec模型，但是我的语料库太大了。有没有办法训练每一批句子语料库？例如，迭代加载一些语料库并在其上训练模型，然后重新加载另一批语料库…… 我不知道是否有api或方法可以做到这一点。有什么提示吗？

浏览 1提问于2018-01-18得票数 1

2回答

Word2vec新语料库的再训练，如何更新现有词汇表的权重？

场景:使用词汇表( word2vec V1 )对C1语料库进行培训。如果我们想使用train() API对具有词汇表C2的另一个语料库V2重新训练相同的模型，那么这两种方法中会发生什么：以上两种假设中哪一种是正确的？

浏览 2修改于2018-01-13得票数 0

1回答

R主题建模- lda命令'lexicalize‘产生意外的结果

我正在为语料库的分析做准备，首先使用命令'lexicalize'，该命令返回一个术语-文档矩阵，如果没有预先指定，还会返回一个在语料库中出现的具有唯一标记的词汇表。出于研究目的，我想使用从另一个语料库推断出的词汇表对语料库进行词汇化(让我们称其为'corpusA')，这是一件应该很容易完成的事情。然而，它并没有起作用。[,3] [,4] [,5][2,] 1 1 1

浏览 0提问于2014-01-16得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

寻找匹配词

编辑NLTK语料库

文件分类的方法？

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

如何计算具有已知分布的任意密码规则的熵？

如何为PHPixie中的模型指定数据库表名？

用于训练Gensim Word2vec模型的每个句子的最小字数

两个语料的Tf-Idf计算

Word2Vec模型词汇表中的最小单词数？

使用python和语法中的列表进行文本文件解析

如何对文本数据进行整数编码？

使用stanford解析器生成句子

这是python3.8的gensim hdp模型上的一个bug吗？

如何拟合多个向量的MultinomialNB？

是否有BigramTagger工作所需的最小数据大小？

R生成NA值。

语料库组合中语料库的Docvar指示器

Training gensim doc2vec出现内存错误？

Word2vec新语料库的再训练，如何更新现有词汇表的权重？

R主题建模- lda命令'lexicalize‘产生意外的结果

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐