搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

编辑NLTK语料库

除了nltk附带的语料库之外，我还想用我自己的语料库来训练它，该语料库遵循相同的词性规则。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？

浏览 2修改于2015-03-11得票数 1

回答已采纳

2回答

文件分类的方法？

基于规则的:尝试从每个类别的训练语料库中提取一些规则。还有别的办法吗？

浏览 2提问于2014-03-31得票数 0

1回答

如何计算具有已知分布的任意密码规则的熵？

我想知道如何计算密码分布的熵，它由一个或多个子规则组成，这些子规则是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码2.从流行文化从10,000,000词组语料库中选出5个词组3.带有附加“强度”规则从

浏览 0提问于2023-01-19得票数 -1

1回答

寻找匹配词

我有一个语料库文件和规则文件。我试图找到匹配的词，其中从规则出现在语料库中。

浏览 4提问于2022-02-01得票数 0

回答已采纳

1回答

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行)，它们处理格式奇怪的txt文件:语料库中的每个文档都必须以*开头，然后每个语料库变量都必须编码为*variablename_value(遵守一些格式规则)，并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和语料库变量作为列的数据帧转换为这种格式

浏览 0提问于2021-11-28得票数 0

2回答

如何为PHPixie中的模型指定数据库表名？

PS或指定规则列表(如 ) {“儿童”、“儿童”}{“语料库”、“语料库”}{“人”、“人”}

浏览 3修改于2017-09-03得票数 0

回答已采纳

2回答

word2vec中的命令行参数

我想使用word2vec用当前版本的英文维基百科创建我自己的词向量语料库，但我找不到使用该程序的命令行参数的解释。在demp-script中，您可以找到以下内容：makewget http://mattmahoney.net/dc/text8.zip -O text8.gzfi time .1e

浏览 3修改于2015-10-18得票数 3

2回答

设置将文本文件读入tm Corpora的编码。

使用tm语料库加载一堆文档，我需要指定编码。docs <- Corpus(DirSource(cname), encoding ="UTF-8"

浏览 5修改于2016-05-17得票数 0

回答已采纳

1回答

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？

我有一个语料库，我已经将其转换为通用语言，但其中一些单词没有正确转换为英语。因此，我的语料库包含非ASCII码字符，比如U+00F8。EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM") 我的语料库由166个文档组成。

浏览 0修改于2019-08-16得票数 5

1回答

是否可以使用标签对语料库文档进行分类？

我有一个23000文件的语料库，需要分为5个不同的类别。我没有任何标签数据可供我使用，只是自由格式的文本文档和标签(是的，一个词的标签，而不是主题)。所以我采用了两步的方法：以某种方式，使用这些标记的数据来标识其他文档的标签。对于步骤2，我尝试了以下方法：对分类数据进行主题建模，使用规则提取重要术语，使用重要术语对其余文档进行标记。

浏览 0提问于2020-08-26得票数 0

1回答

是否有BigramTagger工作所需的最小数据大小？

我用nltk附带的棕色语料库来训练一个“部分句子”标签。我们得到了预期的输出：它不能标记这些单词，因此它给它们添加了None标签： (那个，没有)，(‘任何’，没有)，(‘违规’

浏览 4修改于2017-08-23得票数 3

回答已采纳

1回答

R生成NA值。

当我试图将stemCompletion应用于一个语料库时，这个函数会生成NA值。removePunctuation) (结果之一是：[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵，然

浏览 2修改于2013-09-13得票数 2

1回答

用于训练Gensim Word2vec模型的每个句子的最小字数

假设我有一个短句语料库，字数从1到500个左右，平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型，我应该全部使用这些句子吗？如果是这样的话，是否有一个经验规则的最低字数？

浏览 2提问于2021-05-13得票数 0

回答已采纳

4回答

Java -如何逐字阅读大文件，而不是逐行阅读？

我想阅读Java语言中的"text8“语料库，并重新格式化一些单词。问题是，在这个100MB的语料库中，所有的单词都在一行上。所以我的问题是:在Java中，是否可以逐行阅读语料库，而不是逐字阅读？例如，因为所有单词都在一行上，所以每次迭代读取100个单词？

浏览 0修改于2015-11-10得票数 6

1回答

我正在开发一个例程来自动定义几个语料库 quanteda ..。我有几个控制脚本的参数，其中一个是将要生成的语料库的名称。我可以使用下面的函数轻松地以编程方式创建语料库但我完全没有添加任何文档变量为它干杯。一旦我定义了语料库，我通常会通过函数在整个代码中调用它 ..。我已经相当广泛地使用了这种方法，并取得了成功。请看下面的简单代码，我在其中定义了语料库，然后尝试将一个docvar与其关联。consisting of 2 documents, showing 2 documents:

浏览 22提问于2021-02-18得票数 1

回答已采纳

3回答

如何在语料库中手动设置文档id？

然而，这项工作发现，我需要语料库中的文档I来匹配数据帧中的文档I。文档ids存储在原始数据帧中的单独列中。df <- as.data.frame(t(rbind(c(1,3,5,7,8,10), library("tm")corpus <- Corpus(VectorSource(d

浏览 2修改于2013-02-13得票数 2

回答已采纳

1回答

如何快速获取语料库中的单词集合(使用nltk)？

我想用nltk快速地为语料库建立一个单词查找表。以下是我正在做的事情：使用a=nltk.word_tokenize(文件)获取所有令牌；

浏览 1修改于2015-03-27得票数 2

回答已采纳

2回答

Word2Vec模型词汇表中的最小单词数？

我有一个短文语料库(大约5000句)，它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型，但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗？如果是的话，是否有关于词汇表大小的大拇指规则？

浏览 5修改于2021-02-19得票数 0

回答已采纳

1回答

NLTK语料库预处理

我试图从语料库中删除较长(>25个标记)和较短(<4个标记)的句子，并删除包含出现次数少于8次的罕见单词的句子。我试图删除它，但每次尝试都会收到错误消息或空列表。语料库是棕色语料库。

浏览 5修改于2021-03-09得票数 0

回答已采纳

1回答

使用python和语法中的列表进行文本文件解析

我必须做一个解析:目标是创建一个将应用于语料库的语法规则。我有一个问题:有可能在语法中列出一个列表吗？

浏览 1提问于2017-08-31得票数 1

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

编辑NLTK语料库

文件分类的方法？

如何计算具有已知分布的任意密码规则的熵？

寻找匹配词

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

如何为PHPixie中的模型指定数据库表名？

word2vec中的命令行参数

设置将文本文件读入tm Corpora的编码。

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？

是否可以使用标签对语料库文档进行分类？

是否有BigramTagger工作所需的最小数据大小？

R生成NA值。

用于训练Gensim Word2vec模型的每个句子的最小字数

Java -如何逐字阅读大文件，而不是逐行阅读？

使用get()函数以编程方式分配quanteda文档变量

如何在语料库中手动设置文档id？

如何快速获取语料库中的单词集合(使用nltk)？

Word2Vec模型词汇表中的最小单词数？

NLTK语料库预处理

使用python和语法中的列表进行文本文件解析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐