搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

编辑NLTK语料库

除了nltk附带的语料库之外，我还想用我自己的语料库来训练它，该语料库遵循相同的词性规则。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？

浏览 2修改于2015-03-11得票数 1

回答已采纳

2回答

文件分类的方法？

基于规则的:尝试从每个类别的训练语料库中提取一些规则。还有别的办法吗？

浏览 2提问于2014-03-31得票数 0

1回答

寻找匹配词

我有一个语料库文件和规则文件。我试图找到匹配的词，其中从规则出现在语料库中。

浏览 4提问于2022-02-01得票数 0

回答已采纳

1回答

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行)，它们处理格式奇怪的txt文件:语料库中的每个文档都必须以*开头，然后每个语料库变量都必须编码为*variablename_value(遵守一些格式规则)，并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和语料库变量作为列的数据帧转换为这种格式

浏览 0提问于2021-11-28得票数 0

2回答

如何为PHPixie中的模型指定数据库表名？

PS或指定规则列表(如 ) {“儿童”、“儿童”}{“语料库”、“语料库”}{“人”、“人”}

浏览 3修改于2017-09-03得票数 0

回答已采纳

1回答

如何计算具有已知分布的任意密码规则的熵？

我想知道如何计算密码分布的熵，它由一个或多个子规则组成，这些子规则是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码2.从流行文化从10,000,000词组语料库中选出5个词组3.带有附加“强度”规则从

浏览 0提问于2023-01-19得票数 -1

1回答

我可以访问用于训练斯坦福NER中文模型的原始语料库吗

我想知道是否有办法获得用于训练官方模型的原始中文语料库？斯坦福-nlp的网页上说，他们使用了来自CoNLL，MUC-6，MUC-7和ACE的语料库。我检查了一下，CoNLL2003似乎没有中文语料库，我需要为MUC-6，MUC-7和ACE付费。有没有其他方法可以获得这些？谢谢。

浏览 6提问于2016-01-28得票数 0

8回答

如何在R包中显示语料库文本？

我在R和tm包中是全新的，所以请原谅我愚蠢的问题;-)我如何在R包中显示纯文本语料库的文本？我在语料库中加载了包含323个纯文本文件的语料库：corpus <- Corpus(src)我总是得到这样的输出，而不是语料库文本本身：Metadata: 7</

浏览 12修改于2015-05-25得票数 10

回答已采纳

1回答

是否有BigramTagger工作所需的最小数据大小？

我用nltk附带的棕色语料库来训练一个“部分句子”标签。我们得到了预期的输出：它不能标记这些单词，因此它给它们添加了None标签： (那个，没有)，(‘任何’，没有)，(‘违规’

浏览 4修改于2017-08-23得票数 3

回答已采纳

3回答

如何在语料库中手动设置文档id？

然而，这项工作发现，我需要语料库中的文档I来匹配数据帧中的文档I。文档ids存储在原始数据帧中的单独列中。df <- as.data.frame(t(rbind(c(1,3,5,7,8,10), library("tm")corpus <- Corpus(VectorSource(d

浏览 2修改于2013-02-13得票数 2

回答已采纳

1回答

R生成NA值。

当我试图将stemCompletion应用于一个语料库时，这个函数会生成NA值。removePunctuation) (结果之一是：[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵，然

浏览 2修改于2013-09-13得票数 2

1回答

用于训练Gensim Word2vec模型的每个句子的最小字数

假设我有一个短句语料库，字数从1到500个左右，平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型，我应该全部使用这些句子吗？如果是这样的话，是否有一个经验规则的最低字数？

浏览 2提问于2021-05-13得票数 0

回答已采纳

2回答

无法使用R中的检查函数查看文本

我试图使用检查查看语料库中的文本数据。我得到了输出，因为有些数字如下：<<PlainTextDocument>>Content: chars: 100在R中，当试图使用检查函数查看语料库数据时，为什么不能查看其中的文本？

浏览 4修改于2015-06-08得票数 0

2回答

将文档从tm语料库拆分为多个文档

一个奇怪的问题是，是否有一种方法可以将使用tm中的语料库函数导入的语料库文档拆分成多个文档，然后在我的语料库中作为单独的文档重新阅读？VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>` <<VCorpus (documents: 1, metadata (corpus/indexed):

浏览 4修改于2020-06-20得票数 2

回答已采纳

1回答

python中表示语料库句子的一种热编码方法

目前我需要做一个NLP项目，它首先需要用一个单一的热编码来表示一个大的语料库。基本上，这一想法类似于以下内容：顺便说一句，如果向量大部分是用零实现的，我们可以使用Scipy.Sparse来使存储变得很小，例如，CSR。因此，我的整个问题是：语料库中的句子如何用OneHotEncod

浏览 2修改于2015-05-20得票数 3

回答已采纳

1回答

如何在python中使用conditionalFreqDist方法中的bigram时向生成器添加值？

我有一个语料库，我用它生成了生词。-> 'wordPairsBigram‘指的是语料库中的缩略语。我有句话：“公司董事长说他明年会增加利润”。我有以下代码，它计算在语料库中可用的句子的双字数的条件频率。output: The 8 0 0 0 0 next 0 0 0 0

浏览 4提问于2014-02-19得票数 0

3回答

R语料库正在处理我的UTF-8编码文本。

我只是想从俄文，UTF-8编码文本创建一个语料库.问题是，tm包中的Corpus方法没有正确编码字符串。mini GT-I9190 (чёрный)")> vs <- VectorSource(data)然后创建语料库>><<PlainTextDocument (metadata: 7)>> Ñêëàäñêîå ïîìåùåíèå,

浏览 4提问于2014-07-23得票数 3

回答已采纳

2回答

Word2Vec模型词汇表中的最小单词数？

我有一个短文语料库(大约5000句)，它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型，但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗？如果是的话，是否有关于词汇表大小的大拇指规则？

浏览 5修改于2021-02-19得票数 0

回答已采纳

1回答

使用python和语法中的列表进行文本文件解析

我必须做一个解析:目标是创建一个将应用于语料库的语法规则。我有一个问题:有可能在语法中列出一个列表吗？

浏览 1提问于2017-08-31得票数 1

回答已采纳

2回答

为Textacy中的单个单词计算TD-IDF

我试图使用来计算跨标准语料库的一个单词的TF-以色列国防军得分，但是对于我收到的结果有点不清楚。(4, 3) 2.386294361119891(6, 4) 2.386294361119891 问题的第二部分是我如何提供我自己的语料库在

浏览 1修改于2019-04-21得票数 5

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

编辑NLTK语料库

文件分类的方法？

寻找匹配词

如何将数据帧转换为可由Iramuteq和Alceste读取的txt

如何为PHPixie中的模型指定数据库表名？

如何计算具有已知分布的任意密码规则的熵？

我可以访问用于训练斯坦福NER中文模型的原始语料库吗

如何在R包中显示语料库文本？

是否有BigramTagger工作所需的最小数据大小？

如何在语料库中手动设置文档id？

R生成NA值。

用于训练Gensim Word2vec模型的每个句子的最小字数

无法使用R中的检查函数查看文本

将文档从tm语料库拆分为多个文档

python中表示语料库句子的一种热编码方法

如何在python中使用conditionalFreqDist方法中的bigram时向生成器添加值？

R语料库正在处理我的UTF-8编码文本。

Word2Vec模型词汇表中的最小单词数？

使用python和语法中的列表进行文本文件解析

为Textacy中的单个单词计算TD-IDF

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐