腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
编辑NLTK
语料
库
除了nltk附带的
语料
库之外,我还想用我自己的
语料
库来训练它,该
语料
库遵循相同的词性
规则
。如何找到它正在使用的
语料
库,以及如何添加我自己的
语料
库(另外,不是作为替代)?
浏览 2
修改于2015-03-11
得票数 1
回答已采纳
2
回答
文件分类的方法?
基于
规则
的:尝试从每个类别的训练
语料
库中提取一些
规则
。 还有别的办法吗?
浏览 2
提问于2014-03-31
得票数 0
1
回答
寻找匹配词
我有一个
语料
库文件和
规则
文件。我试图找到匹配的词,其中从
规则
出现在
语料
库中。
浏览 4
提问于2022-02-01
得票数 0
回答已采纳
1
回答
如何将数据帧转换为可由Iramuteq和Alceste读取的txt
Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行),它们处理格式奇怪的txt文件:
语料
库中的每个文档都必须以*开头,然后每个
语料
库变量都必须编码为*variablename_value(遵守一些格式
规则
),并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和
语料
库变量作为列的数据帧转换为这种格式
浏览 0
提问于2021-11-28
得票数 0
2
回答
如何为PHPixie中的模型指定数据库表名?
PS或指定
规则
列表(如 ) {“儿童”、“儿童”}{“
语料
库”、“
语料
库”}{“人”、“人”}
浏览 3
修改于2017-09-03
得票数 0
回答已采纳
1
回答
如何计算具有已知分布的任意密码
规则
的熵?
我想知道如何计算密码分布的熵,它由一个或多个子
规则
组成,这些子
规则
是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码2.从流行文化从10,000,000词组
语料
库中选出5个词组3.带有附加“强度”
规则
从
浏览 0
提问于2023-01-19
得票数 -1
1
回答
我可以访问用于训练斯坦福NER中文模型的原始
语料
库吗
我想知道是否有办法获得用于训练官方模型的原始中文
语料
库?斯坦福-nlp的网页上说,他们使用了来自CoNLL,MUC-6,MUC-
7
和ACE的
语料
库。我检查了一下,CoNLL2003似乎没有中文
语料
库,我需要为MUC-6,MUC-
7
和ACE付费。有没有其他方法可以获得这些?谢谢。
浏览 6
提问于2016-01-28
得票数 0
8
回答
如何在R包中显示
语料
库文本?
我在R和tm包中是全新的,所以请原谅我愚蠢的问题;-)我如何在R包中显示纯文本
语料
库的文本?我在
语料
库中加载了包含323个纯文本文件的
语料
库:corpus <- Corpus(src)我总是得到这样的输出,而不是
语料
库文本本身:Metadata:
7</
浏览 12
修改于2015-05-25
得票数 10
回答已采纳
1
回答
是否有BigramTagger工作所需的最小数据大小?
我用nltk附带的棕色
语料
库来训练一个“部分句子”标签。我们得到了预期的输出: 它不能标记这些单词,因此它给它们添加了None标签: (那个,没有),(‘任何’,没有),(‘违规’
浏览 4
修改于2017-08-23
得票数 3
回答已采纳
3
回答
如何在
语料
库中手动设置文档id?
然而,这项工作发现,我需要
语料
库中的文档I来匹配数据帧中的文档I。文档ids存储在原始数据帧中的单独列中。df <- as.data.frame(t(rbind(c(1,3,5,
7
,8,10), library("tm")corpus <- Corpus(VectorSource(d
浏览 2
修改于2013-02-13
得票数 2
回答已采纳
1
回答
R生成NA值。
当我试图将stemCompletion应用于一个
语料
库时,这个函数会生成NA值。removePunctuation) (结果之一是:[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵,然
浏览 2
修改于2013-09-13
得票数 2
1
回答
用于训练Gensim Word2vec模型的每个句子的最小字数
假设我有一个短句
语料
库,字数从1到500个左右,平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型,我应该全部使用这些句子吗?如果是这样的话,是否有一个经验
规则
的最低字数?
浏览 2
提问于2021-05-13
得票数 0
回答已采纳
2
回答
无法使用R中的检查函数查看文本
我试图使用检查查看
语料
库中的文本数据。我得到了输出,因为有些数字如下:<<PlainTextDocument>>Content: chars: 100在R中,当试图使用检查函数查看
语料
库数据时,为什么不能查看其中的文本?
浏览 4
修改于2015-06-08
得票数 0
2
回答
将文档从tm
语料
库拆分为多个文档
一个奇怪的问题是,是否有一种方法可以将使用tm中的
语料
库函数导入的
语料
库文档拆分成多个文档,然后在我的
语料
库中作为单独的文档重新阅读?VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>` <<VCorpus (documents: 1, metadata (corpus/indexed):
浏览 4
修改于2020-06-20
得票数 2
回答已采纳
1
回答
python中表示
语料
库句子的一种热编码方法
目前我需要做一个NLP项目,它首先需要用一个单一的热编码来表示一个大的
语料
库。基本上,这一想法类似于以下内容: 顺便说一句,如果向量大部分是用零实现的,我们可以使用Scipy.Sparse来使存储变得很小,例如,CSR。因此,我的整个问题是:
语料
库中的句子如何用OneHotEncod
浏览 2
修改于2015-05-20
得票数 3
回答已采纳
1
回答
如何在python中使用conditionalFreqDist方法中的bigram时向生成器添加值?
我有一个
语料
库,我用它生成了生词。-> 'wordPairsBigram‘指的是
语料
库中的缩略语。我有句话:“公司董事长说他明年会增加利润”。我有以下代码,它计算在
语料
库中可用的句子的双字数的条件频率。output: The 8 0 0 0 0 next 0 0 0 0
浏览 4
提问于2014-02-19
得票数 0
3
回答
R
语料
库正在处理我的UTF-8编码文本。
我只是想从俄文,UTF-8编码文本创建一个
语料
库.问题是,tm包中的Corpus方法没有正确编码字符串。mini GT-I9190 (чёрный)")> vs <- VectorSource(data)然后创建
语料
库>><<PlainTextDocument (metadata:
7
)>> Ñêëàäñêîå ïîìåùåíèå,
浏览 4
提问于2014-07-23
得票数 3
回答已采纳
2
回答
Word2Vec模型词汇表中的最小单词数?
我有一个短文
语料
库(大约5000句),它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型,但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗?如果是的话,是否有关于词汇表大小的大拇指
规则
?
浏览 5
修改于2021-02-19
得票数 0
回答已采纳
1
回答
使用python和语法中的列表进行文本文件解析
我必须做一个解析:目标是创建一个将应用于
语料
库的语法
规则
。我有一个问题:有可能在语法中列出一个列表吗?
浏览 1
提问于2017-08-31
得票数 1
回答已采纳
2
回答
为Textacy中的单个单词计算TD-IDF
我试图使用来计算跨标准
语料
库的一个单词的TF-以色列国防军得分,但是对于我收到的结果有点不清楚。(4, 3) 2.386294361119891(6, 4) 2.386294361119891 问题的第二部分是我如何提供我自己的
语料
库在
浏览 1
修改于2019-04-21
得票数 5
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券