腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
编辑NLTK
语料
库
除了nltk附带的
语料
库之外,我还想用我自己的
语料
库来训练它,该
语料
库遵循相同的词性
规则
。如何找到它正在使用的
语料
库,以及如何添加我自己的
语料
库(另外,不是作为替代)?
浏览 2
修改于2015-03-11
得票数 1
回答已采纳
2
回答
文件分类的方法?
基于
规则
的:尝试从每个类别的训练
语料
库中提取一些
规则
。 还有别的办法吗?
浏览 2
提问于2014-03-31
得票数 0
1
回答
如何计算具有已知分布的任意密码
规则
的熵?
我想知道如何计算密码分布的熵,它由一个或多个子
规则
组成,这些子
规则
是从已知分布中提取的。下面是一些需要计算的例子。1.简单
8
字符密码2.从流行文化从10,000,000词组
语料
库中选出5个词组3.带有附加“强度”
规则
从
浏览 0
提问于2023-01-19
得票数 -1
1
回答
寻找匹配词
我有一个
语料
库文件和
规则
文件。我试图找到匹配的词,其中从
规则
出现在
语料
库中。
浏览 4
提问于2022-02-01
得票数 0
回答已采纳
1
回答
如何将数据帧转换为可由Iramuteq和Alceste读取的txt
Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行),它们处理格式奇怪的txt文件:
语料
库中的每个文档都必须以*开头,然后每个
语料
库变量都必须编码为*variablename_value(遵守一些格式
规则
),并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和
语料
库变量作为列的数据帧转换为这种格式
浏览 0
提问于2021-11-28
得票数 0
2
回答
如何为PHPixie中的模型指定数据库表名?
PS或指定
规则
列表(如 ) {“儿童”、“儿童”}{“
语料
库”、“
语料
库”}{“人”、“人”}
浏览 3
修改于2017-09-03
得票数 0
回答已采纳
2
回答
word2vec中的命令行参数
我想使用word2vec用当前版本的英文维基百科创建我自己的词向量
语料
库,但我找不到使用该程序的命令行参数的解释。在demp-script中,您可以找到以下内容:makewget http://mattmahoney.net/dc/text
8
.zip -O text
8
.gzfi time .1e
浏览 3
修改于2015-10-18
得票数 3
2
回答
设置将文本文件读入tm Corpora的编码。
使用tm
语料
库加载一堆文档,我需要指定编码。docs <- Corpus(DirSource(cname), encoding ="UTF-
8
"
浏览 5
修改于2016-05-17
得票数 0
回答已采纳
1
回答
在R中使用Quanteda时,从文本
语料
库中删除非ASCII字符的最佳方法是什么?
我有一个
语料
库,我已经将其转换为通用语言,但其中一些单词没有正确转换为英语。因此,我的
语料
库包含非ASCII码字符,比如U+00F
8
。EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-
8
-BOM") 我的
语料
库由166个文档组成。
浏览 0
修改于2019-08-16
得票数 5
1
回答
是否可以使用标签对
语料
库文档进行分类?
我有一个23000文件的
语料
库,需要分为5个不同的类别。我没有任何标签数据可供我使用,只是自由格式的文本文档和标签(是的,一个词的标签,而不是主题)。所以我采用了两步的方法:以某种方式,使用这些标记的数据来标识其他文档的标签。对于步骤2,我尝试了以下方法: 对分类数据进行主题建模,使用
规则
提取重要术语,使用重要术语对其余文档进行标记。
浏览 0
提问于2020-08-26
得票数 0
1
回答
是否有BigramTagger工作所需的最小数据大小?
我用nltk附带的棕色
语料
库来训练一个“部分句子”标签。我们得到了预期的输出: 它不能标记这些单词,因此它给它们添加了None标签: (那个,没有),(‘任何’,没有),(‘违规’
浏览 4
修改于2017-08-23
得票数 3
回答已采纳
1
回答
R生成NA值。
当我试图将stemCompletion应用于一个
语料
库时,这个函数会生成NA值。removePunctuation) (结果之一是:[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵,然
浏览 2
修改于2013-09-13
得票数 2
1
回答
用于训练Gensim Word2vec模型的每个句子的最小字数
假设我有一个短句
语料
库,字数从1到500个左右,平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型,我应该全部使用这些句子吗?如果是这样的话,是否有一个经验
规则
的最低字数?
浏览 2
提问于2021-05-13
得票数 0
回答已采纳
4
回答
Java -如何逐字阅读大文件,而不是逐行阅读?
我想阅读Java语言中的"text
8
“
语料
库,并重新格式化一些单词。问题是,在这个100MB的
语料
库中,所有的单词都在一行上。所以我的问题是:在Java中,是否可以逐行阅读
语料
库,而不是逐字阅读?例如,因为所有单词都在一行上,所以每次迭代读取100个单词?
浏览 0
修改于2015-11-10
得票数 6
1
回答
使用get()函数以编程方式分配quanteda文档变量
我正在开发一个例程来自动定义几个
语料
库 quanteda ..。我有几个控制脚本的参数,其中一个是将要生成的
语料
库的名称。我可以使用下面的函数轻松地以编程方式创建
语料
库 但我完全没有添加任何 文档变量 为它干杯。 一旦我定义了
语料
库,我通常会通过函数在整个代码中调用它 ..。我已经相当广泛地使用了这种方法,并取得了成功。请看下面的简单代码,我在其中定义了
语料
库,然后尝试将一个docvar与其关联。consisting of 2 documents, showing 2 documents:
浏览 22
提问于2021-02-18
得票数 1
回答已采纳
3
回答
如何在
语料
库中手动设置文档id?
然而,这项工作发现,我需要
语料
库中的文档I来匹配数据帧中的文档I。文档ids存储在原始数据帧中的单独列中。df <- as.data.frame(t(rbind(c(1,3,5,7,
8
,10), library("tm")corpus <- Corpus(VectorSource(d
浏览 2
修改于2013-02-13
得票数 2
回答已采纳
1
回答
如何快速获取
语料
库中的单词集合(使用nltk)?
我想用nltk快速地为
语料
库建立一个单词查找表。以下是我正在做的事情: 使用a=nltk.word_tokenize(文件)获取所有令牌;
浏览 1
修改于2015-03-27
得票数 2
回答已采纳
2
回答
Word2Vec模型词汇表中的最小单词数?
我有一个短文
语料
库(大约5000句),它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word2Vec模型,但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗?如果是的话,是否有关于词汇表大小的大拇指
规则
?
浏览 5
修改于2021-02-19
得票数 0
回答已采纳
1
回答
NLTK
语料
库预处理
我试图从
语料
库中删除较长(>25个标记)和较短(<4个标记)的句子,并删除包含出现次数少于
8
次的罕见单词的句子。我试图删除它,但每次尝试都会收到错误消息或空列表。
语料
库是棕色
语料
库。
浏览 5
修改于2021-03-09
得票数 0
回答已采纳
1
回答
使用python和语法中的列表进行文本文件解析
我必须做一个解析:目标是创建一个将应用于
语料
库的语法
规则
。我有一个问题:有可能在语法中列出一个列表吗?
浏览 1
提问于2017-08-31
得票数 1
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券