腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
寻找匹配词
我有一个
语料
库文件和
规则
文件。我试图找到匹配的词,其中从
规则
出现在
语料
库中。# cat corpus.txtsecond lineac#
浏览 4
提问于2022-02-01
得票数 0
回答已采纳
1
回答
编辑NLTK
语料
库
除了nltk附带的
语料
库之外,我还想用我自己的
语料
库来训练它,该
语料
库遵循相同的词性
规则
。如何找到它正在使用的
语料
库,以及如何添加我自己的
语料
库(另外,不是作为替代)?
浏览 2
修改于2015-03-11
得票数 1
回答已采纳
2
回答
文件分类的方法?
基于
规则
的:尝试从每个类别的训练
语料
库中提取一些
规则
。 还有别的办法吗?
浏览 2
提问于2014-03-31
得票数 0
1
回答
如何将数据帧转换为可由Iramuteq和Alceste读取的txt
Iramuteq和Alceste是文本挖掘程序(在法国仍然非常流行),它们处理格式奇怪的txt文件:
语料
库中的每个文档都必须以*开头,然后每个
语料
库变量都必须编码为*variablename_value(遵守一些格式
规则
),并且要分析的文本必须在新行上。country_france**** year_2021 country_germany如何将文本和
语料
库变量作为列的数据帧转换为这种格式
浏览 0
提问于2021-11-28
得票数 0
1
回答
如何计算具有已知分布的任意密码
规则
的熵?
我想知道如何计算密码分布的熵,它由一个或多个子
规则
组成,这些子
规则
是从已知分布中提取的。下面是一些需要计算的例子。1.简单8字符密码
2
.从流行文化从10,000,000词组
语料
库中选出5个词组3.带有附加“强度”
规则
从
浏览 0
提问于2023-01-19
得票数 -1
2
回答
如何为PHPixie中的模型指定数据库表名?
PS或指定
规则
列表(如 ) {“儿童”、“儿童”}{“
语料
库”、“
语料
库”}{“人”、“人”}
浏览 3
修改于2017-09-03
得票数 0
回答已采纳
1
回答
用于训练Gensim Word
2
vec模型的每个句子的最小字数
假设我有一个短句
语料
库,字数从1到500个左右,平均字数在9个左右。如果我用Word
2
vec (默认情况下)训练Gensim window=5模型,我应该全部使用这些句子吗?如果是这样的话,是否有一个经验
规则
的最低字数?
浏览 2
提问于2021-05-13
得票数 0
回答已采纳
1
回答
两个
语料
的Tf-Idf计算
我有两个
语料
库(
语料
库1和
语料
库
2
),
语料
库1中的文档包含从
语料
库
2
中抄袭的句子。我正在使用Tf-Idf方法来衡量
语料
库1中的文档与
语料
库
2
中的文档之间的相似度。已经为
语料
库
2
中的术语建立了倒排索引,如下所示: 简而言之,对于每两个句子的比较,我建立了两个Tf-Idf向量,然后使用余弦相似度来度量相似度。我的问题是,在建立与
语料
库1的句子相关的向量的过程中,
浏览 10
提问于2017-01-16
得票数 0
回答已采纳
2
回答
Word
2
Vec模型词汇表中的最小单词数?
我有一个短文
语料
库(大约5000句),它构成了一个大约2000字的词汇表。我使用Gensim构建了一个Word
2
Vec模型,但是来自most_similar的输出看起来并不合理。是因为我词汇量不够吗?如果是的话,是否有关于词汇表大小的大拇指
规则
?
浏览 5
修改于2021-02-19
得票数 0
回答已采纳
1
回答
使用python和语法中的列表进行文本文件解析
我必须做一个解析:目标是创建一个将应用于
语料
库的语法
规则
。我有一个问题:有可能在语法中列出一个列表吗?示例:
2
) Write the grammatical rules (just an example): grammar("""
浏览 1
提问于2017-08-31
得票数 1
回答已采纳
1
回答
如何对文本数据进行整数编码?
如果我们有这样的数据,首先,他们在我们的
语料
库中获得单词的频率。基于单词频率,整数标签被分配给word。频率较高的单词被分配为1,然后是
2
,等等。 我的问题是我们为什么要这么做?我们就不能随机分配单词的整数值吗。如果我们遵循这个
规则
,它会提高准确性吗?
浏览 4
提问于2020-01-25
得票数 0
回答已采纳
1
回答
使用stanford解析器生成句子
步骤:3.替换一些终结值我有三个疑问:
2
.使用generate函数时,对于几个句子,我得到以下错误。
浏览 1
提问于2017-10-11
得票数 0
1
回答
这是python3.8的gensim hdp模型上的一个bug吗?
我想使用来自gensim的HDP模型来获得我的
语料
库的主题数,我已经用这个
语料
库和字典从gensim训练了一个
规则
的LDA模型,它工作得很好。__version__)Linux ** 5.5.9-arch1-
2
#1 SMP PREEMPT Thu, 12 Mar 2020 23:01:33 +0000 x86
浏览 10
修改于2020-04-22
得票数 2
回答已采纳
1
回答
如何拟合多个向量的MultinomialNB?
我对ML和堆栈溢出都非常陌生,所以如果这是一个愚蠢的问题,或者如果我违反了任何
规则
,我会提前道歉。TitleString ## The corpusArticleVectorArray = ArticleVector.fit_transform(ArticleString).toarray() model_
2</e
浏览 2
修改于2020-04-08
得票数 0
回答已采纳
1
回答
是否有BigramTagger工作所需的最小数据大小?
我用nltk附带的棕色
语料
库来训练一个“部分句子”标签。我们得到了预期的输出: 它不能标记这些单词,因此它给它们添加了None标签: (那个,没有),(‘任何’,没有),(‘违规’
浏览 4
修改于2017-08-23
得票数 3
回答已采纳
1
回答
R生成NA值。
当我试图将stemCompletion应用于一个
语料
库时,这个函数会生成NA值。removePunctuation) (结果之一是:[2584]分区计划)但结果是下一步应该是创建带有事务的关联矩阵,然
浏览 2
修改于2013-09-13
得票数 2
1
回答
语料
库组合中
语料
库的Docvar指示器
在组合quanteda
语料
库(使用加号运算符)时,是否有任何方法可以自动创建一个指示变量,以标记文档来自哪个源
语料
库?例如,假设你有两个
语料
库,corpus1和corpus
2
。您运行以下命令:我想找到一些方法来创建一个新的docvar,它指示corpus3中每个文档来自哪个
语料
库。有什么想法吗?
浏览 0
修改于2018-07-29
得票数 1
回答已采纳
1
回答
Training gensim doc
2
vec出现内存错误?
我想用gensim训练doc
2
vec模型,但是我的
语料
库太大了。有没有办法训练每一批句子
语料
库?例如,迭代加载一些
语料
库并在其上训练模型,然后重新加载另一批
语料
库…… 我不知道是否有api或方法可以做到这一点。有什么提示吗?
浏览 1
提问于2018-01-18
得票数 1
2
回答
Word
2
vec新
语料
库的再训练,如何更新现有词汇表的权重?
场景:使用词汇表( word
2
vec V1 )对C1
语料
库进行培训。如果我们想使用train() API对具有词汇表C
2
的另一个
语料
库V
2
重新训练相同的模型,那么这两种方法中会发生什么: 以上两种假设中哪一种是正确的?
浏览 2
修改于2018-01-13
得票数 0
1
回答
R主题建模- lda命令'lexicalize‘产生意外的结果
我正在为
语料
库的分析做准备,首先使用命令'lexicalize',该命令返回一个术语-文档矩阵,如果没有预先指定,还会返回一个在
语料
库中出现的具有唯一标记的词汇表。出于研究目的,我想使用从另一个
语料
库推断出的词汇表对
语料
库进行词汇化(让我们称其为'corpusA'),这是一件应该很容易完成的事情。然而,它并没有起作用。[,3] [,4] [,5][
2
,] 1 1 1
浏览 0
提问于2014-01-16
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券