腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(1320)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
我可以访问用于训练斯坦福NER
中文
模型的原始
语料
库吗
我正在尝试重新训练斯坦福大学名称实体识别器的
中文
模型。我想知道是否有办法获得用于训练官方模型的原始
中文
语料
库?斯坦福-nlp的网页上说,他们使用了来自CoNLL,MUC-6,MUC-7和ACE的
语料
库。我检查了一下,CoNLL2003似乎没有
中文
语料
库,我需要为MUC-6,MUC-7和ACE付费。
浏览 6
提问于2016-01-28
得票数 0
1
回答
词组消去与矢量生成
但在文本挖掘任务中,通常需要消除资源文档中的断点,然后
构建
语料
库或其他进一步的过程。如何使用“秒针”来处理使用text2vec
构建
语料
库、dtm和中医的文档? 我以前使用tm进行文本挖掘。此外,tm中的格式交换函数在
中文
中存在乱码问题。如果使用text2vec读取文档,它能将一张纸读入矢量吗?向量的体积是否足以在期刊上发表一篇论文?)否则,在text2vec中
构建
的
语料
库和向量与在tm中内置的内容兼容吗?
浏览 7
修改于2016-07-12
得票数 1
回答已采纳
1
回答
是否可以使用IBM Watson机器翻译API创建自定义域?
如果我正确理解了文档(),我只能在现有域和语言对的基础上进行
构建
。因此,对于汉英翻译,我只能选择专利领域,导入自己的词典和
语料
库,然后重新训练。虽然不确定这是否有意义,但也不清楚我们谈论的是繁体
中文
还是简体
中文
。我首先需要繁体
中文
服务,然后才是简体
中文
服务。 另一种选择是建立在财经新闻域的基础上,但
中文
-英文的新闻不可用。
浏览 1
提问于2016-08-24
得票数 3
1
回答
使用tf-idf时使用R和tm的新数据
使用R和tm,我已经加载和清理了一堆文本文档,并将它们制成
语料
库。在那之后,我使用tf-idf
构建
了他们的DTM,我可以将其用于所有类型的分类聚类算法。到现在为止还好。现在,让我们假设我有一个新文档,并尝试计算它到
语料
库
中文
档的距离。当然,我需要将我应用于原始集合的所有变换应用于它。将新文档添加到
语料
库并重新计算其tf-idf DTM不能正常工作:不仅效率低下,而且每个新文档都会碰上已经看到的文档的值,这将改变我可能将它们作为训练集运行的任何聚类分类算法的结果。因此,我的问题是,如何使用R和tm计算新文档
浏览 15
提问于2017-07-03
得票数 0
2
回答
用更多的训练数据从MarianMT中增强HuggingFace的预训练模型
我也有一套
高质量
的英语到德语句子对,我想用它来提高模型的性能,这个模型是在操作系统
语料
库上训练的,但是没有的使模型忘记了OPUS的训练数据。有办法吗?谢谢。
浏览 5
提问于2020-09-07
得票数 0
回答已采纳
1
回答
具有大或小
语料
库的Tf-idf
“在大型
语料
库中使用Tf-Idf方法的一个本质是,使用的
语料
库越大,术语的唯一权重就越多。这是因为
语料
库
中文
档大小或文档长度的增加使得
语料
库中两个术语的权重值重复的概率较低。在小
语料
库中,Tf-Idf不能造成这种差异,因为有巨大的潜力找到具有相同权重的两个术语,因为它们在每个文档中以相同的频率共享相同的源文档。通过在抄袭检测领域中使用Tf-Idf加权方案,根据
语料
库的大小,该特征可以成为反对者和支持者。是否有任何链接或
浏览 2
修改于2021-11-19
得票数 6
1
回答
如何初始化gensim LDA主题模型?
有人认为,使用词簇初始化主题模型可以获得更
高质量
的模型或更健壮(一致)的推理。我说的是初始化优化器,而不是设置优先级。下面是一些代码来说明我想要做的事情:然后配合
语料
库:谢谢你的帮助!
浏览 0
修改于2018-06-30
得票数 0
1
回答
推荐不断变化的文档
我们正在尝试设计一个文档推荐系统,其
中文
档不断更新。实际上,文档是通常附加文本的流。 最初我们计划使用lucene + solr。因此,如果文档更新频繁,则随着
语料
库大小和平均文档大小的增加,上述方法会导致索引速度变慢。我们也很想
构建
自己的解决方案,但在原型化之后放弃了,因为我们正在转向重新发明信息检索功能,这些功能在lucene中已经实现得相当好。有没有人有通过集成开源搜索和机器学习工具来
构建
这种系统的经验?
浏览 0
提问于2015-03-24
得票数 0
1
回答
有没有通用的
中文
系统字体?
我很难找到一个关于
中文
字体可用性的权威来源。 有没有人知道在OSx和Windows系统上同时推送的字体?我已经看到了
高质量
的英文字体比较,但想找一些
中文
相关的。
浏览 0
提问于2012-09-25
得票数 3
回答已采纳
1
回答
LVM逻辑卷快照备份不一致的可能性
我想开始使用LVM快照来帮助确保
高质量
的备份。 如果我有一个独立于根文件系统的卷上的/var分区,我还能确保备份在特定的时间点准确地反映整个系统的状态吗?基于/var
中文
件的性质,是否值得关注这个问题?
浏览 0
提问于2011-02-16
得票数 4
1
回答
使用Watson文档转换保持HTML
我们有Microsoft文档的结构,以便使用沃森文档会话服务生成
高质量
的RaR JSON应答单元。但是,Word文档中的任何工作链接都将由Doc服务在生成的JSON应答单元中删除,这只是平面文本。如果没有,您建议我们如何继续获取具有工作链接的Word文档到我们的RaR
语料
库。
浏览 5
修改于2017-08-31
得票数 1
回答已采纳
1
回答
Python:高效实现特征向量
我把特征向量作为
语料
库
中文
档的位映射来实现。我已经拥有了整个
语料
库的词汇表(作为一个列表/集)和每个文档中的术语列表。例如,如果
语料
库词汇表为['a', 'b', 'c', 'd'],而文档d1中的术语为['a', 'b', 'd', 'd'],则d1的特征向量应为[1, 1, 0, 2]。为了生成特征向量,我会遍历
语料
库词汇表,检查每个
浏览 4
修改于2011-04-12
得票数 2
回答已采纳
2
回答
nltk.word_tokenize和nltk.pos_tag支持哪些语言
我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、
中文
。 有没有这两个函数支持的所有语言的列表?有没有一种方法可以使用其他
语料
库,以便将这些语言包括在内?
浏览 3
提问于2013-02-27
得票数 4
回答已采纳
1
回答
NLTK
语料
库中不间断单词的计数
我可以想出如何使
语料
库中的单词被一个类别过滤,例如棕色
语料
库中所有用于“新闻”的单词是:另外,我可以弄清楚如何获取特定文档的所有单词,例如,棕色
语料
库
中文
档‘cj47’中的所有单词是:然后,我可以循环的结果和计数的词,不是停止词。
浏览 2
修改于2016-03-05
得票数 0
回答已采纳
1
回答
NLP文本注释存储和访问
我有一个庞大的文本
语料
库(大约1000万个句子),我想用各种NLP工具(词性标记器、语法分析器、依存关系分析器等)对其进行预处理。我需要以某种方式存储由这些工具创建的各种注释层,并从我的Java代码中动态地访问它们(可能是通过提供
语料
库
中文
本范围的开始和结束索引,以及注释的类型)。
浏览 3
提问于2012-08-18
得票数 2
回答已采纳
1
回答
如何使用R中元数据将
语料
库转换为data.frame
如何将
语料
库转换为包含元数据的R中的数据帧?我已经尝试了来自的建议,但得到的数据框只包含
语料
库中所有文档的文本行。我还需要文档ID,也许还需要两列
中文
本行的行号。sapply(corpus, `[`, "content")), 但是没有帮助;我只得到了一个错误信息"Error in match.fun(FUN):‘meta(
语料
库,"id")’ist nicht Funktion,Zeichen oder Symbol“
语
浏览 3
提问于2015-08-16
得票数 3
1
回答
如何
构建
StanfordNER分类器
因为它们都是基于不同的
语料
库,所以我猜 在
语料
库上训练一个机器学习分类器,如SVM和OVR (用于多标签案例),以检测ORGANIZATION、PERSON、LOCATION等实体,这意味着训练数据将是
语料
库
中文
档的完整文本
浏览 3
修改于2016-01-24
得票数 2
回答已采纳
2
回答
在txt中读取
中文
时出错:
语料
库()仅适用于字符、
语料
库、
语料
库、data.frame、kwic对象
我尝试生成一个词云,并使用R、jiebaR和
语料
库获取
中文
语音的词频,但无法建立
语料
库。fasterword')[1] dfm <- dfm(tokens)我的文本文件包含以下段落:创建
语料
库时出现错误
浏览 0
修改于2020-01-28
得票数 4
1
回答
文本和模型-Decode结果错误
前两天看到xtr33me发的消息“#Textsum# -解码结果比ref文件不正确”,我现在测试的情况和这是一样的,我用
中文
语料
库,训练到running_avg_loss = 0.00001,但是我解码的结果是错误的
浏览 1
修改于2016-11-29
得票数 0
5
回答
如何将列表数组转换为字符串
语料
库,并将字符串乘以数字(提供的示例)
'1', 'am', 'a', 'girl', '1']) array(['I', '1', 'am', '1', 'non-binary', '2'])corpus = [ "I am a boy boy boy", "I
浏览 0
提问于2021-05-23
得票数 1
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券