文章/答案/技术大牛

发布

问词组消去与矢量生成
EN

Stack Overflow用户

提问于 2016-07-12 07:36:51

回答 1查看 476关注 0票数 1

在text2vec中，我能找到的关于Stopword的唯一函数是“create_vocabulary”。但在文本挖掘任务中，通常需要消除资源文档中的断点，然后构建语料库或其他进一步的过程。如何使用“秒针”来处理使用text2vec构建语料库、dtm和中医的文档？

我以前使用tm进行文本挖掘。它具有分析PDF文档的功能，但它将一份文件作为多个向量(一行、一个向量)读取，而不是像我所期望的那样将每个文档作为向量读取。此外，tm中的格式交换函数在中文中存在乱码问题。如果使用text2vec读取文档，它能将一张纸读入矢量吗？向量的体积是否足以在期刊上发表一篇论文？)否则，在text2vec中构建的语料库和向量与在tm中内置的内容兼容吗？

text-mining

stop-words

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-12 12:31:18

有两种方法可以创建文档术语矩阵：

使用特征散列
使用词汇表

详情请参见文本矢量化。

你对2种选择很感兴趣。这意味着你应该建立词汇表-一组单词/符号，将用于所有下游任务。create_vocabulary创建词汇表对象，只有来自该对象的术语才会在进一步的步骤中使用。因此，如果您将stopwords提供给create_vocabulary，它将将它们从corpus.As中所有观察到的单词中删除--您可以看到--您应该只提供一次停止词。所有下行流任务都将与词汇表一起工作。

回答第二个问题。

text2vec不提供用于读取PDF文档的高级功能。但是，它允许用户提供自定义读取器功能。您所需要的只是阅读具有某种功能的完整文章，并将其重新构造为字符向量，其中每个元素对应于所需的信息单位(完整的文章、段落等)。例如，您可以轻松地将行组合成具有paste()函数的单个元素。例如：

article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
#  "sentence 1. sentence 2"

希望这能有所帮助。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38322675

复制

相似问题

问词组消去与矢量生成
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词组消去与矢量生成EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词组消去与矢量生成
EN