首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词组消去与矢量生成

词组消去与矢量生成
EN

Stack Overflow用户
提问于 2016-07-12 07:36:51
回答 1查看 476关注 0票数 1

在text2vec中,我能找到的关于Stopword的唯一函数是“create_vocabulary”。但在文本挖掘任务中,通常需要消除资源文档中的断点,然后构建语料库或其他进一步的过程。如何使用“秒针”来处理使用text2vec构建语料库、dtm和中医的文档?

我以前使用tm进行文本挖掘。它具有分析PDF文档的功能,但它将一份文件作为多个向量(一行、一个向量)读取,而不是像我所期望的那样将每个文档作为向量读取。此外,tm中的格式交换函数在中文中存在乱码问题。如果使用text2vec读取文档,它能将一张纸读入矢量吗?向量的体积是否足以在期刊上发表一篇论文?)否则,在text2vec中构建的语料库和向量与在tm中内置的内容兼容吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-12 12:31:18

有两种方法可以创建文档术语矩阵:

  1. 使用特征散列
  2. 使用词汇表

详情请参见文本矢量化

你对2种选择很感兴趣。这意味着你应该建立词汇表-一组单词/符号,将用于所有下游任务。create_vocabulary创建词汇表对象,只有来自该对象的术语才会在进一步的步骤中使用。因此,如果您将stopwords提供给create_vocabulary,它将将它们从corpus.As中所有观察到的单词中删除--您可以看到--您应该只提供一次停止词。所有下行流任务都将与词汇表一起工作。

回答第二个问题。

text2vec不提供用于读取PDF文档的高级功能。但是,它允许用户提供自定义读取器功能。您所需要的只是阅读具有某种功能的完整文章,并将其重新构造为字符向量,其中每个元素对应于所需的信息单位(完整的文章、段落等)。例如,您可以轻松地将行组合成具有paste()函数的单个元素。例如:

代码语言:javascript
复制
article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
#  "sentence 1. sentence 2"

希望这能有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38322675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档