在text2vec中,我能找到的关于Stopword的唯一函数是“create_vocabulary”。但在文本挖掘任务中,通常需要消除资源文档中的断点,然后构建语料库或其他进一步的过程。如何使用“秒针”来处理使用text2vec构建语料库、dtm和中医的文档?
我以前使用tm进行文本挖掘。它具有分析PDF文档的功能,但它将一份文件作为多个向量(一行、一个向量)读取,而不是像我所期望的那样将每个文档作为向量读取。此外,tm中的格式交换函数在中文中存在乱码问题。如果使用text2vec读取文档,它能将一张纸读入矢量吗?向量的体积是否足以在期刊上发表一篇论文?)否则,在text2vec中构建的语料库和向量与在tm中内置的内容兼容吗?
发布于 2016-07-12 12:31:18
有两种方法可以创建文档术语矩阵:
详情请参见文本矢量化。
你对2种选择很感兴趣。这意味着你应该建立词汇表-一组单词/符号,将用于所有下游任务。create_vocabulary创建词汇表对象,只有来自该对象的术语才会在进一步的步骤中使用。因此,如果您将stopwords提供给create_vocabulary,它将将它们从corpus.As中所有观察到的单词中删除--您可以看到--您应该只提供一次停止词。所有下行流任务都将与词汇表一起工作。
回答第二个问题。
text2vec不提供用于读取PDF文档的高级功能。但是,它允许用户提供自定义读取器功能。您所需要的只是阅读具有某种功能的完整文章,并将其重新构造为字符向量,其中每个元素对应于所需的信息单位(完整的文章、段落等)。例如,您可以轻松地将行组合成具有paste()函数的单个元素。例如:
article = c("sentence 1.", "sentence 2")
full_article = paste(article, collapse = ' ')
# "sentence 1. sentence 2"希望这能有所帮助。
https://stackoverflow.com/questions/38322675
复制相似问题