我有一个冗长的txt文件的语料库(622个文档),我试图在R中探索这些文件(每个文件大约20.000到30.000字),我已经使用tm包进行了一些基本的文本挖掘,现在我想深入探讨主题建模。然而,作为一个非常新的例子,我已经在数据准备的一些基础上苦苦挣扎了。我目前正在处理的文件的示例可以在这里获得:id=46554569218218543610
希望这些问题不是完全多余的。谢谢你抽出时间阅读!
发布于 2013-10-29 18:23:24
在你的问题中没有代码,所以它并不适合这个网站。尽管如此,以下是一些可能有用的评论。如果您提供代码,您将得到更具体和有用的答案。
如果您已经对MALLET有点熟悉,那么可以尝试使用rmallet进行主题建模。网络上有很多代码片段使用这个,这是我的一个。
发布于 2013-10-29 17:54:17
我最近有一个类似的项目,通常,至少其中一些步骤已经完成:
removeWords(your corpus, stopwords("english"))轻松地做到这一点。此外,您还可以构造自己的停止词列表,并通过相同的函数删除它。NgramTokenizer (请参阅tm软件包常见问题 ),这应该是可能的。我了解到文本挖掘有点不同。在一种情况下,改进的结果在另一种情况下就行不通了。这是很多测试,哪些参数和预处理步骤,改善您的results...So有乐趣!
https://stackoverflow.com/questions/19659887
复制相似问题