我的机器上有数百万条短信新闻。我想在上面做一些文本挖掘。
我想首先以一种更结构化的方式存储to文本新闻。做这件事最好的方法是什么?因此,以后进行数据挖掘将变得更加方便。
目前,我只是将这些新闻文件存储在按新闻标题和文件路径索引的数据库中。
任何建议都将不胜感激。谢谢!
发布于 2012-08-02 18:44:26
这在很大程度上取决于您希望使用更结构化的数据实现什么。
如果数据不是很大,你可以在你的数据库上使用"in text“搜索,你已经完成了。
stackoverflow上的一个类别或“标签”会很大程度上帮助你对内容进行分类和分组,但我想现在很难从你的纯文本库中提取出来。
还有一个简单的时间戳(你可以从文件本身获得,但要小心一些系统会在文件被复制时改变日期...)也能帮上忙。
对于内容提取,看看http://www.opencalais.com/,它提供了一个用于“文本”分析的应用程序接口,您可能会对此感兴趣。
发布于 2012-08-03 00:37:10
你说的“做一些文本挖掘”是什么意思?你只是想存储文本吗?或者,您是否在寻找解决方案?
许多数据库提供了存储文本并对其进行快速检索的功能。
然而,文本挖掘通常涵盖更广泛的主题。下面是一些示例:
使用来自文档的documents.
对于此类分析,您通常会使用文本挖掘工具(例如,您可以在kdnuggets.com上查找这些工具)。然后,该工具会影响文本的存储方式。
“市场营销、销售和客户支持的数据挖掘技术”的最后一章是关于文本挖掘的,它有一个很好的案例研究,将文本挖掘应用于客户服务记录。
回应评论
这是一个学术项目还是“现实世界”?文本是单语的吗?如果是,是英语吗?你肯定需要做一些研究。至少自20世纪30年代Alan Turing提出图灵测试以来,文本分析/挖掘一直是一个相当密集的研究领域。
例如,我可以很容易地想到四种非常不同的选项来存储文本以进行分析。第一个是“原样”,如果你有大量的处理器和内存,这是最有用的。第二种是“语法上的”,用语法和含义标记文本,如果你有一个拥有大量博士的团队,这是最有效的。三是作为倒排索引,这是搜索和一些接近匹配的基本形式。第四种是投影到正交空间,使用奇异值分解(如果您希望将文本用作其他统计技术的输入,则最有用)。
https://stackoverflow.com/questions/11775666
复制相似问题