我正在考虑对一组包含超过4年通信经验的大型独立.pst文件执行一些文本挖掘。
最初,我只想提取标题信息来识别社交网络,但最终希望开始根据关键字对电子邮件进行分类,或者创建一些结构化的输出来支持一些进一步的分析。
有没有人有什么建议从哪里开始?
发布于 2011-03-09 20:59:18
你应该查看在公开可用的Enron Email Dataset ->上所做的研究,该页面有一些有趣的论文的链接
https://stackoverflow.com/questions/4852353
复制相似问题