我正在建立一个系统,可以将电子邮件分为不同类别(积极的、消极的、离职的等等)。我正在寻找一个已经被分类的电子邮件数据集,以避免在70k数据库中进行手工分类。
我知道安然电子邮件数据集是存在的,但你知道它是否存在带有机密电子邮件的这个数据集的版本吗?或者任何其他已经被保密的电子邮件数据集?
发布于 2016-11-15 16:29:39
您可以从这个站点下载这个语料库。据我所知,这是最完整的电子邮件语料库。在此伯克利大学站点上可以找到标记此电子邮件语料库子集的项目。不过,我不确定这些电子邮件是否对你有正确的培训标签。
发布于 2016-11-12 14:22:00
安然语料库:电子邮件分类研究的新数据集文件描述了您想要的数据集的类型。
本文提到下载数据集的以下链接:
https://www.cs.cmu.edu/~./enron/
此外,本文还提到了其他各种论文,它们使用了与电子邮件分类相关的较小的数据集,考虑到这个较大的数据集,这些数据集可能没有多大用处。
https://datascience.stackexchange.com/questions/14983
复制相似问题