我有大量的电子邮件数据,我想分析。为了做到这一点,我需要首先准备数据,因为消息通常是>80%的噪音。一般来说,我的数据集的结构远不及安然数据集的结构。我需要摆脱签名,标题,最重要的是,自动附加法律/安全免责声明。
我一直在做一些研究,到目前为止,我已经看到了两种有监督的学习方法来解决这个问题--一种是在行流上使用多标签顺序学习器;另一种是使用多个二进制支持向量机来查找打开/关闭特定类型文本块(签名、标头等)的行。
我对在这样的问题上做特性工程的方式感到困惑。我读过的文章提出了一个集模式匹配和一些一般文本处理(例如:行长、起始字符)为一体的功能。似乎不清楚这些人是如何制定这些特定的数据编码规则的。如何确保我所识别的特性能够很好地概括我的数据,并且在分类过程中不会带来很大的偏差?
在尝试提出一组特性时,我是否应该遵循一些一般原则?还是它完全依赖于数据集?
发布于 2022-03-05 17:21:24
任何自动附加的文本都可以用基于规则的逻辑删除。最合适的基于规则的逻辑是正则表达式(即regex)。您可以编写一个regex模式,捕捉电子邮件数据集中的大部分“噪音”。
要过滤的特定模式是领域和问题特定的。一种将模式视为停止词集合的方法,也就是通常出现的具有最小预测价值的文本。
https://datascience.stackexchange.com/questions/36102
复制相似问题