问如何进行电子邮件清理/文本提取的功能工程？
EN

Data Science用户

提问于 2018-07-27 15:15:24

回答 1查看 212关注 0票数 2

我有大量的电子邮件数据，我想分析。为了做到这一点，我需要首先准备数据，因为消息通常是>80%的噪音。一般来说，我的数据集的结构远不及安然数据集的结构。我需要摆脱签名，标题，最重要的是，自动附加法律/安全免责声明。

我一直在做一些研究，到目前为止，我已经看到了两种有监督的学习方法来解决这个问题--一种是在行流上使用多标签顺序学习器；另一种是使用多个二进制支持向量机来查找打开/关闭特定类型文本块(签名、标头等)的行。

我对在这样的问题上做特性工程的方式感到困惑。我读过的文章提出了一个集模式匹配和一些一般文本处理(例如:行长、起始字符)为一体的功能。似乎不清楚这些人是如何制定这些特定的数据编码规则的。如何确保我所识别的特性能够很好地概括我的数据，并且在分类过程中不会带来很大的偏差？

在尝试提出一组特性时，我是否应该遵循一些一般原则?还是它完全依赖于数据集？

发布于 2022-03-05 17:21:24

任何自动附加的文本都可以用基于规则的逻辑删除。最合适的基于规则的逻辑是正则表达式(即regex)。您可以编写一个regex模式，捕捉电子邮件数据集中的大部分“噪音”。

要过滤的特定模式是领域和问题特定的。一种将模式视为停止词集合的方法，也就是通常出现的具有最小预测价值的文本。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/36102

复制

相似问题

问如何进行电子邮件清理/文本提取的功能工程？EN