首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何进行电子邮件清理/文本提取的功能工程?

如何进行电子邮件清理/文本提取的功能工程?
EN

Data Science用户
提问于 2018-07-27 15:15:24
回答 1查看 212关注 0票数 2

我有大量的电子邮件数据,我想分析。为了做到这一点,我需要首先准备数据,因为消息通常是>80%的噪音。一般来说,我的数据集的结构远不及安然数据集的结构。我需要摆脱签名,标题,最重要的是,自动附加法律/安全免责声明。

我一直在做一些研究,到目前为止,我已经看到了两种有监督的学习方法来解决这个问题--一种是在行流上使用多标签顺序学习器;另一种是使用多个二进制支持向量机来查找打开/关闭特定类型文本块(签名、标头等)的行。

我对在这样的问题上做特性工程的方式感到困惑。我读过的文章提出了一个集模式匹配和一些一般文本处理(例如:行长、起始字符)为一体的功能。似乎不清楚这些人是如何制定这些特定的数据编码规则的。如何确保我所识别的特性能够很好地概括我的数据,并且在分类过程中不会带来很大的偏差?

在尝试提出一组特性时,我是否应该遵循一些一般原则?还是它完全依赖于数据集?

EN

回答 1

Data Science用户

发布于 2022-03-05 17:21:24

任何自动附加的文本都可以用基于规则的逻辑删除。最合适的基于规则的逻辑是正则表达式(即regex)。您可以编写一个regex模式,捕捉电子邮件数据集中的大部分“噪音”。

要过滤的特定模式是领域和问题特定的。一种将模式视为停止词集合的方法,也就是通常出现的具有最小预测价值的文本。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/36102

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档