首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在预处理过程中从文本数据中删除数值是一种良好的做法吗?

在预处理过程中从文本数据中删除数值是一种良好的做法吗?
EN

Data Science用户
提问于 2020-09-01 13:36:48
回答 2查看 1.5K关注 0票数 0

我正在对文本数据集进行预处理。我在里面有一些数字,比如:

  • 日期(7月1日)
  • 年份(2019年)
  • 暂定值(3-5年/ 10+优势)。
  • 独特价值(31室/45级用户)
  • 百分比(100%)

是否建议在为任何模型(分类/回归)创建向量器(蝴蝶结/tf-以色列国防军)之前放弃这些数字?

任何在这方面的快速帮助都是非常感谢的。谢谢

EN

回答 2

Data Science用户

发布于 2022-02-17 20:16:35

要在普拉尚的回答上构建,它将取决于您的问题。如果您认为这些值对您的任务很重要,您可以尝试提取它们并将它们插入数据的末尾(我的想法类似于[这里提出的问题],它在回归问题中使用了多种不同类型的数据)。

做一件容易的事情(也许大多数时候都是正确的调用)就是删除所有这些数字,但我在其他地方看到的另一种策略是使用规则将不同的数字转换为它们的“类型”。这意味着2019年的年份将被#年份这样的标记所取代,100%被#%所取代,以此类推。

票数 2
EN

Data Science用户

发布于 2020-09-01 14:26:42

是否建议在为任何模型(分类/回归)创建向量器(蝴蝶结/tf-以色列国防军)之前放弃这些数字?

这取决于问题陈述,例如,如果您想要找到趋势,并且年份具有许多独特的值,那么年份可能很重要,但是如果它是常量,那么您可以删除它。

另外,如果你在做情绪分析,那么数值变量就没有多大意义了。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81076

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档