首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用样本选择来清理数据?

用样本选择来清理数据?
EN

Data Science用户
提问于 2017-04-19 20:50:48
回答 1查看 224关注 0票数 -2

我用Python做天气预报。

这里是原始数据。

谢谢!

输入有180个特征,意义如下:

假设我们对k小时进行预报,我们将使用历史气象数据(过去3小时)和天气预报(小时k)。

对于风力发电机,180个输入特性(4x11x4+4)如下:

站1小时k-3:温度、湿度、风速、风向 .K小时:温度、湿度、风速、风向

..。

站11小时k-3:温度、湿度、风速、风向 .K小时:温度、湿度、风速、风向

时间相关特征(_的_年)(日)_的_年)

4_11_4 +4 = 180

其中一个输出就是电源。

提示是,该数据是不干净的,因为目标/输出数据(而不是输入数据)中有一部分坏数据。然而,很难知道哪些数据是坏的。您可以考虑如何首先清理数据(更多关于示例选择,而不是功能选择)。数据清理之后,您可以考虑功能选择以减少输入维度。目前已有大量的特征选择方法。

我想知道如何清理数据,然后进行功能选择。谢谢!

EN

回答 1

Data Science用户

发布于 2017-04-19 23:32:56

数据清理通常需要应用程序域的知识。

  • 根据您对特性所代表的内容的理解,尝试为每个输入特性确定合理的值范围。例如,风速达到每小时2000英里很可能是不真实的。300%或-50%的湿度值可能是不正确的。
  • 此外,试着为每个样本的特性值应该或不应该有多大的差异确定一个合理的范围。
  • 更普遍的是,如果您有一个模型来描述这些值是如何演化的,那么您可以根据该模型寻找那些不可思议的样本。

可视化数据通常也很有帮助。例如,您可以查找异常值,并通过手动检查更仔细地检查它们。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/18468

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档