我用Python做天气预报。
这里是原始数据。
谢谢!
输入有180个特征,意义如下:
假设我们对k小时进行预报,我们将使用历史气象数据(过去3小时)和天气预报(小时k)。
对于风力发电机,180个输入特性(4x11x4+4)如下:
站1小时k-3:温度、湿度、风速、风向 .K小时:温度、湿度、风速、风向
..。
站11小时k-3:温度、湿度、风速、风向 .K小时:温度、湿度、风速、风向
时间相关特征(_的_年)(日)_的_年)
4_11_4 +4 = 180
其中一个输出就是电源。
提示是,该数据是不干净的,因为目标/输出数据(而不是输入数据)中有一部分坏数据。然而,很难知道哪些数据是坏的。您可以考虑如何首先清理数据(更多关于示例选择,而不是功能选择)。数据清理之后,您可以考虑功能选择以减少输入维度。目前已有大量的特征选择方法。
我想知道如何清理数据,然后进行功能选择。谢谢!
发布于 2017-04-19 23:32:56
数据清理通常需要应用程序域的知识。
可视化数据通常也很有帮助。例如,您可以查找异常值,并通过手动检查更仔细地检查它们。
https://datascience.stackexchange.com/questions/18468
复制相似问题