我有一个巨大的CSV文件,其中包含不同城市的酒店GPS点。示例:
CITY | HOTEL | LATITUDE | LONGITUDE
Chicago | Bellevue | 41.826 | -87.689
Chicago | SuperMt | 41.924 | -87.703
Chicago | Starhotel | 44.903 | -93.215
Chicago | BestW | 41.743 | -87.641
Tokyo | CityStay | 30.212 | 128.435有没有能检测离群值的程序?例如,星空酒店的纬度/经度显然是错误的,它与同一城市的其他酒店相距数百公里。
要求:
sqrt(latitudeDelta²+longitudeDelta²)总比没有好,因为波兰人没有很多酒店。最终目标:捕捉可能出现的错误,以便将它们发送给人类审查员。100%的准确性不需要。
发布于 2015-01-04 01:05:25
首先,您可能希望将数据集拆分为城市。这可能会产生比将一切保持在一起更好的结果。
那么选择的工具可能是埃尔基:
您还可以检查作者在自定义异常值检测方面的工作。如果您想一次处理所有300 K,并使用城市和酒店列,这可能是必需的。(大多数方法都是为数值数据设计的!)根据我对这个模型的解释,您可能需要将上下文定义为同一城市的酒店,然后比较其密度。
Schubert,E.,Zimek,A.,& Kriegel,H.P.(2014年)。局部孤立点检测重新考虑:一种关于局部性的广义观点,并应用于空间、视频和网络离群点detection.数据挖掘和知识发现,28(1),190-237。
嗯..。考虑到你的问题,这个问题也可能是相关的,在车祸和辐射活动测量数据中检测异常值:
Schubert,E.,Zimek,A.,& Kriegel,H.P.(2014年)。在第14届SIAM国际数据挖掘会议(第14届国际数据挖掘会议论文集,费城,PA )中的柔性核密度广义孤立点检测。
我想这两个人都是用ELKI写的,因为是同一个作者.
下面是如何使用ELKI来执行异常值检测:

Run task按钮,您应该得到以下内容:
https://softwarerecs.stackexchange.com/questions/11853
复制相似问题