文章/答案/技术大牛

发布

社区首页 >问答首页 >经纬度CSV文件中的孤立点检测

问经纬度CSV文件中的孤立点检测
EN

Software Recommendation用户

提问于 2014-09-30 03:45:44

回答 1查看 811关注 0票数 5

我有一个巨大的CSV文件，其中包含不同城市的酒店GPS点。示例：

CITY    | HOTEL     | LATITUDE | LONGITUDE
Chicago | Bellevue  | 41.826   | -87.689
Chicago | SuperMt   | 41.924   | -87.703
Chicago | Starhotel | 44.903   | -93.215
Chicago | BestW     | 41.743   | -87.641
Tokyo   | CityStay  | 30.212   | 128.435

有没有能检测离群值的程序？例如，星空酒店的纬度/经度显然是错误的，它与同一城市的其他酒店相距数百公里。

要求：

相对于主星系团的分散情况，应该发现离群点，例如“加利福尼亚”的酒店会相距很远，而“东村”的酒店则会非常接近。因此，“离群点”与整个群的离散度有关。
免费的，理想的开放源码
快速配置
使用300,000行100 MB CSV文件，或其等效的RDF或OSM文件。
任何操作系统。最理想的是命令行。在线工具/API，如果它可以处理负载。
南北两极附近的经度变得不那么明显了。不过，以一种天真的方式计算距离，sqrt(latitudeDelta²+longitudeDelta²)总比没有好，因为波兰人没有很多酒店。

最终目标:捕捉可能出现的错误，以便将它们发送给人类审查员。100%的准确性不需要。

data-analysis

business-intelligence

回答 1

Software Recommendation用户

回答已采纳

发布于 2015-01-04 01:05:25

首先，您可能希望将数据集拆分为城市。这可能会产生比将一切保持在一起更好的结果。

那么选择的工具可能是埃尔基：

它包含了大量的孤立点检测算法。特别是，它有一个本地离群值因素(维基百科)，它精确地试图捕捉密度上的局部差异。
它支持大地测量距离，有不同的地球模型。
它可以使用R树索引来加速，所以300 k并不是问题(但您可能仍然希望拆分城市的数据集，以获得更好的结果；没有它，一家名为“芝加哥”但在加利福尼亚有坐标的酒店似乎仍然是正常的坐标)。我本人已经使用了100000个多维数据集；我看到作者在集群中使用了2300万个tweet。
开放源码，用Java编写。

您还可以检查作者在自定义异常值检测方面的工作。如果您想一次处理所有300 K，并使用城市和酒店列，这可能是必需的。(大多数方法都是为数值数据设计的！)根据我对这个模型的解释，您可能需要将上下文定义为同一城市的酒店，然后比较其密度。

Schubert，E.，Zimek，A.，& Kriegel，H.P.(2014年)。局部孤立点检测重新考虑:一种关于局部性的广义观点，并应用于空间、视频和网络离群点detection.数据挖掘和知识发现，28(1)，190-237。

嗯..。考虑到你的问题，这个问题也可能是相关的，在车祸和辐射活动测量数据中检测异常值：

Schubert，E.，Zimek，A.，& Kriegel，H.P.(2014年)。在第14届SIAM国际数据挖掘会议(第14届国际数据挖掘会议论文集，费城，PA )中的柔性核密度广义孤立点检测。

我想这两个人都是用ELKI写的，因为是同一个作者.

下面是如何使用ELKI来执行异常值检测：

将数据划分为每个城市的一个纬度、经度CSV文件。
下载ELKI JAR并打开它
配置如下参数：

按下Run task按钮，您应该得到以下内容：

票数 2

页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwarerecs.stackexchange.com/questions/11853

复制

相似问题

问经纬度CSV文件中的孤立点检测
EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问经纬度CSV文件中的孤立点检测EN

回答 1

Software Recommendation用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问经纬度CSV文件中的孤立点检测
EN