首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >经纬度CSV文件中的孤立点检测

经纬度CSV文件中的孤立点检测
EN

Software Recommendation用户
提问于 2014-09-30 03:45:44
回答 1查看 811关注 0票数 5

我有一个巨大的CSV文件,其中包含不同城市的酒店GPS点。示例:

代码语言:javascript
复制
CITY    | HOTEL     | LATITUDE | LONGITUDE
Chicago | Bellevue  | 41.826   | -87.689
Chicago | SuperMt   | 41.924   | -87.703
Chicago | Starhotel | 44.903   | -93.215
Chicago | BestW     | 41.743   | -87.641
Tokyo   | CityStay  | 30.212   | 128.435

有没有能检测离群值的程序?例如,星空酒店的纬度/经度显然是错误的,它与同一城市的其他酒店相距数百公里。

要求:

  • 相对于主星系团的分散情况,应该发现离群点,例如“加利福尼亚”的酒店会相距很远,而“东村”的酒店则会非常接近。因此,“离群点”与整个群的离散度有关。
  • 免费的,理想的开放源码
  • 快速配置
  • 使用300,000行100 MB CSV文件,或其等效的RDF或OSM文件。
  • 任何操作系统。最理想的是命令行。在线工具/API,如果它可以处理负载。
  • 南北两极附近的经度变得不那么明显了。不过,以一种天真的方式计算距离,sqrt(latitudeDelta²+longitudeDelta²)总比没有好,因为波兰人没有很多酒店。

最终目标:捕捉可能出现的错误,以便将它们发送给人类审查员。100%的准确性不需要。

EN

回答 1

Software Recommendation用户

回答已采纳

发布于 2015-01-04 01:05:25

首先,您可能希望将数据集拆分为城市。这可能会产生比将一切保持在一起更好的结果。

那么选择的工具可能是埃尔基

  1. 它包含了大量的孤立点检测算法。特别是,它有一个本地离群值因素(维基百科),它精确地试图捕捉密度上的局部差异。
  2. 它支持大地测量距离,有不同的地球模型。
  3. 它可以使用R树索引来加速,所以300 k并不是问题(但您可能仍然希望拆分城市的数据集,以获得更好的结果;没有它,一家名为“芝加哥”但在加利福尼亚有坐标的酒店似乎仍然是正常的坐标)。我本人已经使用了100000个多维数据集;我看到作者在集群中使用了2300万个tweet。
  4. 开放源码,用Java编写。

您还可以检查作者在自定义异常值检测方面的工作。如果您想一次处理所有300 K,并使用城市和酒店列,这可能是必需的。(大多数方法都是为数值数据设计的!)根据我对这个模型的解释,您可能需要将上下文定义为同一城市的酒店,然后比较其密度。

Schubert,E.,Zimek,A.,& Kriegel,H.P.(2014年)。局部孤立点检测重新考虑:一种关于局部性的广义观点,并应用于空间、视频和网络离群点detection.数据挖掘和知识发现,28(1),190-237。

嗯..。考虑到你的问题,这个问题也可能是相关的,在车祸和辐射活动测量数据中检测异常值:

Schubert,E.,Zimek,A.,& Kriegel,H.P.(2014年)。在第14届SIAM国际数据挖掘会议(第14届国际数据挖掘会议论文集,费城,PA )中的柔性核密度广义孤立点检测。

我想这两个人都是用ELKI写的,因为是同一个作者.

下面是如何使用ELKI来执行异常值检测:

  1. 将数据划分为每个城市的一个纬度、经度CSV文件。
  2. 下载ELKI JAR并打开它
  3. 配置如下参数:
  1. 按下Run task按钮,您应该得到以下内容:
票数 2
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/11853

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档