作为我们研究小组的一部分,我们正在收集大量的位置数据。我们的数据基本上看起来像(用户id,经纬度坐标,时间戳)。还涉及其他元数据,但这在这里并不相关。我们每周收集大约2-300万条记录,并期望在适当的时候收集大约一年的数据。
我真的需要一些关于存储和处理这些数据的技术的建议。我们希望能够回答类似如下的问题:
(1)对于给定的位置,在指定的时间段内,谁在该位置附近(在指定的距离内)?
(2)哪些位置相距较近?
这就是一般的想法。我们不需要实时响应,但什么是好的数据库(或其他数据存储软件)?我遇到过关于k-d树的讨论,这在这种规模下有效吗?我需要什么样的硬件?我希望能得到一些关于一般策略的建议。我们如何存储这些数据?将其全部存储在数据库中是否有意义?哪些数据/软件/软件包适合计算距离/半径?
我们最熟悉的是Python/Linux,更倾向于远离Java,更喜欢开源/自由软件。我们对这一切都是新手,指向书籍和论文的指针也很有用。所有的和任何的建议都会非常有用。
发布于 2011-03-18 23:41:59
PostGIS可能就是你要找的东西。
https://stackoverflow.com/questions/5353697
复制相似问题