我正在寻找指针,以引导我在构建算法的正确方向。
情况很简单:有多个信息位可以表示一个人的地理位置。例如,最近提供的电子邮件地址或信息的IP地址或TLD,例如城镇或邮政编码。
这些信息可能存在也可能不存在,它们可能具有一定程度的准确性(邮政编码比国家TLD更准确)和可靠性(IP可能比邮政编码更可靠,即使邮政编码更准确)。此外,信息可能会受到老化的影响。
我希望创建一个算法,尝试根据这些信息确定最可能的位置。关于如何解决这个问题,我有几个想法,主要是为了精确和可靠地预先确定和计算分数,但很容易在这个问题上找出漏洞。
是否有处理这些特殊或类似问题的算法?可能是处理一般数据可靠性/准确性的算法,还是处理地理信息可靠性/准确性的实际统计数据?
发布于 2014-02-18 17:53:18
您希望找到最有可能的位置L,给出一些信息I。也就是说,你想要最大化条件概率
P(L|I) -> max由于这个函数P(L|I)很难估计,所以通常在这里应用Bayes定理:
P(L|I) = P(I|L)*P(L) / P(I)分母P(I)是信息I的概率。由于这一信息是固定的,这个术语是不变的,而不是寻找以上最大值的兴趣。P(L)是一个特定位置的无条件概率。这个地方的人口密度可能是一个很好的估计。最后,您需要一个P(I|L)模型,即获得I给定位置L的概率。对于多条信息,这将是单个概率的结果:
P(I|L) = P(I1|L)*P(I2|L)*...如果单个的I1,I2,.是否条件独立给出了L的位置,这似乎就是这里的情况。例如,某个邮政编码的可能性与某个蜂窝塔的可能性通常是密切相关的,但是当我们假设一个特定的位置L时,邮政编码就不再影响蜂窝塔的可能性了。
这些个体概率P(I1|L) ...代表信息的可靠性和准确性,必须由外部提供。你必须在这里提出一些假设。一般来说,当你对信息的可靠性和准确性产生怀疑时,你最好是悲观的。如果你太悲观,你的结果就会有点差,但是如果你太乐观,你的结果很快就会完全错误。你需要记住的另一件事是最大化的可行性。如果寻找最大值的努力太大,那么非常精确的P(I1|L)模型是无用的。一般情况下,为模型选取平滑函数,最终简化了优化过程。
https://stackoverflow.com/questions/21858072
复制相似问题