我要求在导入过程中匹配美国的邮政地址。问题是地址行可能会以几种不同的方式键入。示例:
123 Main Street
123 Main St.
123 Main St如何对地址进行标准化,以便进行匹配?我们一次导入10,000个地址,所以我不想使用像Google,Yahoo或USPS这样的服务。是否有不是COM组件的用于地址标准化的开放源码或商业库?我不在乎地址是真是假,我所关心的是匹配。
发布于 2012-09-07 03:05:27
这类事情非常复杂。一些公司完全基于提供此功能。
我不建议这样做,有现成的库和服务可以做到这一点:
https://www.usps.com/business/address-management-products.htm
http://smartystreets.com/products/liveaddress-api
如果这些都不是选项,如果引用的链接(Address Match Key Algorithm)对您没有帮助,那么您基本上必须将所有内容归结为一些共同点。例如,将字符串拆分成多个组成部分(街道编号、街道编号后缀、单元/套间编号、街道名称、街道类型和街道方向)。然后,将每个(如果适用)的所有可能缩写转换为该公共分母。在街道类型为"St.“的情况下,您可以选择" street”作为公分母,在这种情况下,您可以转换为"St.“。或"St“到" street”,然后执行任何匹配--假设数据库中的所有数据都包含该街道类型的"street“。
https://stackoverflow.com/questions/12306215
复制相似问题