我正在从维基数据json转储加载所有地理条目(Q56061)。根据维基数据:统计页面,整个转储包含大约16M个条目。
使用python3.4 + ijson + libyajl2,仅解析文件就需要93小时的X4 (AMD Phenom II CPU 945 3 3GHz)。使用在线顺序项目查询总共230万个感兴趣的条目需要大约134个小时。
有没有更好的方法来完成这项任务?(也许,像openstreetmap pdf格式和渗透工具)
发布于 2017-01-12 23:28:37
我的加载代码和估计是错误的。
使用ijson.backends.yajl2_cffi大约需要15个小时才能完成完整的解析+过滤+存储到数据库。
https://stackoverflow.com/questions/41609586
复制相似问题