这个问题是关于pyosmium包的。我只是想知道以下功能是否可能,如果不可能,如何实现它。
我想流式传输/产生某些实例属性,而不是在内存中更新它们。
目前我们可以做到以下几点:
class Handler(osmium.SimpleHandler):
def __init__(self):
osmium.SimpleHandler.__init__(self)
self.edge_and_nodes = []
def way(self, w):
self.edge_and_nodes.append({'edge_id': w.id,
'nodes': [w.nodes[i].ref for i in range(len(w.nodes))]})
h = Handler()
h.apply_file("test.osm.pbf")
print("Edges and their connected nodes: {}".format(h.edge_and_nodes))但是,在处理大区域时,这是不可伸缩的。
我想有一种方式来产生一个字典对象,其中包括WayIds和相关的NodeIds (以及标签等)为每个WayObject。这个是可能的吗?
我正在寻找类似这样的东西:
class StreamHandler(osmium.SimpleHandler):
def __init__(self):
osmium.SimpleHandler.__init__(self)
self.edge_and_nodes = []
def way(self, w):
yield {'edge_id': w.id,
'nodes': [w.nodes[i].ref for i in range(len(w.nodes))]}
h = StreamHandler()
h.apply_file("test.osm.pbf")
for row in h.way(w):
print(row) 但我不确定如何传递w参数(WayObject),因为这似乎是使用apply_file()方法在内部处理的(我似乎找不到该方法的源代码)。
谢谢!
编辑:源代码可以在here上找到
发布于 2019-10-14 02:09:18
我找到了一个变通办法。使用pydriosm,我能够完全用add some custom generators解析和流式传输*.osm.pbf文件。这非常适合将数据流式传输到数据库的Spark或Dataflow作业。
https://stackoverflow.com/questions/58239013
复制相似问题