
源代码 Github:深圳共享单车 2.4 亿级数据获取与 PostGIS 分析流水线(适用于深圳市政府开放平台的大部分数据的获取)[1]。 如果你无法访问 Github,可以使用 Gitee 镜像:Urban-Spatial-Data-Analysis-No...[2]
仓库包含把深圳市开放平台的共享单车历史记录稳定抓取并按天存入带空间类型的数据库(Postgres + PostGIS + TimescaleDB),支持增量续跑、审计对账和快速导出。
fetcher-legacy.py 是单线程写 CSV,面对上亿条会非常慢,且断点续跑与去重困难。于是我们采用:异步并发抓取 → 实时坐标转换 → 批量 COPY 入库 → 审计对账,效率和稳定性都有明显改善。
scr/data_pipline/fetcher.py:主抓取程序(异步并发)。scr/data_pipline/db.py:数据库初始化、TimescaleDB 超表设置等。scr/data_pipline/profiles.py:数据字段与增量列配置。scr/data_pipline/coords.py:坐标系转换工具(BD09/GCJ → WGS84)。scr/data_pipline/audit_days.py:按天统计并生成对账表,用于发现缺失并补抓。scr/data_pipline/export_share.py:导出 CSV / GeoJSON(支持原始坐标与 WGS84)。.env(数据库连接、并发参数等)。uv run python -m scr.data_pipline.fetcher(或在你的虚拟环境中运行)。scr/data_pipline/audit_days.py 生成按天对账表,确认是否需要补抓。scr/data_pipline/export_share.py(可选择导出原始坐标或 WGS84)。audit_days 的输出作为补抓清单。这套流水线把复杂的工程细节藏在代码里,你得到的是可持续、可追溯的数据。程序会处理重试、限流、坐标转换、批量入库和审计,减少人工干预,方便后续分析与可视化工作。
更多细节请参考仓库根目录的 README.md 和 scr/data_pipline 目录下的脚本。
有更多问题可以在Github Issue[3]上或者评论区留言。
如果你也想直接获取全部的共享单车数据可以访问爱发电 · (更新上架)按日分的深圳共享单车企业每日订单表 csv 和 geojson 文件)[4]支持我并获取国内(阿里云盘、百度网盘或夸克网盘)下载链接。
参考资料
[1]
深圳共享单车 2.4 亿级数据获取与 PostGIS 分析流水线(适用于深圳市政府开放平台的大部分数据的获取): https://github.com/renhai-lab/Urban-Spatial-Data-Analysis-Notebook/tree/main/4-%E7%A9%BA%E9%97%B4%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/4.1-%E4%BA%A4%E9%80%9A%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E6%B7%B1%E5%9C%B3%E5%85%B1%E4%BA%AB%E5%8D%95%E8%BD%A6%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90
[2]
Urban-Spatial-Data-Analysis-No...: https://gitee.com/renhai-lab/Urban-Spatial-Data-Analysis-Notebook/tree/main/4-%E7%A9%BA%E9%97%B4%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/4.1-%E4%BA%A4%E9%80%9A%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E6%B7%B1%E5%9C%B3%E5%85%B1%E4%BA%AB%E5%8D%95%E8%BD%A6%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90
[3]
Github Issue: https://github.com/renhai-lab/Urban-Spatial-Data-Analysis-Notebook/issues?q=sort%3Aupdated-desc+is%3Aissue+is%3Aopen
[4]
爱发电 · (更新上架)按日分的深圳共享单车企业每日订单表csv和geojson文件): https://afdian.com/item/f082c194df7511ee86af5254001e7c00