首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CDA数据分析师

    骑行在华盛顿 针对320万次共享单车骑行数据的分析

    最近Capital Bikeshare发布了他们每个季度的骑行数据。我对前四个季度的数据进行了抓取和清理,并发布在我的GitHub中。 幸运的是,Austin Wehrwein提供了代码,从而我能够对华盛顿地区的骑行数据进行分析。 由于数据不足一整年,所以我决定不按照Andrew的将数据按年区分。 在热图中我注意到了一些趋势: · 华盛顿的骑行季节比芝加哥稍长。 接着我又创建了一个热图,显示每天不同时段的骑行数据。 华盛顿: 320万次骑行数据的热图 对于生活在华盛顿的人群来说,对这个热图的结果应该不会感到惊讶。 在320万次骑行数据中,临时用户占665,822人次,而注册用户为2,591,279人次。

    1.2K100发布于 2018-02-26
  • 来自专栏大数据和云计算技术

    MongoDB系列10:Change Streams构建实时同步数据

    本文是第10篇,主要讲述Change Streams构建实时同步数据流的实战经验,非常值得一看。 应用程序可以使用Change Streams订阅集合上的所有数据的更改,并立即对它们作出响应。利用Change Streams这一功能可以构建实时数据同步的应用。 db.collection_name.watch() 其中,可以采用以下管道控制ChangeStreams的输出: ·$match ·$project ·$addFields ·$replaceRoot ·$redact 5、构建实时同步数据流案例 本例子,是利用Python构建从MongoDB的stream_table集合到mysql的stream_table表的实时同步数据已实时同步。 3) update集合stream_table数据 ? 同样,查询mysql的stream_table表的记录是否有变化: ? 数据实时更新!

    2.6K21发布于 2018-07-26
  • 来自专栏BestSDK

    骑行数据:北京最热门的购物圣地,居然不是西单

    根据八大城市各大商圈周围的订单数据骑行者们来往商圈500-1000米骑行距离订单量最大,其次是1000-1500米与200-500米。 以北京为例, CBNData《研究》发现,订单量TOP10的热门商圈中,骑行范围主要集中在500-1000米与1000-1500米。 同样,CBNData《研究》发现, 从北京数据来看, 三里屯、望京、建外大街等热门商圈的平均骑行距离分别为1653米、1475米、1628米。 与上海骑行辐射范围不同的是,北京热门商圈用户的骑行距离主要集中在200-1500米,而对于三里屯以及望京这样的大型成熟商圈而言,商圈的骑行半径延长至1500-2000米,订单占比均占该商圈订单量的10% 订单量总排名第一的徐家汇,骑行订单主要集中在上下班时间:10点以及17点、18点。

    94680发布于 2018-03-02
  • 来自专栏咸鱼学Python

    数据分析 | Numpy实战(二) - 分析各类用户平均骑行时间

    本次复习的知识点如下: 布尔型数组及数据过滤 多维数组的构造 使用numpy保存文本文件 matplotlib折线图绘制 matplotlib图表常用属性的设置方法 图表的保存 关于数据源 上次的文章发出之后发现忘了补充数据源的链接 ,之后咸鱼补充在留言区了,有需要动手实践的朋友可以自取,下面是直通车: 数据分析 | Numpy实战(一) - 分析某单车骑行时间 分析目标 观察上次的数据数据中有的数据有会员与非会员两种用户类别。 这次我们主要分析一下两种类别用户的平均骑行时间对比。 数据读取与数据清洗 根据上次的流程示意图我们主要遵循下面几个步骤: ? 图 | 源自网络 但是在实际操作中发现,本次的实战数据非常干净,完全可以把我们的数据读取和数据清洗代码结合到一起来实现代码简化的目的。 在数学上标量和向量是没办法比对的,毕竟维度不同,但是在numpy中它的广播机制很好的为我们实现了这一需求,numpy可以将单个标量变成比对数据同样的数据维度,这样就可以进行一对一比对,达到使用布尔型数组筛选数据的需求了

    67010发布于 2019-10-09
  • 来自专栏算法channel

    蒙特利尔骑行数据分析 小案例

    Python与算法社区 第440篇原创,干货满满 值得星标 你好,我是 zhenguo Python 领域,数据分析的利器非 Pandas 莫属,关于它的基本原理、数据结构和 API,之前总结过不少这类文章 结合施工专题,这阶段先总结数据分析的实践相关话题,直接使用实际数据分析,解决实际问题。 今天参考github中的一个Pandas练习,来做一把蒙特利尔的自行车骑行数据分析。 2247 Name: Berri 1, Length: 310, dtype: int64 画画日期与骑自行车出行人数的折线图,此出直接使用Series自带的 plot 方法,绘制 Berri 1 地区的骑行数据折线图 实际上,我们可以直接绘制蒙特利尔所有地方的骑行数据: fixed_df.plot(figsize=(15, 10)) ? 上图观察看到,如果某天骑行人数少,所有地区的情况就都会少。 以上就是导入数据后的一个简单数据分析,如果你有兴趣,获取数据和源码,微信我备注:骑行 不必打赏 给我点个赞 就心满意足了

    56910发布于 2020-12-02
  • 来自专栏咸鱼学Python

    数据分析 | Numpy实战(一) - 分析某单车骑行时间

    关于数据科学的学习,咸鱼也进行了一段时间,但是光学不练是学一点忘一点,所以咸鱼找了一些某共享单车的数据进行一点简单的数据分析。 实战 分析目的 看标题就知道了,分析各季度共享单车的骑行时间。 数据收集 因为这次的数据源自网络,所以先简单看下数据的结构: ? 因为数据是整理后导出的数据所以不需要清洗缺失值等操作,我们直接取出需要的字段,做一些处理即可。 这里骑行时间单位为ms,所以需要转化为min需要/1000/60。 单单从上面的图可以看到以炎热的夏季和凉爽的秋季为主调的二三季度的骑行时间要高于春冬为主调的一四季度,以此判断气温变化对人们使用的共享单车的影响。

    71131发布于 2019-10-09
  • 来自专栏云原生生态圈

    MYSQL数据同步之基于GTID事务数据同步

    MYSQL基于GTID数据同步方式 同步原理 客户端发送DDL/DML给master上,master首先对此事务生成一个唯一的gtid,假如为uuid_xxx:1,然后立即执行该事务中的操作。 同步实现方式 实现单slave通过gtid数据同步 本文通过Docker以及mysql5.7 镜像进行基于GTID数据复制的同步实践。 Executed_Gtid_Set: f0b1184d-f7d2-11ea-a7f5-0242ac110003:1-10 Auto_Position 只有slave上具有了这部分基准数据,才能保证和master的数据一致性。 GTID从库数据同步 假如当前master的gtid为A3,已经purge掉的gtid为"1-->A1",备份到slave上的数据为1-A2部分。

    5.7K20发布于 2020-09-21
  • 来自专栏程序员叨叨叨

    10】Hexo博客的跨设备同步

    前情提要 前几天使用hexo搭建了Github博客,今天在公司的电脑上想要同步Github博客到本地,遇到了点坑,查询了 一下网上的资料,现在记录一下,也算给遇到同样问题的小伙伴们一个参考。 多设备同步 同步思路与Github推拉源码思路相同,使用git指令,保持本地的博客文件与Github上的博客文件相同即可,其步骤如下: 使用hexo搭建部署Github博客 // 在本地博客根目录下安装 注意这里不需要hexo初始化:hexo init;否则之前的hexo配置参数会重置 // 安装依赖库 npm install // 安装部署相关配置 npm install hexo-deployer-git 同步项目源文件到 pull origin 分支名 --allow-unrelated-histories // 比较解决前后版本冲突后,push源文件到Github的分支 git push origin 分支名 至此多设备同步到此为止 问题解决 由于公司里的电脑是win 10所以在部署博客的过程中会遇到一些问题,整理如下: Deployer not found: git 在终端执行命令: npm install hexo-deployer-git

    94020发布于 2018-08-28
  • 来自专栏四月天的专栏

    Win10 串口通信 —— 同步异步

    文章目录 Win10 串口通信 —— 同步/异步 简介 实现 1.主函数 2.串口模块 源码 Win10 串口通信 —— 同步/异步 简介 之前接到的一个小项目,好像不能算。 win10下的串口通信,不需要界面,排除了Qt,MFC只剩C++ 底层了,调用WindowsApi来实现。翻了翻网上资料大致写出来了。 fengmeitech/Micro-Lab 虚拟串口工具:https://blog.csdn.net/qq_34202873/article/details/88391265 系统环境:Win10 修改部分 - 头文件说明 – 同步异步 之前为 1异步 0 同步 --实际代码中 1为同步,0为异步,默认同步 // 打开串口,成功返回true,失败返回false // portname(串口名) dwBytesWrite, //要发送的数据字节数 &dwBytesWrite, //DWORD*,用来接收返回成功发送的数据字节数 &m_osWrite); //NULL为同步发送

    1.9K20编辑于 2023-03-10
  • 来自专栏机器学习AI算法工程

    300万摩拜单车出行记录数据,预测骑行目的地

    本文300万摩拜单车出行记录数据获取和源码地址: 在公众号 datadw 里 回复 摩拜 即可获取。 摩拜单车在北京的单车投放量已经超过40万。 因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个用户的骑行目的地。 标注数据中包含300万条出行记录数据,覆盖超过30万用户和40万摩拜单车。 数据包括骑行起始时间和地点、车辆ID、车辆类型和用户ID等信息。参赛选手需要预测骑行目的地的区块位置。 ? 以下代码是knn算法,结合了leak。这里主要有两点创新。 ,shijianquan = 10,jiejiaquan = 2,bikequan = 0.5, #都是拼音,字面意思,越大则这个特征比重越大 zhishu = 1.1 # hour1) < 12 else 24 - abs(hour2 - hour1) shijian= shijianquan * (detalaTime / 12 * 10

    1K40发布于 2018-03-15
  • 来自专栏大数据进阶

    flinkx数据同步

    本文会描述如下几部分的数据同步 mysql2mysql mysql2hive flinkx的版本1.12-SNAPSHOT 1.拉取代码 git clone https://github.com/DTStack

    2.4K30发布于 2021-11-22
  • 来自专栏全栈程序员必看

    数据同步工具

    公司要搞数据平台,首当其冲的是把旧库的数据导入到新库中,原本各种数据库大部分都提供了导入导出的工具,但是数据存储到各个地方,mongdb,hbase,mysql,oracle等各种各样的不同数据库,同步起来头都大了 而且本来就是专门做ETL的,是Pentaho指定的ETL组件,对于数据清洗等处理数据的环节支持更好。但是数据效率一般,而且在生产环境也很少弄台windows机器,适合小项目,数据量比较小的同步。 实时同步 实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。 这里说个mysql数据库的同步组件,阿里的canal和otter canal https://github.com/alibaba/canal canal是基于mysql的binlog进行数据同步的中间件 非常适合mysql库之间的同步。 而且通过retl_buff表的监控,也可以实现一些全量数据同步。 但是otter也有一些不好的地方,比如界面上的参数并不是所有的都有用,文档写的一般,不是很清晰。

    3.5K20编辑于 2022-09-13
  • 来自专栏renhailab数据分析

    学术成果 | 基于共享单车轨迹数据的城市街道可骑行性评估

    既有的街道可骑行性评估方法存在数据获取难、样本量少、代表性不足等问题,更为关键的是,评估指标选择及权重确定主观性较强,鲜有从从骑行行为出发建立评价指标体系,评估结果严重偏离实际情况。 02 街道可骑行性评估的基本思路与方法 骑行行为是骑行者对街道空间使用的结果,骑行轨迹数据反映了街道环境对于骑行行为的支持程度,使用骑行轨迹数据能够更加客观地评估城市街道可骑行性。 可骑行性评估结果的16种模式 03 街道可骑行性评估实证的数据与结果 本研究使用的轨迹数据来源于知名共享单车品牌2017年11月份深圳市龙岗区内的1%的随机抽样数据。 清洗后的数据包括110331次有效骑行订单,61279921个轨迹点。本研究以城市街道路段作为研究的基本空间单元。 龙岗区可骑行性评估结果 04 结论 本研究主要有3个贡献:(1)从骑行行为本身出发,提出了考虑骑行需求、共享单车供给的情况下,提出采用共享单车轨迹数据评估街道骑行环境的分析框架;(2)通过骑行需求、共享单车供给和街道环境对骑行行为的线性回归模型提取可骑行性评估指标和权重

    77811编辑于 2024-04-10
  • 来自专栏Java技术详解

    数据同步数据备份

    日常使用的移动手机或者是电脑等其它电子产品都是每天在产生不同的数据数据安全性的保证需要有很多的计算机程序设计的运行程序进行有效保证。 有限局域网或者是移动互联网,公网与内网有利于数据传输。网络可以使得两个不同端点的电子设备进行互联网连接,服务于现在的信息社会。数据同步同步客户端软件的数据到服务端节点数据服务器。 计算机编程开发的过程中使用程序在客户端采集相应的需求数据,经过传输后在后端的服务器软件程序中进行处理,会持久化到数据服务器终端。互联网设备的数据服务终端机存储着海量的日常用户数据数据备份是在客户端或这是在服务器端进程的数据处理操作,一般的程序设计是不会进行远程传输。数据传输耗时耗力,涉及到安全性的机制也有很多。程序库有本地库和远程仓库。

    78200编辑于 2023-06-18
  • 来自专栏各类技术文章~

    Java多线程10 同步工具类CyclicBarrier

    CyclicBarrier是一个同步工具类,它允许一组线程互相等待,直到达到某个公共屏障点。 线程Thread-3正在写入数据... 线程Thread-1正在写入数据... 线程Thread-2正在写入数据... 线程Thread-3正在写入数据... 线程Thread-2正在写入数据... 线程Thread-1正在写入数据... 线程Thread-3正在写入数据... 线程Thread-2正在写入数据... 线程Thread-1正在写入数据... = null) command.run(); //同步执行barrierCommand ranAction = true

    1.1K12发布于 2021-10-19
  • 来自专栏全栈程序员必看

    redis主从同步方式(redis数据同步原理)

    主从模式可以保证redis的高可用,那么redis是怎么保证主从服务器的数据一致性的,接下来我们浅谈下redis主(master)从(slave)同步的原理。 -1),告诉master我需要同步数据了。 master接收到psync命令后会进行BGSAVE命令生成RDB文件快照。 生成完后,会将RDB文件发送给slave。 ,达成数据一致性。 当slave的偏移量之后的数据不在缓冲区了,就会进行完整重同步。 结合以上三点,我们又可以总结下: 当slave断开重连后,会发送psync 命令给master。 如果不一致,master会去缓冲区中判断slave的偏移量之后的数据是否存在。 如果存在就会返回+continue回复,表示slave可以执行部分同步了。

    6K30编辑于 2022-08-01
  • 来自专栏开发技术

    异构数据同步数据同步 → DataX 使用细节

    01', '李四'), (3, '王五', 'w123456', '1993-01-01', '王五'), (4, '麻子', 'm123456', '1994-01-01', '麻子'); 需要将表中数据同步到 /job/mysql2Mysql.json 当我们看到如下输出,就说明同步成功了 需要说明的是 DataX 不支持表结构同步,只支持数据同步,所以同步的时候需要保证目标表已经存在 column 因为存在列类型不匹配,导致数据插不进去,例如我将 Writer 中的 username 和 birth_day 对调下位置,然后执行同步,会发现同步异常,异常信息类似如下 Date 类型转换错误 同步正常,数据却乱了 对调下 Writer 的 username 和 pw 执行同步任务,会发现同步没有出现异常,但你们看一眼目标数据源的数据 很明显脏数据了,这算同步成功还是同步失败 job 嘛 splitPk 这个配置只针对 Reader Reader 进行数据抽取时,如果指定了 splitPk,那么 DataX 会按 splitPk 配置的字段进行数据分片,启动并发任务进行数据同步

    3.7K10编辑于 2024-06-05
  • 来自专栏用户8794315的专栏

    Otter数据同步服务部署与数据同步最佳实践

    一、概述otter 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据同步系统工作原理:原理描述:1. = 10 #otter通讯连接池,默认可不改otter.zookeeper.cluster.default = 172.17.6.4:2181,172.17.6.47 /bin/startup.sh出现如下日志表示启动成功验证五、配置同步规则 配置一个otter同步任务,一般需要进行如下步骤:1)配置数据源a. 目标数据表Canal(主从单向同步不需要,双主双向同步需要)4)配置Channel同步通道5)配置Pipeline同步管道a. 选择源库节点和目标库节点(可多节点选择)b. 这里以单向同步db_test 库为例输入Channel Name,同步一致性选择:基于当前日志更新,同步模式为:列记录模式,如果是主主双向同步模式,还需要开启数据一致性。

    2.7K10编辑于 2024-01-11
  • 来自专栏数据库相关

    使用mongosync同步数据

    注意: 我下面的这个mongodb版本较低(3.2.16), 还可以用这个工具来同步数据。工具不支持更高版本的mongodb了. ,默认同步除admin及local外的所有数据库 --dst_db arg 目的端数据库 --coll arg 源端集合,默认同步全部集合 --dst_coll arg 目的端集合 --oplog 是否同步 oplog --raw_oplog 是否只同步oplog --op_start arg oplog同步的开始点位,格式:--op_start 1479436001,1 --op_end arg oplog 同步的结束点位,格式:--op_start 1479436002,2 --dst_op_ns arg oplog同步时目的端的oplog名称,格式:--dst_op_ns sync.oplog --no_index  是否同步索引 --filter arg 同步过滤语句,格式:--filter {"name":xxx} --bg_num arg 数据同步线程数 --batch_size arg 数据传输块的大小(0

    1.4K10发布于 2019-09-17
  • 来自专栏OY_学习记录

    Canal数据同步工具

    一、Canal介绍 1、应用场景 ​ Canal就是一个很好的数据同步工具。canal是阿里巴巴旗下的一款开源项目,纯Java开发。 基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL。 canal.instance.dbPassword=root #需要改成同步数据库表规则,例如只是同步一下表 #canal.instance.filter.regex=.*\\..* canal.instance.filter.regex =guli.member 注: mysql 数据解析关注的表,Perl正则表达式. : 虚拟机数据库: 20210406203916.png window本地数据库: image.png 以上效果,则表示测试成功!!!

    2.3K20编辑于 2022-03-18
领券