首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CDA数据分析师

    骑行在华盛顿 针对320万次共享单车骑行数据的分析

    最近Capital Bikeshare发布了他们每个季度的骑行数据。我对前四个季度的数据进行了抓取和清理,并发布在我的GitHub中。 幸运的是,Austin Wehrwein提供了代码,从而我能够对华盛顿地区的骑行数据进行分析。 : 2015年7月1日-2016年6月30日 每日骑行数据的热图代码: library(ggplot2) ggplot(bike_day_heatmap, aes(x = week, y = days 由于数据不足一整年,所以我决定不按照Andrew的将数据按年区分。 在热图中我注意到了一些趋势: · 华盛顿的骑行季节比芝加哥稍长。 接着我又创建了一个热图,显示每天不同时段的骑行数据。 华盛顿: 320万次骑行数据的热图 对于生活在华盛顿的人群来说,对这个热图的结果应该不会感到惊讶。

    1.2K100发布于 2018-02-26
  • 来自专栏运维经验分享

    CentOS7+rsync+sersync实现数据实时同步

    ,并不知道具体是哪个文件或者哪个目录发生了变化,每次都是对整个目录进行同步,当数据量很大时,整个目录同步非常耗时(rsync要对整个目录遍历查找对比文件),因此,效率很低。 (每次发生变化的数据相对整个同步目录数据来说是很小的,rsync在遍历查找比对文件时,速度很快),因此,效率很高。 小结:当同步的目录数据量不大时,建议使用Rsync+Inotify-tools;当数据量很大(几百G甚至1T以上)、文件很多时,建议使用Rsync+sersync。 准备 操作系统 CentOS 7 sersync2.5.4_64bit 源服务器 192.168.0.248 目标服务器 192.168.0.249 把A机器上的一个目录下文件的变化实时同步到B机器上, 服务端资源列表 max connections=200  #允许最大的客户端连接数 timeout=600  #设置超时时间 auth users=rsync  #执行数据同步的虚拟用户名

    1.9K40发布于 2019-03-11
  • 来自专栏桥路_大数据

    CentOS7, mysql主从同步数据库配置

    前言     最近免费试用了一下云服务器,然后在两台服务器上安装了Mysql并搭建了主从同步数据库。mysql数据库的安装,大家可以去查看我的另一篇博客文章,下面为大家介绍搭建步骤及原理。 原理     mysql主节点即master节点在每次对数据库执行操作后会将操作写入到本地的二进制日志(binary log)中,从节点slave会使用I/O Thread线程去监听和读取主节点的binary log数据,如果有修改,则更新自己的Relay log日志,然后使用SQL thread线程将Relay log中的日志对数据库进行操作。 从而实现了主从同步。 配置过程 1. 重启数据库,使得配置生效: service mysqld restart 2.

    2.7K70发布于 2018-05-17
  • 来自专栏Devops专栏

    7.Lock 同步

    7.Lock 同步锁 Lock( 锁 ) 从 JDK 5.0开始,Java提供了更强大的线程同步机制——通过显式定义同步锁对象来实现同步同步锁使用Lock对象充当。 try{ //保证线程安全的代码; } finally{ lock.unlock(); } } } // 注意:如果同步代码有异常

    49810编辑于 2022-03-23
  • 来自专栏运维经验分享

    CentOS7+rsync+sersync实现数据实时同步

    ,并不知道具体是哪个文件或者哪个目录发生了变化,每次都是对整个目录进行同步,当数据量很大时,整个目录同步非常耗时(rsync要对整个目录遍历查找对比文件),因此,效率很低。 (每次发生变化的数据相对整个同步目录数据来说是很小的,rsync在遍历查找比对文件时,速度很快),因此,效率很高。 小结:当同步的目录数据量不大时,建议使用Rsync+Inotify-tools;当数据量很大(几百G甚至1T以上)、文件很多时,建议使用Rsync+sersync。 准备 操作系统 CentOS 7 sersync2.5.4_64bit 源服务器 192.168.0.248 目标服务器 192.168.0.249 把A机器上的一个目录下文件的变化实时同步到 list=no  #不显示rsync服务端资源列表 max connections=200 #允许最大的客户端连接数 timeout=600 #设置超时时间 auth users=rsync  #执行数据同步的虚拟用户名

    1.6K10发布于 2019-03-11
  • 来自专栏EDI电子数据交换知识分享

    关于GDSN数据同步7个重要问题

    高质量的产品数据对于任何企业而言都是至关重要的。越来越多的企业希望获得有关产品数据标准的更多信息,例如GDSN数据同步。 什么是GDSN数据同步? GDSN(全球数据同步网络)是基于Internet的产品数据池。GDSN数据同步使企业可以与交易伙伴交换标准化的产品数据。简而言之,GDSN是交易伙伴用来“标准化”产品数据的方法之一。 GS1标准还涵盖其他技术,例如EDI(电子数据交换),条形码和RFID(射频识别)标签。 谁使用GDSN数据同步? GDSN数据同步主要应用于零售行业,包括食品、服装和普通商品。 为此,一些采购组织要求供应商使用GDSN认证的数据池。 通常情况下,GDSN数据同步是一种选择,但也可以使用其他共享产品数据的方法代替。 使用GDSN数据同步需要多少费用? 买卖双方都需要付费,才能通过GDSN认证的数据池访问数据。一些数据池提供商基于公司的总收入定价。其他人则考虑公司的有效SKU数量或数据接收者的数量。

    72430发布于 2021-05-21
  • 来自专栏BestSDK

    骑行数据:北京最热门的购物圣地,居然不是西单

    根据八大城市各大商圈周围的订单数据骑行者们来往商圈500-1000米骑行距离订单量最大,其次是1000-1500米与200-500米。 从平均骑行距离来看,大型成熟商圈如南京西路、南京东路的平均骑行距离分别为1456米、1500米,可见商圈太大不用怕,商圈再大,骑行者们也愿意把车骑得越远。 同样,CBNData《研究》发现, 从北京数据来看, 三里屯、望京、建外大街等热门商圈的平均骑行距离分别为1653米、1475米、1628米。 与上海骑行辐射范围不同的是,北京热门商圈用户的骑行距离主要集中在200-1500米,而对于三里屯以及望京这样的大型成熟商圈而言,商圈的骑行半径延长至1500-2000米,订单占比均占该商圈订单量的10% “剁手圣地”:北京看望京 上海看徐家汇 根据骑行订单数据,CBNData结合商圈在线上的讨论热度以及人均消费水平,以共享单车的视角挖掘了八大城市的剁手圣地:北京的扫货胜地望京、上海的潮流天堂徐家汇、深圳的购物集中营宝安南路以及广州历史悠久的天河城荣登各城剁手圣地的榜首

    94680发布于 2018-03-02
  • 来自专栏Lcry个人博客

    CentOS7同步系统时间

    安装ntp服务 sudo yum install ntp 修改成国内时区并同步 timedatectl set-timezone Asia/Shanghai timedatectl set-ntp yes 查看时间确保同步 timedatectl 验证 date

    2.2K40编辑于 2022-11-29
  • 来自专栏运维经验分享

    CentOS7下Rsync+sersync实现数据实时同步

    CentOS7下Rsync+sersync实现数据实时同步 [日期:2017-10-22] 来源:Linux社区  作者:Linux [字体:大 中 小] 前言: ? (每次发生变化的数据相对整个同步目录数据来说是很小的,rsync在遍历查找比对文件时,速度很快),因此,效率很高。 小结:当同步的目录数据量不大时,建议使用Rsync+Inotify-tools;当数据量很大(几百G甚至1T以上)、文件很多时,建议使用Rsync+sersync。  #禁止数据同步的客户端IP地址,可以设置多个,用英文状态下逗号隔开 :wq!   至此,Linux下Rsync+sersync实现数据实时同步完成。

    1.5K20发布于 2019-03-11
  • 来自专栏咸鱼学Python

    数据分析 | Numpy实战(二) - 分析各类用户平均骑行时间

    本次复习的知识点如下: 布尔型数组及数据过滤 多维数组的构造 使用numpy保存文本文件 matplotlib折线图绘制 matplotlib图表常用属性的设置方法 图表的保存 关于数据源 上次的文章发出之后发现忘了补充数据源的链接 ,之后咸鱼补充在留言区了,有需要动手实践的朋友可以自取,下面是直通车: 数据分析 | Numpy实战(一) - 分析某单车骑行时间 分析目标 观察上次的数据数据中有的数据有会员与非会员两种用户类别。 这次我们主要分析一下两种类别用户的平均骑行时间对比。 数据读取与数据清洗 根据上次的流程示意图我们主要遵循下面几个步骤: ? 图 | 源自网络 但是在实际操作中发现,本次的实战数据非常干净,完全可以把我们的数据读取和数据清洗代码结合到一起来实现代码简化的目的。 在数学上标量和向量是没办法比对的,毕竟维度不同,但是在numpy中它的广播机制很好的为我们实现了这一需求,numpy可以将单个标量变成比对数据同样的数据维度,这样就可以进行一对一比对,达到使用布尔型数组筛选数据的需求了

    67010发布于 2019-10-09
  • 来自专栏算法channel

    蒙特利尔骑行数据分析 小案例

    Python与算法社区 第440篇原创,干货满满 值得星标 你好,我是 zhenguo Python 领域,数据分析的利器非 Pandas 莫属,关于它的基本原理、数据结构和 API,之前总结过不少这类文章 结合施工专题,这阶段先总结数据分析的实践相关话题,直接使用实际数据分析,解决实际问题。 今天参考github中的一个Pandas练习,来做一把蒙特利尔的自行车骑行数据分析。 2247 Name: Berri 1, Length: 310, dtype: int64 画画日期与骑自行车出行人数的折线图,此出直接使用Series自带的 plot 方法,绘制 Berri 1 地区的骑行数据折线图 实际上,我们可以直接绘制蒙特利尔所有地方的骑行数据: fixed_df.plot(figsize=(15, 10)) ? 上图观察看到,如果某天骑行人数少,所有地区的情况就都会少。 以上就是导入数据后的一个简单数据分析,如果你有兴趣,获取数据和源码,微信我备注:骑行 不必打赏 给我点个赞 就心满意足了

    56910发布于 2020-12-02
  • 来自专栏IT不难技术家园

    centos7部署rsync服务进行数据同步

    前言 rsync的目的是实现本地主机和远程主机上的文件同步。 users = gameh5 secrets file = /etc/rsyncd.secrets gameh5:Z@W8KtBL 启动 systemctl enable --now rsyncd 数据同步

    31820编辑于 2022-04-01
  • 来自专栏咸鱼学Python

    数据分析 | Numpy实战(一) - 分析某单车骑行时间

    关于数据科学的学习,咸鱼也进行了一段时间,但是光学不练是学一点忘一点,所以咸鱼找了一些某共享单车的数据进行一点简单的数据分析。 实战 分析目的 看标题就知道了,分析各季度共享单车的骑行时间。 数据收集 因为这次的数据源自网络,所以先简单看下数据的结构: ? 因为数据是整理后导出的数据所以不需要清洗缺失值等操作,我们直接取出需要的字段,做一些处理即可。 这里骑行时间单位为ms,所以需要转化为min需要/1000/60。 单单从上面的图可以看到以炎热的夏季和凉爽的秋季为主调的二三季度的骑行时间要高于春冬为主调的一四季度,以此判断气温变化对人们使用的共享单车的影响。

    71131发布于 2019-10-09
  • 来自专栏全栈程序员必看

    并发-7-同步容器和ConcurrentHashMap

    同步容器是什么: JDK提供给了很多容器,其中有list,set,queue,map等。 这里我们挑出List单讲。 不安全的同步容器: public class SynchornizedVector { public static void main(String[] agrs){ Vector (i); } } } }.start(); } } 复制代码 工程中大量使用的同步容器 ConcurrentHashMap   众所周知,hashMap是根据散列值分段存储的,同步Map在同步的时候锁住了所有的段(粗粒度的锁)   而ConcurrentHashMap根据散列值锁定了散列值对应的段 ,提高了并发性能(细粒度的锁)   其数据结构如下:   根据图中的数据结构:   每次对key寻找到相应的位置需要两次定位:1.定位到Segment。

    41410发布于 2021-06-17
  • 来自专栏瓜农老梁

    Nacos7# Distro协议增量同步

    引言 本文接着撸Distro协议,上文中分析了在Nacos server启动时会进行全量数据同步数据校验,具体数据即客户端注册节点信息含命名空间、分组名称、服务名称、节点Instance信息等。 什么时候会触发增量同步?增量同步都干了些啥,下文接着撸撸增量数据同步。 一、内容提要 增量数据同步 在Nacos节点启动时通过事件驱动模式订阅了ClientChangedEvent、ClientDisconnectEvent和ClientVerifyFailedEvent事件 如果缓存中存在该client表示校验成功,同时更新保鲜时间;否则校验失败,回调返回失败Response,请求节点收到失败的Response后会发布ClientVerifyFailedEvent事件 二、增量数据同步 syncChangeTask); return true; default: return false; } } 向指定的集群节点同步更新数据

    1.4K31发布于 2021-07-14
  • 来自专栏mingmingcome’s cnblogs

    CentOS 7时间同步(NTP)

    begin 2020年7月5日10:55:03 NTP简介(What) 网络时间协议(英语:Network Time Protocol,缩写:NTP)是在数据网络潜伏时间可变的计算机系统之间通过分组交换进行时钟同步的一个网络协议 明明说:时间同步协议 NTP的作用(Why) NTP的作用是为了所有参与计算机的协调世界时(UTC)时间同步到几毫秒的误差内。 类似地,现在所有的计算机、手机都会跟时钟服务器同步,给我们提供更准确的时间。 手工发起同步: ntpdate ntp1.aliyun.com date查看时间是否已经同步 启动NTP服务: service ntpd start 设置开机启动: chkconfig ntpd on end 2020年7月5日11:33:50

    5.1K20发布于 2021-11-29
  • 来自专栏云原生生态圈

    MYSQL数据同步之基于GTID事务数据同步

    MYSQL基于GTID数据同步方式 同步原理 客户端发送DDL/DML给master上,master首先对此事务生成一个唯一的gtid,假如为uuid_xxx:1,然后立即执行该事务中的操作。 同步实现方式 实现单slave通过gtid数据同步 本文通过Docker以及mysql5.7 镜像进行基于GTID数据复制的同步实践。 -11ea-a7f5-0242ac110003:1-10 Executed_Gtid_Set: f0b1184d-f7d2-11ea-a7f5-0242ac110003:1-10 只有slave上具有了这部分基准数据,才能保证和master的数据一致性。 GTID从库数据同步 假如当前master的gtid为A3,已经purge掉的gtid为"1-->A1",备份到slave上的数据为1-A2部分。

    5.7K20发布于 2020-09-21
  • 来自专栏机器学习AI算法工程

    300万摩拜单车出行记录数据,预测骑行目的地

    本文300万摩拜单车出行记录数据获取和源码地址: 在公众号 datadw 里 回复 摩拜 即可获取。 摩拜单车在北京的单车投放量已经超过40万。 因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个用户的骑行目的地。 标注数据中包含300万条出行记录数据,覆盖超过30万用户和40万摩拜单车。 数据包括骑行起始时间和地点、车辆ID、车辆类型和用户ID等信息。参赛选手需要预测骑行目的地的区块位置。 ? 以下代码是knn算法,结合了leak。这里主要有两点创新。 def loc_2_dis(hotStartLocation,hotEndLocation): StartLocation = decode_exactly(hotStartLocation[:7] ) EndLocation = decode_exactly(hotEndLocation[:7]) latitude1 = StartLocation[0] longitude1

    1K40发布于 2018-03-15
  • 来自专栏大数据进阶

    flinkx数据同步

    本文会描述如下几部分的数据同步 mysql2mysql mysql2hive flinkx的版本1.12-SNAPSHOT 1.拉取代码 git clone https://github.com/DTStack true 注:这里需要提前运行sh install_jars.sh脚本 另在执行如下命令 mvn install:install-file -DgroupId=com.dm -DartifactId=Dm7JdbcDriver18 -Dversion=7.6.0.197 -Dpackaging=jar -Dfile=Dm7JdbcDriver18.jar 3.运行 注:这里要先删除掉lib目录下面的所有jar,不然会出现如下错误

    2.4K30发布于 2021-11-22
  • 来自专栏全栈程序员必看

    数据同步工具

    公司要搞数据平台,首当其冲的是把旧库的数据导入到新库中,原本各种数据库大部分都提供了导入导出的工具,但是数据存储到各个地方,mongdb,hbase,mysql,oracle等各种各样的不同数据库,同步起来头都大了 而且本来就是专门做ETL的,是Pentaho指定的ETL组件,对于数据清洗等处理数据的环节支持更好。但是数据效率一般,而且在生产环境也很少弄台windows机器,适合小项目,数据量比较小的同步。 实时同步 实时同步最灵活的还是用kafka做中间转发,当数据发生变化时,记录变化到kafka,需要同步数据的程序订阅消息即可,需要研发编码支持。 这里说个mysql数据库的同步组件,阿里的canal和otter canal https://github.com/alibaba/canal canal是基于mysql的binlog进行数据同步的中间件 非常适合mysql库之间的同步。 而且通过retl_buff表的监控,也可以实现一些全量数据同步。 但是otter也有一些不好的地方,比如界面上的参数并不是所有的都有用,文档写的一般,不是很清晰。

    3.5K20编辑于 2022-09-13
领券