首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据开发

    数据平台搭建:基于Hadoop的数据分析平台

    15.jpg 企业要进行大规模的数据分析,基于开源的Hadoop及其生态圈来搭建起大数据系统平台,无疑是一种低成本高效率的选择。 Hadoop系统的可伸缩性、健壮性、计算性能以及低成本,使得它事实上已成为当前互联网企业主流的大数据分析平台解决方案。 基于Hadoop,可以根据企业实际的业务需求,来进行数据系统的规划和设计。 针对不同的具体需求,采用不同的数据分析架构和框架组件来解决实际问题。 大数据分析平台需求规划 按照数据分析的时效性需求,大数据分析可分为实时数据分析和离线数据分析两种。 对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,可采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。 9.jpg 关于大数据平台搭建,基于Hadoop的数据分析平台,以上就是今天的分享内容了。

    2.4K1410发布于 2020-10-10
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——320会话分析Hadoop离线数据分析平台实战——320会话分析

    Hadoop离线数据分析平台实战——320会话分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 会话分析主要同时计算会话个数和会话长度, 主要应用在用户基本信息分析模块和浏览器信息分析模块这两部分 (注意:处理的数据为所有事件产生的数据) 最终数据保存:stats_user和stats_device_browser。

    1.2K70发布于 2018-04-08
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——410事件分析Hadoop离线数据分析平台实战——410事件分析

    Hadoop离线数据分析平台实战——410事件分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 事件分析我们主要只是分析事件的触发次数, 通过查看事件的触发次数我们可以得到事件转换率或者用户会此类事件的兴趣所在之处以及不喜之处 最终数据保存:stats_event。涉及到所有列。 涉及到其他表有dimension_platform、dimension_date、dimension_event。

    1.3K80发布于 2018-04-08
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——420订单分析Hadoop离线数据分析平台实战——420订单分析

    Hadoop离线数据分析平台实战——420订单分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 完成 浏览器信息分析(MR) 完成 地域信息分析(MR) 完成 外链信息分析(MR) 完成 用户浏览深度分析(Hive) 完成 订单分析(Hive) 未完成 事件分析(Hive) 完成 模块介绍 订单分析分别分析订单的数量和订单的金额, 以及将订单分为总订单、 支付成功订单以及退款订单三种类型的数据 , 通过这六个分析指标的数据我们可以指定网站的订单情况。 也就是说分别统计订单数量和订单金额,而不是使用一张hive表同时保存多个指标的数据, 而是采用多个表分别保存不同指标的数据或者采用一张表非同时的保存多个指标的数据。 实现自定义udf&自定义函数创建 b. hive+sqoop脚本 成功支付订单数量&金额&总金额的hive&sqoop分析 a. 订单数据保存mysql b.

    1.4K60发布于 2018-04-08
  • 数据平台技术深度分析

    数据时代,企业对于数据的处理、存储和分析需求日益增长。本文将对当前主流的大数据平台数据中台及数据治理技术进行深入分析和对比,以帮助企业做出更合适的技术选型。 腾讯云大数据套件 大数据组件 腾讯云大数据套件提供了全面的Hadoop平台组件,包括HDFS、Spark、Hive等,支持大规模数据的处理和分析。 多租户 腾讯云大数据套件支持多租户环境,确保数据隔离和安全。 管控平台 提供了统一的管控平台,简化了大数据的部署和管理。 大数据部署 腾讯云支持一键部署大数据环境,简化了部署流程。 大数据平台数据组件 大数据平台通常包括Hadoop、Spark等组件,用于处理和分析大规模数据集。 其他功能点 大数据平台提供了数据存储、计算、分析和可视化的全栈服务。 它不仅涵盖了数据处理和分析的各个环节,还通过多租户和集群联邦能力,确保了数据的安全性和资源的高效利用。

    27010编辑于 2025-07-28
  • 数据平台技术深度分析

    这些技术不仅推动了数据处理的效率和灵活性,还为企业提供了强大的数据治理和分析能力。 腾讯云大数据套件 功能亮点 腾讯云大数据套件提供了一站式的大数据解决方案,支持多种数据处理和分析任务。 TBDS(Tencent Big Data Suite) 功能亮点 TBDS作为腾讯云的大数据平台,提供了包括数据集成、开发、治理、分析和可视化在内的全链路数据管理能力。 管控平台:提供统一的管理和监控界面。 大数据部署:支持一键部署和自动化运维。 大数据运维:集成了日志分析和性能监控工具。 集群联邦能力:实现了资源的统一管理和调度。 大数据平台 功能亮点 大数据平台通常指提供数据存储、处理和分析能力的软件和服务集合,它们能够处理大规模数据集。 数据中台 数据中台是指集中化的数据管理和服务能力,它能够提供数据集成、治理、分析和共享的平台

    22810编辑于 2025-07-28
  • 来自专栏北京马哥教育

    搭建python数据分析平台

    它相当于打包了python的基本环境和常用的包,甚至还包括包管理器,有了Anaconda,在所有平台上都可以很方便地使用python了。 安装非常简单,直接从官网下载安装程序运行即可。

    1.6K60发布于 2018-05-02
  • 数据平台技术深度分析

    数据技术栈是现代企业数据管理和分析的核心,包括HDFS、Spark、Hive、Iceberg、Flink、Hbase等组件,以及多租户管理、管控平台、大数据部署和运维、集群联邦能力等。 这些技术共同构建了企业的数据处理和分析能力,支持着数据中台和数据治理的有效实施。本文将对腾讯云大数据套件、TBDS、Tencent Big Data Suite等产品进行介绍和对比。 Tencent Big Data Suite 功能亮点 Tencent Big Data Suite提供了全面的大数据解决方案,包括数据开发、治理和分析。 总结 大数据技术的发展为企业提供了强大的数据处理和分析能力。 随着技术的不断进步,这些大数据组件和平台将继续演进,为企业的数据驱动决策提供更强大的支持。

    42610编辑于 2025-07-28
  • 数据平台技术深度分析

    在当今的数字化时代,大数据平台成为了企业处理和分析海量数据的核心工具。 TBDS(腾讯大数据套件) 功能亮点 TBDS作为腾讯云的大数据解决方案,提供了从数据采集到分析的全流程服务。其特色在于数据中台的构建和数据治理。 技术实现 该平台利用HDFS、Spark、Hive等组件构建,通过管控平台实现大数据的部署和运维管理。 其他功能 集成Iceberg和Flink,优化数据处理和分析性能。 大数据平台 功能亮点 大数据平台通常指提供数据存储、处理和分析服务的技术栈,如Hadoop平台。 技术实现 大数据平台的核心组件包括HDFS、Spark、Hive等,支持多租户架构和集群联邦。 腾讯云大数据套件、TBDS和Tencent Big Data Suite等产品通过集成这些组件,提供了全面的大数据处理和分析能力。

    25910编辑于 2025-07-28
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——330会话分析Hourly分析Hadoop离线数据分析平台实战——330会话分析Hourly分析

    Hadoop离线数据分析平台实战——330会话分析Hourly分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析 (MR) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 Hourly分析指的是按照小时分析数据, 在本次项目中,只分析活跃用户、 会话个数以及会话长度这三个指标的数据。 我们通过修改现有的job来达到完成hourly分析数据统计的目标。 分别通过在active user和sessions这两个job中添加数据可以达到我们的分析要求。 最终数据保存:stats_hourly表中,每个小时的数据保存到对应列中。 涉及到其他表有dimension_platform、dimension_date、dimension_kpi。

    1.2K100发布于 2018-04-08
  • 来自专栏大数据开发

    数据分析:基于Hadoop的数据分析平台

    数据时代的带来,一个明显的变化就是全样本数据分析,面对TB/PB级及以上的数据规模,Hadoop始终占据优势。今天的大数据学习分享,我们来聊聊基于Hadoop的数据分析平台。 Hadoop系统的可伸缩性、健壮性、计算性能以及低成本,使得它事实上已成为当前互联网企业主流的大数据分析平台。 基于Hadoop平台,可以根据实际的业务需求,来进行数据系统的规划和设计。 针对不同的具体需求,采用不同的数据分析架构来解决实际问题。 按照数据分析的实时性,分为实时数据分析和离线数据分析两种。 对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。 这里的内存级别指的是数据量不超过集群的内存最大值,通常可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。在这方面,MongoDB的应用很普遍。

    2.4K20发布于 2021-06-21
  • 来自专栏斑斓

    剖析大数据平台数据分析

    无论是采集数据,还是存储数据,都不是大数据平台的最终目标。失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已。 场景1:某厂商的舆情分析 我们在为某厂商实施舆情分析时,根据客户需求,与数据处理有关的部分就包括:语义分析、全文本搜索与统计分析。 场景2:Airbnb的大数据平台 Airbnb的大数据平台也根据业务场景提供了多种处理方式,整个平台的架构如下图所示: ? Spark集群则为Airbnb的工程师与数据科学家提供机器学习与流处理的平台。 大数据平台的整体结构 行文至此,整个大数据平台系列的讲解就快结束了。 从左到右,经历数据源、数据采集、数据存储和数据处理四个相对完整的阶段,可供大数据平台的整体参考。

    1.5K60发布于 2018-03-07
  • 来自专栏数据科学(冷冻工厂)

    ATAC-seq分析数据质控(6

    由于这可能会占用大量内存,因此我只是在一个 BAM 文件中对其进行说明,该文件仅包含 ATACseq 数据的 17 号染色体读数。

    81430编辑于 2023-01-27
  • 来自专栏数据科学(冷冻工厂)

    ATAC-seq分析数据质控(6

    由于这可能会占用大量内存,因此我只是在一个 BAM 文件中对其进行说明,该文件仅包含 ATACseq 数据的 17 号染色体读数。

    55820编辑于 2023-02-27
  • 来自专栏码农知识点

    zookeeper源码分析(6)-数据和存储

    在Zookeeper中,数据存储分为两部分:内存数据存储和磁盘数据存储。本文主要分析服务器启动时内存数据库的初始化过程和主从服务器数据同步的过程。在此之前介绍一些数据存储涉及的基本类。 preAllocSize,默认为64MB,并将未写入部分填充0,好处是避免开辟新的磁盘块,减少磁盘Seek 3.事务序列化 分别对事物头(TxnHeader)和事务体(Record)序列化,参考zookeeper源码分析 服务器启动期间的数据初始化 就是磁盘中最新快照文件(全量数据)和它之后的事务日志数据(增量数据)的反序列化到内存数据库中的过程,流程图为: ? 5.应用事务 在循环过程中处理事务日志processTransaction,也就是根据事务日志类型不断的更新sessions 和DataTree中的数据内容 6.回调事务 回调listener.onTxnLoaded 由zookeeper源码分析(4)-选举流程和服务器启动处理可知,当LearnerHandler接收到Learner服务器的ACKEPOCH消息后会开始进行主从同步 Leader数据同步发送过程 LearnerHandler.run

    2.1K10发布于 2020-06-22
  • 来自专栏可以叫我才哥

    数据分析原理:6步解决业务分析难题

    读书交流│7期 数据分析原理 6步解决业务分析难题 data analysis ●●●● 分享人:夏宇 大家好,这里是小飞象·数据领地·读书会第7期完结直播总结分享,本次直播的目的有两个,一是我们第 ▶如何写出优秀的数据分析报告等~~ ······· 所以本期,小飞象·数据领地·读书会的直播总结,就来跟大家一起来品读《数据分析原理》:6步解决业务分析难题,系统地介绍了数据如何始于业务、取于业务、 —▼— 本书一共分为6个章节,算是深入浅出,相对体系化的介绍了数据分析全过程:从数据指标体系到分析目标拆解,再从数据获取与预处理到六大业务分析模块案例介绍,最后是分析结论的组织与验证并告诉我们如何对分析结论进行展示与汇报 不同来源的数据获取方式会有明显的差异,内部数据需要进行数据埋点与采集,基于使用的数据平台的能力选择相应的数据提取方式;外部数据则一般可以花钱购买、资源置换或者进行数据爬取(严格遵守法律法规)。 再比如,一些公司可能有相对健壮的数据应用平台,但是平台的报表看板是比较固化的那种,业务人员可以在上面完成大部分数据的直接导出。

    89311编辑于 2023-08-28
  • 来自专栏数据分析专栏

    6条建议,帮你选择正确的BI分析平台

    2、BI分析平台的易用性 传统BI的专业性较高,使用难度较大,在过去的几年常常搁置BI,如今选择BI平台需考虑易用性和上手是否简单,总体来看需要考察: 整个BI分析的工作流能否在自有平台中无缝执行? 平台是否提供各类数据源的连接(比如关系型数据库、多维分析数据库、云数据库) 随着时间的推移,平台是否能够通过扩展来容纳不断增加的数据量以及更多的用户? BI平台管理员是否能轻松安装、配置和管理该平台数据分析人员是否能较为方便地准备数据和整理数据源? 信息使用者是否可以轻松查找、查看可用的分析内容并与之交互? 协作方面,能否通过微信、钉钉等办公社交工具进行分析的讨论(注释、评论等) 流程上是否有权限设置,审批流程? 6、管控 在选择BI分析平台时务必考虑灵活性,以便满足业务部门的不同需求。 但同样重要的是,必须评估平台在“数据管控”和“分析管控”这两个不同但彼此相关的领域中的各种不同功能,以确保日后扩展或者管控模型有所改变时能根据需求灵活地调整。

    90130发布于 2019-12-26
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——300活跃会员分析Hadoop离线数据分析平台实战——300活跃会员分析

    Hadoop离线数据分析平台实战——300活跃会员分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR ) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 活跃会员的统计和活跃用户统计类似, 区别只是在于从不同的角度来进行分析访问网站的用户数量 计算规则 活跃会员(active_member)计算规则: 计算当天(确定时间维度信息)的pageview事件的数据中memberid的去重个数。 (这里只所以选择pageview事件,是可能会存在一种可能: 某个会员在当天没有进行任何操作,但是他订单支付成功的操作在今天在被触发, 这样在所有数据中就会出现一个java_server平台产生的订单支付成功事件 最终数据保存: stats_user和stats_device_browser。 涉及到的列(除了维度列和created列外):active_members。

    1.2K70发布于 2018-04-08
  • 来自专栏Albert陈凯

    Hadoop离线数据分析平台实战——290活跃用户分析Hadoop离线数据分析平台实战——290活跃用户分析

    Hadoop离线数据分析平台实战——290活跃用户分析 项目进度 模块名称 完成情况 用户基本信息分析(MR)� 未完成 浏览器信息分析(MR) 未完成 地域信息分析(MR) 未完成 外链信息分析(MR ) 未完成 用户浏览深度分析(Hive) 未完成 订单分析(Hive) 未完成 事件分析(Hive) 未完成 模块介绍 和分析新增用户一样,活跃用户也需要在用户基本信息分析模块和浏览器分析模块中展示, 计算规则 active_user计算规则:当天所有数据中,uuid的去重个数。 最终数据保存: stats_user和stats_device_browser。

    1.1K140发布于 2018-04-08
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 6 (首页部分)

    答:需要一个数据列表,需要一个元素dom,然后循环这个数据列表来循环生成多个元素dom 来展示出来。 实现 构造一个数据列表 构造展示的元素dom并循环: 启动本地调试:npm run serve 然后打开浏览器,进入8080端口的本地地址,看看效果: 大家注意到,已经成功展示了 接下来,我们要升级难度,把这个普通的数据列表,改成字典元素列表,这样的好处是,每个工具都可以包含名称在内的多个属性,比如构造时间等。 data属性内修改如下: 然后dom层修改为: 效果如下: 大家先不用考虑这些数据从哪里来,这些数据我们后面都是要从接口的方式去django后台服务上拿到,而后台是去数据库中提取的。

    53020编辑于 2022-05-20
领券