首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿的学习笔记

    数据平台的那些事(2

    调度平台简述 数据平台中的地位 任务调度系统在数据平台中算是非常核心的组件了。 在日常的数据处理中,定时运行一些业务是很常见的事,比如定时从数据库将新增数据导入到数据平台,将数据平台处理后的数据导出到数据库或者是文件系统。 可以这么说,任务调度系统类似于军队的司令,指挥着数据平台上的各个组件的运行,时刻监督着任务的运行情况。 与资源调度系统的区别 在数据平台里,有着另一种调度系统,称为资源调度系统。 说它简单,是因为相对于数据平台的计算引擎、存储系统等分布式系统,它的复杂度很低;说它不简单,是因为一个优秀的任务调度系统不仅需要和数据平台的各种组件对接,甚至还需要引入权限控制、监控报警,质量分析等功能 ,比如大数据开发平台的离线数仓报表处理业务,从数据采集,清洗,到各个层级的报表的汇总运算,到最后数据导出到外部业务系统,一个完整的业务流程,可能涉及到成百上千个相互交叉依赖关联的作业 因此DAG工作流类调度系统在数据平台中使用的更加广泛

    81730发布于 2019-07-08
  • 来自专栏Spark学习技巧

    58数据平台架构演进-图

    3.4K20发布于 2018-06-22
  • 来自专栏Juicedata

    JuiceFS 在搜车数据平台的实践

    搜车已经搭建起比较完整的汽车产业互联网协同生态。 在这一生态中,不仅涵盖了搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司 , 与搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商,以及与中石油昆仑好客等产业链上下游的合作伙伴。 基于这样的生态布局,搜车数字化了汽车流通链条上的每个环节,进而为整个行业赋能。 说到大数据,对于每个公司都不陌生。 大数据集群现状 搜车目前大数据集群分为离线计算集群和实时计算集群,离线计算基于 Hive 和 Spark,实时计算基于 Flink,这两类集群分别基于 HDP 和 CDH 两套管理方式。

    2.2K50编辑于 2021-12-10
  • 来自专栏大数据成神之路

    数据调度平台分类对比(OozieAzkabanAirFlowXXL-JobDolphinScheduler)

    数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。 XXL-Job XXL-JOB是一个开源的,具有丰富的任务管理功能以及高性能,高可用等特点的轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。 DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,根据Apache基金会邮件列表显示,在包含11个约束性投票(binding votes)和2个无约束性投票 Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 类型支持 支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process

    12.8K20编辑于 2022-04-13
  • 来自专栏hadoop学习笔记

    快DKH大数据基础数据平台的监控参数说明

    2018年国内大数据公司50强榜单排名已经公布了出来,快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。 本篇承接上一篇《DKM平台监控参数说明》,继续就快的大数据一体化处理架构中的平台监控参数进行介绍和说明。 DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。 今天就把剩下的一些监控参数一起介绍完,关于快大数据处理平台监控参数的介绍就完整了。 1、Yarn监控界面 (1) 执行失败的应用程序 图片1.png 监控 yarn资源管理中总执行失败的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 (2)已提交的应用程序 图片 2.png 监控 yarn资源管理中已提交的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 (3)正在运行的应用程序 图片3.png 监控 yarn资源管理中正在运行的应用程序数量

    1.5K20发布于 2018-08-15
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 2 (vue-cli)

    但是我个人不推荐现在就去研究那么多用不到的,因为你如果还没接触过vue那么大概率也看不懂这些配置是什么意思,提前看只是浪费时间而已,当你看了好几天也一知半解的时候,别的小伙伴已经把平台做完了,这些配置甚至早都自悟出来了 (2个网址一个意思) http://localhost:8080/ 看到下面这个页面 即代表vue前端项目 单独启动成功。 之后我们就在这个项目内单独进行前端开发,需要的一切数据都可以利用http请求后台服务来获取。 好了,本节课任务结束。下节课,对两个项目进行初始化设置和解决跨域问题!

    59140编辑于 2022-05-20
  • 来自专栏数据科学与人工智能

    美国大数据智能理财平台的5模式

    不过,世易时移,近年来美国出现了智能投资市场,涌现出很多基于大数据分析的智能理财平台,大大降低了财富管理的门槛,让原先处于“服务真空区”的中产阶级也能享受同等的财富管理服务。 ? 智能理财平台为什么会成功? 现在看来,有两因素促成了这些智能理财平台的成功。 首先,ETF基金的出现大大降低了投资成本。 第1种:基于大数据分析给出投资建议 这种类型的平台根据客户在其他理财交易平台的行为数据,全面了解客户的财务状况和投资现状,帮助客户对过去的投资决策做出回顾。 第2种:基于大数据分析购买投资组合 这种类型的平台基于客户的财务状况和风险承受能力,为客户推荐或购买相应的交易型指数基金。 ETF成为这类型平台的首选基金,因为它的周转率低,降低了交易成本。 在美国,此类型的代表公司有Covestor、 Currensee、Collective2等。

    2.3K60发布于 2018-02-28
  • 来自专栏CSDN技术头条

    勿谈,且看Bloomberg的中数据处理平台

    时至今日,高核心数、SSD以及海量内存已并不稀奇,但是当下的大数据平台(通过搭建商用服务器集群)却并不能完全利用这些硬件的优势,存在的挑战也不可谓不大。 这是一个巨大的飞跃,系统速度提升了2到3个数量级,然而这并不是我们想要的——跨多数据库压缩blobs分割是非常麻烦的。 通过使用开源平台,我们认真思索来自多个提供商的意见,在中型数据处理上,我们可以看到很大的发展空间。 更重要的是,我们的收获不只是性能一个特性,我们更可以通过开源技术连接到一个更广泛的发展空间。 性能2:同址计算 即使故障得以解决,在原始性能和一致性上仍然存在问题,这里我们将详述性能上的3个实验和结果。 使用HBase,用户可以在的Portfolio文件上做拆分,并且分配到集群中的多个主机上进行处理。

    3.9K60发布于 2018-02-08
  • 来自专栏PingCAP的专栏

    中通大数据平台促中的进化

    整个快递的生命周期、转运周期可以用五个字来概括——收、发、到、派、签: [在这里插入图片描述] 而支撑整个快递生命周期的平台就是中通大数据平台。 中通从离线到实时的数据兼容再到数仓,有着一套比较完善的大数据平台体系。 ETL 建模也会依托该大数据平台,最终通过大数据平台对外提供数据应用的支持以及基于离线 OLAP 分析的支持,整个数据建模的频率可以支持到半小时级别。 在这个完善的大数据平台基础上,中通开始更多地思考如何增强实时多维分析能力。 [在这里插入图片描述] 中通与 TiDB 的结缘是在 2017 年调研分库分表场景时开始的。 整个运行的周期中,3.0 是 5 - 15 分钟,基于 5.0 的 TiFlash 已经做到 1-2 分钟,整个 TiKV 的负载降低是比较明显的。

    6.3K40发布于 2021-11-24
  • 来自专栏大数据文摘

    5架构:细数数据平台的组成与扩展

    数据处理平台已不集中于传统关系型数据库,各种其他平台层出不穷,也各有其适用范围。 从哪些角度去理解各种数据处理平台的设计思想及发展演进呢? 2数据读取 一下子读取整个文件,也是很耗费时间的事情,例如数据库中的全表扫描。当我们读取文件中某一个字段时候,我们需要索引。 这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一,索引也增大,数据就饱和了。 2)第二种方式是把的索引结构,拆成很多小的索引来存储。 列式存储尤其适用于表扫描,求均值、最大最小值、分组等聚合查询场景。 列式存储特别适合需要加载数据块,且数据块分到多个文件中的场景。Druid把一些近线实时数据放到写优化的存储中,然后随着时间的推移逐步把这些数据迁移到读优化的存储中。

    1.9K80发布于 2018-05-22
  • 来自专栏全栈程序员必看

    主流大数据采集平台架构分析

    今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台数据采集 任何完整的大数据平台,一般包括以下的几个过程 2、Fluentd 官网:http://docs.fluentd.org/articles/quickstart Fluentd是另一个开源的数据收集框架。 在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。 Splunk是一个分布式的机器数据平台,主要有三个角色: Search Head负责数据的搜索和处理,提供搜索时的信息抽取。 总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

    6K20编辑于 2022-06-28
  • 来自专栏PawSQL,在线的自动化SQL优化工具!

    PawSQL数据库性能巡检平台2) - 数据库对象巡检

    数据库巡检是确保数据库健康运行的关键环节。今天,我们来深入了解PawSQL数据库性能巡检平台的对象巡检功能,助您构建更稳健的数据库运维体系。 ️ 巡检规则管理:定制你的数据库健康检查 1. 规则体系概览 PawSQL为你准备了一套全面的默认规则,涵盖5类别,共47项审查规则,包括: 表级规则 列集规则 字符集/排序规则 约束规则 索引规则 2. 管理员模板:定制数据库类型的默认审查规则模板。 2. 用户级模板 非管理员用户也能创建个性化模板,灵活应用巡检规则。 对象巡检任务管理:掌控你的巡检节奏 1. 巡检结果分析:深入洞察数据库状态 1. 结果展示层次 列表视图:展示基本信息,异常,索引数量,最后巡检时间。 详细信息视图:提供完整结果详情,违规项,优化建议。 2. 结语 PawSQL平台数据库对象巡检功能,为你提供了一套全面的规则管理、模板配置、任务执行和结果分析工具。通过这些系统化的巡检机制,你可以及时发现并优化数据库中的潜在问题。

    34310编辑于 2024-10-29
  • 5步骤打造基于YashanDB数据库的数据平台

    构建基于 YashanDB 数据库的数据平台是一个复杂的过程,涉及多个步骤。以下是五步骤,可以帮助你构建一个有效的数据平台:第一步:需求分析与规划1. 明确目标:确定数据湖的主要用途,例如数据分析、机器学习或实时处理等。2. 数据来源:识别需要集成的各种数据来源,包括结构化、半结构化和非结构化数据。3. 数据采集:设置数据采集管道,确保能够有效地从不同来源获取数据,包括批量和实时数据2. 格式转换:在数据进入数据湖之前,进行必要的数据格式转换,保证数据的一致性。3. 数据分析:利用分析工具与 YashanDB 进行数据查询和分析,生成业务洞察报告。2. 可视化工具:选择适合的数据可视化工具,将数据以易于理解的方式展示给业务用户。3. 持续优化:根据用户反馈和数据使用情况,不断优化数据湖的结构和性能,迭代改进流程。这五步骤为构建基于 YashanDB 的数据平台提供了一个系统化的框架。

    11810编辑于 2025-11-14
  • 来自专栏数据结构与算法

    1675 质数 2

    1675 质数 2 时间限制: 1 s 空间限制: 1000 KB 题目等级 : 钻石 Diamond 题目描述 Description 小明因为没做作业而被数学老师罚站,之后数学老师要他回家把第 167 173 179 181 191 193 197 199 211 223 227 229          //(不含n=233) 数据范围及提示 =0) 15 { 16 if(b%2! =0) 31 { 32 if(b%2! 45 if(n<2&&(n%2==0)) 46 { 47 return 0; 48 } 49 for(ll i=0;i<11;i++) 50 {

    60560发布于 2018-04-13
  • 来自专栏hadoop学习

    深度解析快DKM大数据运维管理平台功能

    深度解析快DKM大数据运维管理平台功能 之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享,有一些朋友留言索要了dkhadoop安装包,不知道有没有去下载安装一探究竟。 关于DKHadoop下载安装基本已经讲清楚了,这几天有点空闲把快DKM大数据运维管理平台的内容整理了一些,作为DKHadoop相配套的管理平台,是有必要对DKM有所了解的。 DKM 是DKHadoop管理平台。作为大数据平台端到端Apache Hadoop 的管理应用,DKM 对 DKH 的每个部件都提供了细粒度的可视化和控制。 .包含全面的报告和诊断工具,帮助优化性能和利用率; 基本功能:DKM的基本功能主要可以分为四模块:管理功能,监控功能,诊断功能和集成功能。 2、集群配置 (1)可视化参数配置界面 Hadoop 包含许多的组件,不同的组件都包含各种各样的配置, 并且分布于不同的主机之上。

    1.6K50发布于 2018-11-02
  • 来自专栏vivo互联网技术

    从0到1设计通用数据屏搭建平台

    相比于传统手工定制的图表与数据仪表盘,通用屏搭建平台的出现,可以解决定制开发, 数据分散带来的应用开发、数据维护成本高等问题,通过数据采集、清洗、分析到直观实时的数据可视化展现,能够多方位、多角度、全景展现各项指标 本文将通过敏捷BI平台的通用屏搭建能力的实现方案,来讲解一下通用可视化搭建平台整体的设计思路。 画布编辑器:是搭建平台的核心与难点,支持页面布局配置、页面交互配置和组件数据配置等功能,另外还支持代码片段的配置,也可以称得上是一个低代码平台。 五、效果预览六、总结本文通过可视化页面搭建、no/low code 平台、Schema 动态表单等技术思想来分析讲解了如何去设计开发一个通用的数据屏搭建平台。 如果想实现更富有展现力, 满足更多场景的屏搭建平台, 我们还需要进一步提高平台的扩展性和完善整体的物料生态, 具体规划如下:丰富和拓展屏组件&配置能力,覆盖不同行业的可视化场景。

    4.2K40编辑于 2022-10-17
  • 来自专栏携程技术

    干货 | StarRocks在携程住宿智能数据平台的应用

    作者简介 Wenjun,携程资深软件工程师,负责住宿数据智能平台的研发与维护,对于大数据领域技术有浓厚兴趣。 一、平台现状 住宿数据智能平台(简称HData)是一个为携程住宿业务提供数据可视化的平台。 在住宿内部,每个部门关心的指标侧重点不同,权限控制不一样,所以数据展示的方式也是多样化。 HData每天有将近2200左右的UV,10w左右的PV访问,而节假日期间的访问量基本会翻2到3倍。 让权限的用户通过Clickhouse请求数据,这样可以引流很大一部分用户。 离线T+1数据主要使用Zeus平台,通过Stream load的方式导入,以使用明细模型为主。

    2K20发布于 2021-11-02
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯数据平台部总监刘煜宏:这5产品平台,展示了腾讯大数据的核心能力

    腾讯技术工程事业群数据平台部刘煜宏受邀参加“腾讯慧聚”品牌的发布仪式,并向在场嘉宾介绍了“腾讯慧聚”的5产品平台。 ? 十年磨一剑,砺得梅花香。 据刘煜宏介绍,腾讯慧聚当前共包括五平台:Dmaster(大数据一站式平台)、Tbase(海量事务处理平台)、TDbank(实时接入平台)、Hermes(实时多维分析平台)、TDinsight(机器学习基础平台 这五平台除了Dmaster是一个一站式、覆盖全流程的平台外,其他四个平台各有侧重。这也是腾讯根据多年服务不同类型客户的经验,所挖掘出的不同需求。 作为实时接入平台,TDbank具有的“高灵活、高可用、高吞吐、低延时”的核心优势,可以从业务数据源获取数据分发给离线/在线处理平台,构建数据源和数据处理系统间的桥梁,将数据处理系统同业务侧的数据源解耦。 实时多维分析平台Hermes,是腾讯针对交互式海量数据分析需求自主研发的数据多维分析平台,是腾讯处理千亿级海量数据用户画像和多维分析的核心技术与经验的积累。

    5K90发布于 2018-01-30
  • 来自专栏全栈程序员必看

    移动开发平台

    Putdb WebBuilder 图片   WebBuilder是一款开源的可视化移动Web应用开发和运行平台。 基于浏览器的集成开发环境,可视化和智能化的设计,能轻松完成常规应用和面向手机的移动应用开发;高效、稳定和可扩展的特点,适合复杂企业级应用的运行;跨平台数据库和浏览器的架构,适应复杂的服务器和客户端环境 ;包括智能数据库访问在内的多项先进技术,使应用系统的开发更快捷和简单。    官网:http://www.putdb.com  2. Titanium Mobile 图片   这是一个强大的,健壮的移动Web开发框架。 它还支持离线,所以你的用户可以在没有连接网络的情况下继续操作(当下次有连线的时候,再将数据同步到服务器中)。提供优秀的文档(这个项目拥有一个引导新用户入门的开发指南).   

    4.8K30编辑于 2022-09-03
  • 来自专栏BestSDK

    10云存储平台技巧

    数据迁移至云中时,选择一个适合组织需求的策略很重要。随着数据迁移至云存储平台,有一些因素需要考虑,如你是否迁移了归档数据,他们具有不同的宕机需求。 IoT最佳存储系统   由于对象存储的无限扩展架构和持久的性质,它非常适合处理通过IoT文件积累的PB级的非结构化数据。对于云的主要选择,对象存储可以用于私有、公有和混合云平台。 通过在每个文件中提供广泛的元数据,对象存储可以筛选大量非结构化数据,却不会让你感到苦恼。   公有与私有云各自优缺点   当选择云存储平台时,你可能在公有云与私有云之间难以选择。 通过将被动数据迁移到较低的存储层,混合云平台可以清理急需的存储空间,否则可能会被很少访问的数据浪费。 在灾难发生后保护,并确保重要数据可用并不是一件小事,但是使用云存储平台可使提供商做更多的工作。

    2.7K60发布于 2018-03-02
领券