首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏hadoop学习笔记

    快DKH大数据基础数据平台的监控参数说明

    2018年国内大数据公司50强榜单排名已经公布了出来,快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。 本篇承接上一篇《DKM平台监控参数说明》,继续就快的大数据一体化处理架构中的平台监控参数进行介绍和说明。 DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。 今天就把剩下的一些监控参数一起介绍完,关于快大数据处理平台监控参数的介绍就完整了。 kill的应用程序 图片6.png 监控 yarn资源管理中被杀死的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 2、Spark监控界面 注意:(spark 运行任务后才有监控数据

    1.5K20发布于 2018-08-15
  • 来自专栏大数据开发

    数据平台搭建:大数据基础架构选型

    数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。 3.jpg 在企业数据团队当中,数据平台基础架构选型,通常由资深的开发工程师或者架构师来完成。这就要求相关人员,结合具体场景和需求,综合考虑成本、投入等因素,选择合适的技术架构。 这类数据架构,所能满足的数据分析需求依旧以BI场景为主。 流式架构 在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。 4.jpg 关于大数据平台搭建:大数据基础架构选型,以上就是今天的分享内容了。 大数据继续发展,企业对于数据平台搭建的需求,将越来越普遍,不管是基于原有的系统平台进行改造,还是搭建全新的平台架构,都需要更多专业人才的支持。

    1.6K31发布于 2020-10-21
  • 来自专栏DataFunTalk

    蒋鸿翔:网易数据基础平台建设

    今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年的大数据建设经验。 NTSDB特点有聚合运算相关算法,时序数据库相对于关系型数据库没有特别复杂的查询,最常见的使用类型是宽表使用,在此基础上做一些聚合算法、插值查询。 --02 大数据技术图片我们大数据平台整合了一些开源社区的一些组件,内部进行一些产品化的改造和bug修复。最顶层是大数据接入层,作为大数据平台,业务平台很多数据来源于数据库,也有很大一部分来源于日志。 行为数据是在离线平台上,用户数据是实时在数据库中,如快递行业经常需要追踪快递的位置,离线平台就要经常做自助分析,需要将数据库中的状态实时同步到离线平台上去。 Runtime Filter主要是用在表和小表做关联时使用,在关联时做成hash表,绑定到所有表节点上去,在表扫数据时利用hash表做过滤,因此在底层扫描就已经过滤掉很多数据,就可以省略很多不必要的计算

    95840编辑于 2022-06-14
  • 来自专栏Spark学习技巧

    58数据平台架构演进-图

    3.4K20发布于 2018-06-22
  • 来自专栏Juicedata

    JuiceFS 在搜车数据平台的实践

    搜车已经搭建起比较完整的汽车产业互联网协同生态。 在这一生态中,不仅涵盖了搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司 , 与搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商,以及与中石油昆仑好客等产业链上下游的合作伙伴。 基于这样的生态布局,搜车数字化了汽车流通链条上的每个环节,进而为整个行业赋能。 说到大数据,对于每个公司都不陌生。 大数据集群现状 搜车目前大数据集群分为离线计算集群和实时计算集群,离线计算基于 Hive 和 Spark,实时计算基于 Flink,这两类集群分别基于 HDP 和 CDH 两套管理方式。

    2.2K50编辑于 2021-12-10
  • 来自专栏Lansonli技术博客

    2021年数据基础(一):大数据概念

    数据概念 最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数据,成了整个社会的热点,大数据究竟是什么东西?有哪些相关技术? 在讲什么是大数据之前,我们首先需要厘清数据的基本概念。 数据 数据是可以获取和存储的信息,直观而言,表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。 数据分析的前提是有数据数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。 传统的数据存储模式存储容量是有大小限制或者空间局限限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。 这个时候就需要有新的技术去解决这些问题,这个技术就是大数据。 大数据主要解决的问题: 海量数据的存储和海量数据的计算问题

    87421发布于 2021-10-11
  • 来自专栏微生态与微进化

    基础公共数据库介绍

    本期推文将介绍三综合类公共数据库NCBI、EMBL和IMG。 NR其实是一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NR中的记录都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来),对于很多序列还给出了在专门蛋白数据库中的序列号。 这些测序平台可以同时对大量的短片段进行测序,由于其结果数据的复杂性以及高通量性,使原有的数据库难以有效存储和管理新的测序结果,而大部分小型实验室自身也不具备管理这些复杂数据的能力。 三数据库的数据而成,目前包含UniProtKB(有Swiss-Prot和TrEMBL两个库)UniRef、UniParc等几个部分。 三核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中,同时收录来自PDB数据库以及Ensembl、Refeq和CCDS基因预测的序列。

    8.3K20编辑于 2022-05-05
  • 来自专栏hadoop学习笔记

    DKhadoop大数据平台基础框架方案概述

    数据平台基础框架是很多初学者必然要掌握的内容,大数据太过抽象,有时候写分享的时候难免感觉写的很多困难。还是通过具体的案例来写会比较好理解。 关于大数据平台基础框架我还是用自己熟悉的DKhadoop为例。 在此之前还是对DKhadoop做一个简单的说明:DKhadoop快大数据平台,由快开发的为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级大数据通用计算平台。 既然有如此的优势,那么样的大数据平台基础框架又是如何的呢? (数据中间件是快DKH数据交换层的核心) 3、DKH在原生态的基础上开发,并且保持了开源系统的全部优点,与开源系统100%兼容。

    63400发布于 2018-10-31
  • 来自专栏大数据成神之路

    数据调度平台分类对比(OozieAzkabanAirFlowXXL-JobDolphinScheduler)

    数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。 XXL-Job XXL-JOB是一个开源的,具有丰富的任务管理功能以及高性能,高可用等特点的轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。 Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 类型支持 支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process 可以通过对用户进行资源、项目、数据源的访问授权。支持,可视化管理文件,及相关udf函数等。

    12.7K20编辑于 2022-04-13
  • 来自专栏IT知识进阶学习

    JAVA自学-8基础数据类型详解

    博主介绍: CSDN、头条、知乎等平台优质博主,全网粉丝2w+ ----   上一篇文章我们讲到,学习一门新语言最好的方式就是通过类比思想,这样我们能够以最低的代价由浅入深地去学习、掌握一门新的语言 本篇文章中,我们也将依据此思想,去更加深入地认识JAVA中最基础的八数据类型,看看它们在JAVA世界中都存在哪些用途。 当我们将低精度的数据类型赋值给高精度的数据类型时,系统会自动完成数据类型的转换(类比思想:将小容量的物体存放到容量的容器中,当然是没有问题的),如:   但如果需要将高精度的类型转换成低精度的类型, 那么就会出现精度的丢失,所以必须显示指定类型转换,格式如下:(需要转换的类型)要转换的值 小结 ----   本篇文章通过类比的方式介绍了JAVA中自带的8基础数据类型的特点和使用场景,这8基础类型将伴随着我们整个编程生涯 下一篇我们将介绍如何通过这8基础数据类型进行相应的算术运算,设计实现一个简单的计算器案例。

    1.1K30编辑于 2022-09-13
  • 来自专栏zzzz

    DKhadoop大数据平台基础框架的简单介绍

    DKhadoop大数据平台基础框架的简单介绍 大数据作为当下最为热门的事件之一,其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据,那可能会给人一种很新鲜的感觉。 关于大数据平台基础框架我还是用自己熟悉的DKhadoop为例。 在此之前还是对DKhadoop做一个简单的说明:DKhadoop快大数据平台,由快搜索开发的为了打通大数据生态系统与传统非大数据公司之间的通道而设计的一站式搜索引擎级大数据通用计算平台(写的这么专业 既然有如此的优势,那么样的大数据平台基础框架又是如何的呢? (数据中间件是快DKH数据交换层的核心) 3、DKH在原生态的基础上开发,并且保持了开源系统的全部优点,与开源系统100%兼容。

    77120发布于 2018-09-26
  • 来自专栏数据派THU

    干货 | 智能网联汽车大数据基础平台构建研究

    以下内容整理自大数据能力提升项目必修课《大数据系统基础》同学们的期末答辩汇报。 各位老师大家上午好,我们组的题目是智能网联汽车大数据基础平台的构建。我们的指导企业是西部智联。 智能网联汽车云控平台的用户主要是普通车主、政府以及企业用户三个部分。普通车主的需求主要是解决应用协同的问题,保证体验感。 除了上述讲到的一些技术以外,在第一部分的数据接入,我们采用的数据是企业提供的一个RCU路端数据,还有一个OBU的云车端的数据,然后采用了TCP协议进行通信,然后运用EMQX的引擎进行数据的接入。 首先是我们开发工作的基础,我们开发工作是基于三台华为云的Linux机器,这里非常感谢企业导师的支持。 然后初始机的环境的配置、开发用的数据主要是导师提供的静态数据,一共是40万条,还有数据源的模拟程序,所以最终的动态数据的量级可以达到千万的量级。导师也提供了一个数据交互规范,供我们进行参考。

    56430编辑于 2023-08-08
  • 来自专栏IT从业者张某某

    数据可视化系列-04数据基础知识

    5.销售数据看板 参考:深度好文:一文掌握数据屏设计与制作 5.1 了解数据基础知识 1.数据屏简介: 可视化数据屏是以数据可视化的方式在一个或多个LED大屏幕上、液晶显示屏上显示业务的一些关键指标 2.数据屏使用场景 可视化屏在政府、商业、金融、制造等行业的业务场景中出现较多。 分析类数据屏要求对数据逻辑和业务了解比较深入,设计出的可视化元素需要时具体的分析结果的展示,对数据的规范性、关联性、逻辑性要求较高,对屏设计人员的业务能力和数据分析能力要求也比较高,所以设计难度较大 数据可视化设计的原则和流程 数据可视化屏设计步骤,有3步流程 屏可视化设计尺寸高级指南 1.屏前端设计流程 1. 海量的炫酷图表组件 DataV支持各类基础图表,接入ECharts、AntV-G2等第三方图表库,即便没有设计师,也能搭建出高水准的可视化应用。

    1.5K30编辑于 2023-10-16
  • 来自专栏IT从业者张某某

    数据可视化系列-04数据基础知识

    5.销售数据看板 参考:深度好文:一文掌握数据屏设计与制作 5.1 了解数据基础知识 1.数据屏简介: 可视化数据屏是以数据可视化的方式在一个或多个LED大屏幕上、液晶显示屏上显示业务的一些关键指标 2.数据屏使用场景 可视化屏在政府、商业、金融、制造等行业的业务场景中出现较多。 分析类数据屏要求对数据逻辑和业务了解比较深入,设计出的可视化元素需要时具体的分析结果的展示,对数据的规范性、关联性、逻辑性要求较高,对屏设计人员的业务能力和数据分析能力要求也比较高,所以设计难度较大 数据可视化设计的原则和流程 数据可视化屏设计步骤,有3步流程 屏可视化设计尺寸高级指南 1.屏前端设计流程 1. 海量的炫酷图表组件 DataV支持各类基础图表,接入ECharts、AntV-G2等第三方图表库,即便没有设计师,也能搭建出高水准的可视化应用。

    1.2K30编辑于 2023-10-16
  • 时序数据基础:时序数据的十特征

    相对于普通的互联网的应用数据,时序数据有着很多明显的特征。 涛思数据的创始人陶建辉先生早在 2017 年,就对此进行了充分地归纳分析,总结了时序数据本身以及时序数据应用的十特征:数据是时序的,一定带有时间戳:联网的设备按照设定的周期,或受外部的事件触发,源源不断地产生数据 一个数据采集点就是一个数据流:一个设备采集的数据、以及一支股票的交易数据,与另外一个设备采集的数据或股票是完全独立的。一台设备的数据一定是这台设备产生的,不可能是人工或其他设备产生的。 但是对于工业、物联网的平台应用以及交易系统,对数据的实时计算要求就往往很高,因为需要根据计算结果进行实时报警、监控,从而避免事故的发生、决策时机的错过。 上述的特征使时序数据的处理具有着独特的需求和挑战。但是反过来说,对于一个高效的时序数据处理平台,它也必然充分利用这十特征来提升它的处理能力。

    29810编辑于 2025-09-28
  • 来自专栏Lansonli技术博客

    2021年数据基础(三):​​​​​​​​​​​​​​​​​​​​​大数据应用场景

    ---- 大数据应用场景 电商方面 精准广告位,通过对用户的浏览行为,点击行为等进行大数据采集,分析,挖掘用户的二层三层喜欢,扩大产出。 交通方面 目前,交通的大数据应用主要在两个方面:一方面通过对车流量等海量数据的收集,估算,预测该路段一定时间内的车流量情况,给用户提供便利,合理进行道路规划;另一方面可以利用大数据来实现即时信号灯调度, 电信方面 智慧营业厅,通过对用户当前的行为习惯、偏好,节假日的相应数据变化,调节自身业务结构,做到按需分配。 安防方面 人脸识别,通过人脸识别,--匹配,存储用户数据,结合人工智能,分析及甄别用户行为,预防犯罪行为发生 医疗方面 智慧医疗,通过对海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建智慧医疗体系 物流方向 FRA 通过大数据解决方案得出司机工作表现的若干预测模型,解决了事故发生率和人员流动等人事部门的问题。

    84110发布于 2021-10-11
  • 来自专栏大数据文摘

    5架构:细数数据平台的组成与扩展

    数据处理平台已不集中于传统关系型数据库,各种其他平台层出不穷,也各有其适用范围。 从哪些角度去理解各种数据处理平台的设计思想及发展演进呢? 这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一,索引也增大,数据就饱和了。 2)第二种方式是把的索引结构,拆成很多小的索引来存储。 列式存储尤其适用于表扫描,求均值、最大最小值、分组等聚合查询场景。 列式存储在MPP数据库里面应用广泛,例如RedShift、Vertica及hadoop上的Parquet等。这种结构适合需要表扫描的数据处理问题,数据聚合类操作(最大最小值)更是他的主战场。 列式存储特别适合需要加载数据块,且数据块分到多个文件中的场景。Druid把一些近线实时数据放到写优化的存储中,然后随着时间的推移逐步把这些数据迁移到读优化的存储中。

    1.9K80发布于 2018-05-22
  • 来自专栏PingCAP的专栏

    中通大数据平台促中的进化

    而经过这些年的发展,促早已不仅仅局限于电商行业,现在各行各业其实都会采用类似方式做运营活动,汽车界有 818,电商有 618 、11.11 等等,各种各样的促场景,对包括数据库在内的基础软件提出了很多新挑战 整个快递的生命周期、转运周期可以用五个字来概括——收、发、到、派、签: [在这里插入图片描述] 而支撑整个快递生命周期的平台就是中通大数据平台。 中通从离线到实时的数据兼容再到数仓,有着一套比较完善的大数据平台体系。 ETL 建模也会依托该大数据平台,最终通过大数据平台对外提供数据应用的支持以及基于离线 OLAP 分析的支持,整个数据建模的频率可以支持到半小时级别。 在这个完善的大数据平台基础上,中通开始更多地思考如何增强实时多维分析能力。 [在这里插入图片描述] 中通与 TiDB 的结缘是在 2017 年调研分库分表场景时开始的。

    6.3K40发布于 2021-11-24
  • 来自专栏全栈程序员必看

    主流大数据采集平台架构分析

    今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台数据采集 任何完整的大数据平台,一般包括以下的几个过程 在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。 Splunk是一个分布式的机器数据平台,主要有三个角色: Search Head负责数据的搜索和处理,提供搜索时的信息抽取。 在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。 总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

    6K20编辑于 2022-06-28
  • 来自专栏CSDN技术头条

    勿谈,且看Bloomberg的中数据处理平台

    时至今日,高核心数、SSD以及海量内存已并不稀奇,但是当下的大数据平台(通过搭建商用服务器集群)却并不能完全利用这些硬件的优势,存在的挑战也不可谓不大。 但是这里仍然存在一个非常的缺点,在任何给定时间,到给定region的读写操作只被一个region服务器控制。如果这个region挂掉,故障将会被发现,故障转移会自动的进行。 通过使用开源平台,我们认真思索来自多个提供商的意见,在中型数据处理上,我们可以看到很大的发展空间。 更重要的是,我们的收获不只是性能一个特性,我们更可以通过开源技术连接到一个更广泛的发展空间。 使用HBase,用户可以在的Portfolio文件上做拆分,并且分配到集群中的多个主机上进行处理。 这就意味着,Java当下已经成为很多高fan out计算系统的基础,其中包括Hadoop、HBase、Spark、SOLR等,同步进行垃圾回收将解决非常的问题。

    3.9K60发布于 2018-02-08
领券