首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据文摘

    5架构:细数数据平台的组成与扩展

    数据处理平台已不集中于传统关系型数据库,各种其他平台层出不穷,也各有其适用范围。 从哪些角度去理解各种数据处理平台的设计思想及发展演进呢? 这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一,索引也增大,数据就饱和了。 2)第二种方式是把的索引结构,拆成很多小的索引来存储。 列式存储尤其适用于表扫描,求均值、最大最小值、分组等聚合查询场景。 列式存储特别适合需要加载数据块,且数据块分到多个文件中的场景。Druid把一些近线实时数据放到写优化的存储中,然后随着时间的推移逐步把这些数据迁移到读优化的存储中。 5、流式处理架构 不像是批处理架构,把数据存储到HDFS上,然后在上面执行各种跑批任务。

    1.9K80发布于 2018-05-22
  • 来自专栏数据科学与人工智能

    美国大数据智能理财平台5模式

    不过,世易时移,近年来美国出现了智能投资市场,涌现出很多基于大数据分析的智能理财平台,大大降低了财富管理的门槛,让原先处于“服务真空区”的中产阶级也能享受同等的财富管理服务。 ? 智能理财平台为什么会成功? 现在看来,有两因素促成了这些智能理财平台的成功。 首先,ETF基金的出现大大降低了投资成本。 第1种:基于大数据分析给出投资建议 这种类型的平台根据客户在其他理财交易平台的行为数据,全面了解客户的财务状况和投资现状,帮助客户对过去的投资决策做出回顾。 第2种:基于大数据分析购买投资组合 这种类型的平台基于客户的财务状况和风险承受能力,为客户推荐或购买相应的交易型指数基金。 ETF成为这类型平台的首选基金,因为它的周转率低,降低了交易成本。 第5种:跟投基金经理人的交易 这种类型的平台会即时跟踪基金经理人的投资组合以及每一笔交易动态,平台可以自动帮助普通投资者做出同样的交易或通知投资者让他们自己做出决定。

    2.3K60发布于 2018-02-28
  • 来自专栏hadoop学习笔记

    快DKH大数据基础数据平台的监控参数说明

    2018年国内大数据公司50强榜单排名已经公布了出来,快以黑马之姿闯入50强,并摘得多项桂冠。Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖。对这份榜单感兴趣的可以找一下看看。 本篇承接上一篇《DKM平台监控参数说明》,继续就快的大数据一体化处理架构中的平台监控参数进行介绍和说明。 DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。 今天就把剩下的一些监控参数一起介绍完,关于快大数据处理平台监控参数的介绍就完整了。 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 (4) 等待执行的应用程序 图片4.png 监控 yarn资源管理中等待执行的应用程序数量 纵轴表示应用程序数量,单位个 横轴表示时间,单位分钟 (5) 集群中剩余的内存 纵轴表示内存容量,单位(MB) 横轴表示时间,单位分钟 (4)Spark中任务数量 图片10.png 监控 Spark 集群中任务数量 纵轴表示内存容量,单位MB 横轴表示时间,单位分钟 (5

    1.5K20发布于 2018-08-15
  • 5步骤打造基于YashanDB数据库的数据平台

    构建基于 YashanDB 数据库的数据平台是一个复杂的过程,涉及多个步骤。以下是五步骤,可以帮助你构建一个有效的数据平台:第一步:需求分析与规划1. 明确目标:确定数据湖的主要用途,例如数据分析、机器学习或实时处理等。2. 数据来源:识别需要集成的各种数据来源,包括结构化、半结构化和非结构化数据。3. 数据采集:设置数据采集管道,确保能够有效地从不同来源获取数据,包括批量和实时数据。2. 格式转换:在数据进入数据湖之前,进行必要的数据格式转换,保证数据的一致性。3. 元数据管理:为数据湖中的数据创建元数据,便于后续的数据管理和查询。第四步:数据存储与管理1. 选择存储解决方案:根据数据量、访问频率和处理要求,选择合适的存储方式(如 ODS、数据仓库等)。2. 持续优化:根据用户反馈和数据使用情况,不断优化数据湖的结构和性能,迭代改进流程。这五步骤为构建基于 YashanDB 的数据平台提供了一个系统化的框架。

    11810编辑于 2025-11-14
  • 来自专栏PDF转换docx

    5值得推荐的客户协作平台

    基础功能: 文档编写、目录架构、安全、权限、存储这些就不多说了,能满足大部分的文档管理需求。“像写博客一样写文档,像写书一样构建团队知识库”,的确是它的优点。 3.简道云知识库 简道云知识库依托于其本身的零代码平台,像富文本编辑、结构化存储、容量、可分享协作、安全性强、支持权限设置这些功能我就不说了,都有。 主要功能 树状结构、安全管理、权限管理、文档管理在我看来都不是它的优势,因为这是每个知识库都应该具备的基础功能,只是有的软件可能更硬核,有的稍逊色。 5.ONLYOFFICE ONLYOFFICE是一款开源且免费的办公套件,向用户提供了文本文档,电子表格,演示文稿,以及免费的表单模板等功能。在最新的版本更新中又添加了加密版本的协作空间。 结语; 以上就是我给大家分享的几款比较值得推荐的能与客户或企业之前协作的平台,如果你有更好的协作平台可以推荐,欢迎在评论区讨论。

    1.8K20编辑于 2023-04-26
  • 5理由选择YashanDB作为企业数据平台

    为满足不断增长的业务需求,选择一个技术先进且全面的数据平台显得尤为重要。 在单机部署中,通过主备复制保障基础的高可用;分布式部署采用Shared-Nothing架构,支持MN、CN、DN多节点分工,满足海量数据分析和复杂计算需求,且具备良好的线性扩展能力;共享集群依托共享存储和聚合内存技术 先进的SQL优化器和执行引擎保障高效查询YashanDB SQL引擎包含解析、校验、优化和执行四阶段,优化器采用成本模型(CBO)进行智能计划生成,使用丰富的统计信息和动态调整技术精准评估执行计划代价 结论选择YashanDB作为企业数据平台,企业能够充分利用其灵活多样的部署方案、先进的存储引擎技术、高效SQL优化执行能力、完善的事务控制以及高可用灾备架构,实现数据管理的高性能、高可靠和高扩展。 通过应用本文所述技术原理和最佳实践,帮助企业打造稳定、高效、可持续发展的数据平台,保障关键业务的稳定运行与发展。

    14910编辑于 2025-11-14
  • 来自专栏Lansonli技术博客

    2021年数据基础(二):​​​​​​​​​​​​​​大数据的特点(5v)

    ---- 大数据的特点(5v) 大数据的特点可以使用5个字来概括:、多、值、快、信 一、Volume:  数据的采集,计算,存储量都非常的庞大。是数据体量巨大(Volume)。 截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=1024TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)。 当前,典型个人计算机硬盘的容量为TB量级,而一些企业的数据量已经接近EB量级。 二、Variety: 多 种类和来源多样化。 而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。 四、Velocity: 快 数据增长速度快,处理速度也快,获取数据的速度也要快。 这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

    1.4K10发布于 2021-10-11
  • 来自专栏人称T客

    移动应用开发平台5问题揭秘

    其局限性在于: 生成的混合应用:低端、基础,无吸引力 一旦原生代码生成便难以“整理“及难以定制个体应用 因为是机器生成代码,所以会产生过剩代码,使之难以管理与维护 这种机器生成码的表现也不佳,因为代码必须要被设备 “消化” 不能增加“(特色功能)”(HTML5,第三方用户界面库),应用无法得以提升 混合应用的主要价值在于使开发人员打破跨平台开发与用户体验的平衡,而无论是基于form还是代码生成模式都无法达到此目的 对于想要针对特定需求,安排内部人员定制与延展平台的企业而言,缺乏控制度与灵活度是一障碍。 应用更新换代速度快。企业内部开发人员多快可开发出五星级的应用? 应用前端(front end)貌似相当不错,那企业可放心地将该前端与定制的后端(backend)系统整合,以进行数据处理吗? 价格是企业衡量MADP的一因素。有些相当具有创意的定价方式往往让企业大吃一惊,因为这种定价含复杂的授权结构及隐藏的专业费用,会大大影响企业总成本。

    1.4K50发布于 2018-03-16
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯数据平台部总监刘煜宏:这5产品平台,展示了腾讯大数据的核心能力

    腾讯技术工程事业群数据平台部刘煜宏受邀参加“腾讯慧聚”品牌的发布仪式,并向在场嘉宾介绍了“腾讯慧聚”的5产品平台。 ? 十年磨一剑,砺得梅花香。 据刘煜宏介绍,腾讯慧聚当前共包括五平台:Dmaster(大数据一站式平台)、Tbase(海量事务处理平台)、TDbank(实时接入平台)、Hermes(实时多维分析平台)、TDinsight(机器学习基础平台 这五平台除了Dmaster是一个一站式、覆盖全流程的平台外,其他四个平台各有侧重。这也是腾讯根据多年服务不同类型客户的经验,所挖掘出的不同需求。 实时多维分析平台Hermes,是腾讯针对交互式海量数据分析需求自主研发的数据多维分析平台,是腾讯处理千亿级海量数据用户画像和多维分析的核心技术与经验的积累。 TDinsight作为机器学习基础平台,可以提供一站式的机器学习平台,释放数据潜力,帮助用户快速接入人工智能的快车道。

    5K90发布于 2018-01-30
  • Python数据挖掘编程基础5

    2.1.3函数1.函数是Python为了是代码效率最大化、减少冗余而提供的最基本的数据结构。函数实现了对整段程序逻辑的封装,是程序逻辑的结构化或过程化的一种编程方法。

    14810编辑于 2025-05-09
  • 来自专栏计算机基础

    计算机基础5)——编程语言与跨平台

    计算机语言的种类非常的多,总的来说可以分成机器语言,汇编语言,高级语言三类。 另外,由于汇编语言仍是面向机器的语言,因此在使用汇编语言编程前仍然需要具备一定的计算机指令集的基础才能正确的编写出汇编语言。 这就是我们要考虑的语言的跨平台特性。即程序代码只编写一次,但可以在不同的平台(CPU的架构)执行该程序。 不难发现,高级语言(例如C)就是具备了跨平台的特性。 所以官方在推出编译器时也会考虑目前操作系统的市场环境,例如很多语言的编译器/解析器/运行平台等在Linux平台会推出x64架构以及arm架构,但是在windows平台就只会推出x64架构的编译器,这主要还是市场环境决定的 目前所提倡的面向服务架构、云计算、大数据等通过网络使得软件运营商只要给用户提供客户端的操作界面即可,数据的计算、维护等都交由服务器完成,数据之间的交互没有了编程语言、操作系统、硬件架构的限制。

    84131编辑于 2025-01-03
  • 来自专栏机器学习与推荐算法

    SIGIR2024 | OpenP5: 模型推荐评测平台

    TLDR: 本文介绍了一个开源模型推荐评测平台OpenP5,旨在促进用于研究的基于模型生成式推荐系统的开发、训练和评估。 本文提出了一个开源平台OpenP5,旨在促进用于研究目的的基于模型的生成式推荐系统的开发、训练和评估。该平台在10个广泛认可的公共数据集上进行实验。 认识到物品ID在基于模型的推荐中的重要作用,我们还在OpenP5平台中纳入了三种物品索引方法:随机索引、顺序索引和协同索引。 OpenP5拥有一系列功能,包括可扩展的数据处理、以任务为中心的优化、全面的数据集和检查点、高效加速和标准化评估,使其成为实现和评估基于模型推荐系统的工具。 下表展示了OpenP5相比于基线方法的优越性,并探索了在不同模型基础上的实验效果。

    67510编辑于 2024-07-05
  • 来自专栏大数据开发

    数据平台搭建:大数据基础架构选型

    数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。 3.jpg 在企业数据团队当中,数据平台基础架构选型,通常由资深的开发工程师或者架构师来完成。这就要求相关人员,结合具体场景和需求,综合考虑成本、投入等因素,选择合适的技术架构。 5.jpg Lambda架构 Lambda架构算大数据系统里面举足轻重的架构,数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。 4.jpg 关于大数据平台搭建:大数据基础架构选型,以上就是今天的分享内容了。 大数据继续发展,企业对于数据平台搭建的需求,将越来越普遍,不管是基于原有的系统平台进行改造,还是搭建全新的平台架构,都需要更多专业人才的支持。

    1.6K31发布于 2020-10-21
  • 来自专栏技术博文

    Java基础5)-Java数据类型

    学习任何一种编程语言都要了解其数据类型,几乎所有的编程语言中都会有数据类型,什么是数据类型呢? 软件的存在主要是进行数据的处理,现实生活中的数据会有很多,所以编程语言对其进行了分门别类,然后不同的数据类型的数据会给其分配不同大小的空间进行存储。 Java 语言支持的数据类型分为两种:**基本数据类型(Primitive Type)**和 引用数据类型(Reference Type)。 二、Java的基本数据类型 Java语言提供了八种基本数据类型。 Java的引用数据类型建立在基本数据类型的基础上,包括数组、类和接口。

    72120发布于 2021-11-05
  • 来自专栏大数据知识

    数据5关键处理技术

    一)大数据面临的存储管理问题 ●存储规模数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当。 可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。 4)数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。 5)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 5. 数据质量和数据管理 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理无论是在学术研究还是在商业应用领域都极其重要,各个领域都需要保证分析结果的真实性和价值性。 可能有些中小企业无法自己快速的获取自己的所需的数据进行分析,这就需要到了第三方的数据平台进行大数据分析。

    10.8K30发布于 2021-03-12
  • 来自专栏DataFunTalk

    蒋鸿翔:网易数据基础平台建设

    相对较低的延迟要求(10 ~ 50ms)下替换缓存场景(延迟<5ms),节省内存成本, Redis --> Inno Rocks。 NTSDB特点有聚合运算相关算法,时序数据库相对于关系型数据库没有特别复杂的查询,最常见的使用类型是宽表使用,在此基础上做一些聚合算法、插值查询。 ad-hoc定位与1分钟到几分钟,现在很多业务需要ad-hoc提供,如公司报表,有时需要实时计算,响应在5秒-1分钟延迟。 行为数据是在离线平台上,用户数据是实时在数据库中,如快递行业经常需要追踪快递的位置,离线平台就要经常做自助分析,需要将数据库中的状态实时同步到离线平台上去。 Runtime Filter主要是用在表和小表做关联时使用,在关联时做成hash表,绑定到所有表节点上去,在表扫数据时利用hash表做过滤,因此在底层扫描就已经过滤掉很多数据,就可以省略很多不必要的计算

    96440编辑于 2022-06-14
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 5 (首页部分)

    我们现在要做一个首页的前端部分,这个页面的内容主要是我们的工具列表,可以方便进入的用户直接选中工具来进入工具详情页。

    95120编辑于 2022-05-20
  • 数据集成平台,数字化转型过程中扮演的5关键角色

    下面是我们总结的数据集成平台在企业数字化转型过程中的五关键角色,揭示其如何赋能企业,引领数字化浪潮。1. 数据整合的超级枢纽数据集成平台是企业海量数据的超级枢纽。 实时数据流的加速器随着业务对实时性要求的不断提高,通过数据集成平台的实时数据流处理能力。 涉及技术:数据分析平台: 如Apache Spark,提供强大的数据处理和分析能力,支持复杂数据分析任务。 数据可视化工具: 利用Tableau、Power BI等工具,生成直观的数据报表和仪表板,帮助企业更好地理解数据。机器学习: 使用机器学习算法进行预测分析和模式识别,帮助企业发现潜在机会和风险。5. 通过多源数据整合、实时数据同步、数据治理、业务创新和智能应用等方面的技术支持,数据集成平台为企业提供了一个高效、可靠的数据管理和分析平台

    72410编辑于 2024-07-10
  • 来自专栏Spark学习技巧

    58数据平台架构演进-图

    3.4K20发布于 2018-06-22
  • 来自专栏Juicedata

    JuiceFS 在搜车数据平台的实践

    搜车已经搭建起比较完整的汽车产业互联网协同生态。 在这一生态中,不仅涵盖了搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司 , 与搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商,以及与中石油昆仑好客等产业链上下游的合作伙伴。 基于这样的生态布局,搜车数字化了汽车流通链条上的每个环节,进而为整个行业赋能。 说到大数据,对于每个公司都不陌生。 大数据集群现状 搜车目前大数据集群分为离线计算集群和实时计算集群,离线计算基于 Hive 和 Spark,实时计算基于 Flink,这两类集群分别基于 HDP 和 CDH 两套管理方式。

    2.2K50编辑于 2021-12-10
领券