首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据杂货铺

    数据架构的三纠缠趋势:数据网格、数据编织和混合架构

    他们在处理必须使用混合架构的现实时,被关于看似独立的新趋势(如数据网格和数据编织)的文献轰炸。这些趋势中的每一个都声称是其数据架构的完整模型,以解决“一次无处不在”的问题。 定义的混合数据架构 “现代数据”的想法是,那些不是在云中诞生或无法完全迁移到云的公司都是在吹捧混合架构的公司。但即使所有计算和存储资源的最终目的地是云,也将有一个不平凡的过渡期。 混合架构应允许研发团队订阅销售数据,并在源数据更改时自动复制数据。 混合架构是用于摄取、存储、处理、管理和可视化不同形式因素的数据的技术选择——在本地以及多个云中,可能会根据需要复制数据。 因此,混合架构可以被认为是跨多种形式因素的数据编织的实现。 混合架构可以允许数据生产者在数据中心的本地数据仓库中生成数据和表,并允许云中的数据消费者订阅这些表。 消费者订阅数据生产者生产的数据产品。 混合架构的不同定义是什么? 混合数据架构有很多定义。混合有严格的定义,能够在不同位置之间自动无缝迁移数据工作负载,例如从本地部署到任何云,或从一个云到另一个云。

    2.3K10编辑于 2022-12-02
  • 来自专栏最新最全的大数据技术体系

    11数据面试题复习

    1)从 high-level 的角度来看,两者并没有的差别。 11、Spark为什么要持久化,一般什么场景下要进行persist操作?   为什么要进行持久化?   当表和小表join时,用map-side join能显著提高效率。 不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀 ,甚至出现数据倾斜,消耗内存,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

    92912编辑于 2021-12-06
  • 来自专栏数据结构与算法

    11:整数减法

    11:整数减法 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 求两个大的正整数相减的差。 输入共2行,第1行是被减数a,第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11

    1.4K100发布于 2018-04-11
  • 来自专栏全栈程序员必看

    淘宝双11数据分析(数据可视化)

    文章目录 前言 本篇环境 结果展示 项目结构 前言 这一篇是最终篇,也是展示数据分析之后的结果的一篇。 其他文章: 淘宝双11数据分析(环境篇) 淘宝双11数据分析(数据准备篇) 淘宝双11数据分析(Hive 分析篇-上) 淘宝双11数据分析(Hive 分析篇-下) 淘宝双11数据分析(Spark 参考文章: idea搭建SSM项目(基于maven) 结果展示 项目结构 这是一个简单的 SSM 架构的项目。 代码我就不粘贴出来了。 PS:想要的童鞋,可以评论区留言!

    5.8K20编辑于 2022-09-14
  • 来自专栏Spark学习技巧

    58数据平台架构演进-图

    3.4K20发布于 2018-06-22
  • 来自专栏PPV课数据科学社区

    数据挖掘中易犯的11错误

    按照Elder博士的总结,这11易犯错误包括: 0.缺乏数据(LackData) 1.太关注训练(FocusonTraining) 2.只依赖一项技术(RelyonOneTechnique) 3.提错了问题 如果数据+工具就可以解决问题的话,还要人做什么呢4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 给数据加上时间戳,避免被误用。 6.抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……”   数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。    (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)   解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    71870发布于 2018-04-20
  • 来自专栏PPV课数据科学社区

    【译文】关于数据科学难以忽视的11真相

    . 9、Presentation is key - be a master of Power Point. 10、All models are false, but some are useful. 11 You need to get your hands dirty. 1、 数据都是没有清洗过的。 2、 你总是需要花费大量的时间准备和清洗数据。 3、 95%的任务不需要深度学习。 11、没有完全自动化的数据科学。很多你需要人工手动操作。 翻译:lily PPV课原创编译 转载请注明出处 原文链接:http://www.ppvke.com/Answer/? 2、回复“答案”查看大数据Hadoop面试笔试题及答案 3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝 4、回复“可视化”查看数据可视化专题-数据可视化案例与工具 5、回复“禅师”查看当禅师遇到一位理科生 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、

    81070发布于 2018-04-20
  • 来自专栏华章科技

    干货 :数据挖掘中易犯的11错误

    11易犯错误——Elder博士 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 如果数据+工具就可以解决问题的话,还要人做什么呢? 4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 给数据加上时间戳,避免被误用。 6. 抛弃了不该忽略的案例(Discount Pesky Cases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。 10.

    29220发布于 2018-08-13
  • 来自专栏Lansonli技术博客

    2021年数据Hadoop(五):Hadoop架构

    ---- Hadoop架构 ​​​​​​​1.x的版本架构模型介绍 文件系统核心模块: NameNode:集群当中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要用于管理集群当中的各种数据 ,并分配任务给从节点 TaskTracker:负责执行主节点JobTracker分配的任务 ​​​​​​​2.x的版本架构模型介绍 第一种:NameNode与ResourceManager单节点架构模型 :NameNode高可用与ResourceManager单节点架构模型 文件系统核心模块: NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中NameNode可以有两个,形成高可用状态 :负责执行主节点ResourceManager分配的任务 第四种:NameNode与ResourceManager高可用架构模型 文件系统核心模块: NameNode:集群当中的主节点,主要用于管理集群当中的各种数据 .x的基本架构和Hadoop2.x 类似,但是Hadoop3.x加入很多新特性:如支持多NameNode,同时对HDFS和MapReduce也进行了优化。

    1.3K31发布于 2021-10-11
  • 来自专栏编程一生

    系统架构11条原则

    原则三:分治原则 解析: 做架构时不要想着一次性把所有的功能都做好,要拥抱 MVP(Minimal Viable Product),最小可运行版本。 实在不能弱依赖的,比如必须要调用加密存储来获取数据库的密码,不然无法连接数据库,可以控制获取密码在服务启动时进行,如果获取不到则服务启动失败,因为现在都是集群部署,一台无法启动不影响整体提供服务。 如果一件事情有可能发生则在生产环境中一定会发生,架构中要做好容错设计。 原则十一:用成熟的技术 解析: 不要给别人的技术当小白鼠,不要因技术本身的问题影响系统的稳定。 尽可能的使用红利的主流技术,而不要自己发明轮子,更不要魔改。 在技术选型上,千万不要被——“你看某个公司也在用这个技术”,或是一些在论坛上看到的一些程序员吐槽技术的观点(没有任何的数据,只有自己的喜好)来决定自己的技术,还是看看主流大多数公司实际在用的技术栈,会更靠谱一些

    69320编辑于 2022-05-06
  • 来自专栏灯塔大数据

    必看 :大数据挖掘中易犯的11错误

    4 只靠数据来说话(Listen(only)totheData) IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢? 4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常不可信。 给数据加上时间戳,避免被误用。 6 抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    67370发布于 2018-04-09
  • 来自专栏PPV课数据科学社区

    世界杯11数据:20位前冠军出战

    随着全部32支参赛队的23人名单基本敲定,国际足联官方列出本届杯赛的11数据,本届杯赛共有236人参加过世界杯,包括20位前冠军,最年轻及最年长的球队分别是加纳和阿根廷,所有球员的平均年龄为 岁零1个月,是本届杯赛最年轻的球员,也有望成为世界杯历史第9年轻的球员,但即便是喀麦隆历史,也有3名球员出征世界 杯时比他年轻,分别是埃托奥(17岁零3个月)、奥莱姆贝(17岁零6个月)以及宋(17岁零11

    74460发布于 2018-04-19
  • 来自专栏闲余说

    架构设计 11-可扩展架构之微内核架构

    导读:《架构设计》系列为极客时间李运华老师《从0开始学架构》课程笔记。本文为第十一部分。主要介绍了如何面向功能拆分架构,首先介绍了微内核架构的基本架构设计,以及几种常见架构的实现与特点。 核心系统提供插件注册表(可以是配置文件,也可以是代码,还可以是数据库),插件注册表含有每个插件模块的信息,包括它的名字、位置、加载时机(启动就加载,还是按需加载)等。 实现 插件管理 规则引擎中的规则就是微内核架构的插件,引擎就是微内核架构的内核。规则可以被引擎加载和执行。 规则引擎架构中,规则一般保存在规则库中,通常使用数据库来存储。 插件通信 规则引擎的规则之间进行通信的方式就是数据流和事件流,由于单个规则并不需要依赖其他规则,因此规则之间没有主动的通信,规则只需要输出数据或者事件,由引擎将数据或者事件传递到下一个规则。 那么这种微内核架构就比较合适,将核心的处理逻辑抽象出来,场景插件化,然后通过统一数据层将多端接入引入的协议差异打平,能够快速支持新端、新场景。

    1.1K20编辑于 2022-08-19
  • 来自专栏深度学习和计算机视觉

    YOLOv11 架构改进 & 常见指令

    在之前的 YOLO 版本基础上,YOLO11架构和训练上提供了显著的改进。在保持速度的同时提高性能的最重要的架构变化是增加了 C3K2 块、SPFF 模块和 C2PSA 块。 这种结构使得在复杂场景中更精确的检测成为可能,并提高了 YOLOv11 的准确性。 除了这些架构变化,YOLOv11 像 YOLOv8 一样具有多模型能力。 得益于其优化的架构和高效的处理能力,它可以部署在边缘设备、云平台和支持 NVIDIA GPU 的系统上。 由于这些优化和创新,YOLOv11 在实时应用中提供了性能提升。 随着模型设计的改进,YOLO11m 在使用比 YOLOv8m 少 22% 参数的情况下,在 COCO 数据集上实现了更高的平均精度均值(mAP),使其在不牺牲准确性的情况下具有计算效率。 它将验证数据从训练数据本身中分离出来,对于测试,你只需要提供你想要测试的图像的路径。

    2.2K10编辑于 2024-10-30
  • 来自专栏超级架构师

    数据架构数据湖与数据仓库之间的五差异

    “清理,打包和结构化以便于消费”,而数据湖更像是一个自然状态的水体。数据从流(源系统)流向湖。用户可以进入湖泊进行检查,采样或潜水。 现代数据架构中的数据湖这也是一个相当不精确的定义。 这通常是为了简化数据模型,并节省昂贵的磁盘存储上的空间,用于提高数据仓库的性能。 相比之下,数据湖保留所有数据。不仅仅是今天正在使用的数据,还有可能使用的数据,甚至可能永远不会被使用的数据。 因为数据湖泊包含了所有的数据数据类型,因为它使用户能够在数据被转换,清理和结构化之前访问数据,使得用户能够比传统的数据仓库方法更快地获得结果。 但是,这种对数据的早期访问是有代价的。 在数据湖中,这些操作报告消费者将利用数据库中的数据的更加结构化的视图,类似于以前在数据仓库中的数据。 另一方面,Hadoop生态系统非常适用于数据湖方法,因为它可以非常容易地适应和扩展非常的卷,并且可以处理任何数据类型或结构。

    1.8K40编辑于 2023-01-05
  • 来自专栏数据饕餮

    数据仓库专题(7)-维度建模11基本原则

    用户想要掩盖哪些数据,想要显示哪些数据,如果只有汇总数据,那么你已经设定了数据的使用模式,当用户想要深入挖掘数据时他们就会遇到障碍。 当然,原子数 据也可以通过概要维度建模进行补充,但企业用户无法只在汇总数据上工作,他们需要原始数据回答不断变化的问题。 ,企业数据仓库总线矩阵是最关键的架构蓝图,它展现了组织的核心业务流程和关联 的维度,重用一致的维度可以缩短产品的上市时间,也消除了冗余设计和开发过程,但一致的维度需要在数据管理和治理方面有较大的投入。 需求和事实之间的平衡是DW/BI 从业人员必须面对的事实,无论是你集中在维度建模,还是项目策略、技术/ETL/BI架构或开发/维护规划都要面对这一事实。     原则11、基于OLAP分析各操作进行维度设计指导          从结果反思设计过程,基于OLAP钻取、上钻、下钻、切片、切块的业务需求,设计你的维度模型。 三、未完待续      

    2.2K30发布于 2019-01-14
  • 来自专栏Lansonli技术博客

    2021年数据Spark(七):应用架构基本了解

    Spark 应用架构-了解 Driver 和Executors 从图中可以看到Spark Application运行到集群上时,由两部分组成:Driver Program和Executors。 Executor是在一个Worker Node上为某应用启动的一个进程,该进程负责运行任务,并且负责将数据存在内存或者磁盘上。 2)、Driver会将用户程序划分为不同的执行阶段Stage,每个执行阶段Stage由一组完全相同Task组成,这些Task分别作用于待处理数据的不同分区。 Task分为两种:一种是Shuffle Map Task,它实现数据的重新洗牌,洗牌的结果保存到Executor 所在节点的文件系统中;另外一种是Result Task,它负责生成结果数据;  5)、Driver 部分并行处理),就会有多少个 Task,每个 Task 只会处理单一分支上的数据。 

    90510发布于 2021-10-09
  • 来自专栏大数据文摘

    5架构:细数数据平台的组成与扩展

    这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一,索引也增大,数据就饱和了。 2)第二种方式是把的索引结构,拆成很多小的索引来存储。 列式存储尤其适用于表扫描,求均值、最大最小值、分组等聚合查询场景。 列式存储在MPP数据库里面应用广泛,例如RedShift、Vertica及hadoop上的Parquet等。这种结构适合需要表扫描的数据处理问题,数据聚合类操作(最大最小值)更是他的主战场。 列式存储特别适合需要加载数据块,且数据块分到多个文件中的场景。Druid把一些近线实时数据放到写优化的存储中,然后随着时间的推移逐步把这些数据迁移到读优化的存储中。 这种架构的另一种代表叫kappa架构,但是本文作者没看中那种架构,觉得叫kappa属于吃饱了撑的。 5、流式处理架构 不像是批处理架构,把数据存储到HDFS上,然后在上面执行各种跑批任务。

    1.9K80发布于 2018-05-22
  • 来自专栏全栈程序员必看

    主流大数据采集平台架构分析

    Flume设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent的网络,支持数据路由。 每一个agent都由Source,Channel和Sink组成。 Fluentd使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。 Logstash的部署架构如下图,当然这只是一种部署的选项。 一个典型的Logstash的配置如下,包括了Input,filter的Output的设置。 Chukwa的部署架构如下: Chukwa的主要单元有:Agent,Collector,DataSink,ArchiveBuilder,Demux等等,看上去相当复杂。 总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

    6K20编辑于 2022-06-28
  • 来自专栏超级架构师

    数据架构数据架构的未来

    数据架构师的业务理解已经变得越来越重要,Algmin说,现在它对数据架构师的成功至关重要。 在数据架构师的角色包含更多商业智慧的同时,挖掘和承担技术实现的愿望和能力仍然很重要。 数据架构与企业架构的融合 “数据架构师的热度指数正在上升,但企业架构热度指数非常非常冷,而且已经有一段时间了。” 数据架构的含义 数据架构创新在相关技术领域正经历着类似的模式,这些领域的用例潜力尚处于初级阶段,例如区块链和图形数据库,并且数据架构的角色正在发生变化以适应。 在地平线上:未来的热门数据架构主题 Algmin预测了ML和AI在元数据管理和数据治理中的扩展,比如区块链和分布式账本。“我们将开始看到,作为数据架构师,我们可以做一些真正阻碍我们的组织的事情。” 知识星球 向咖提问,近距离接触,或者获得私密分享。 点击加入知识星球【首席架构师圈】 微信圈子 志趣相投的同好交流。

    65920发布于 2020-07-20
领券