首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏华章科技

    什么是大数据「实时流计算」?深度解析它的4应用及4个特点

    ▲图1-1 大数据的五特点 大数据时代为人们带来了丰富多彩的生活方式,让人们充分享受着从大数据中挖掘而来的价值。但也正因为大数据产生得太多太快,让我们开始疲于对正在发生的事情做出及时反应。 通过实时流计算技术,在秒级甚至亚秒级,对用户信用和欺诈风险做出判定,在保证可控风险的同时,提供良好的用户体验,进一步提高现金贷产品整体的竞争力。 4. 现代推荐系统(见图1-4)背后越来越多地出现了实时流计算技术的影子,通过实时分析从用户手机上收集而来的行为数据,发掘用户的兴趣、偏好,给用户推荐可能感兴趣的内容或商品。 ▲图1-4 基于Spark Streaming的实时零售推荐系统 这里只是简单地列举了几个流计算技术使用的场景。 因此,实时流计算使用的算法相比批处理算法,在算法实现和算法复杂度方面会有明显不同。 在实时流数据的四特点中,无限性是流数据相比批数据最大的区别,这直接导致了流处理和批处理的查询模式有所不同。

    1.7K11发布于 2020-03-16
  • 来自专栏木东居士的专栏

    闲聊4数据经历

    0x00 前言 周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。 0x01 大数据 “什么是大数据?” 2016年初 然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。 身边很多小伙伴都开始说要转行做数据挖掘了。那个时候感觉,大数据就像是正在消退的云计算的概念一样。 然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。 大规模数据的处理是一个非常的课题,但是这一点更偏向于是搞技术的。 我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。

    85230发布于 2018-05-25
  • 数据同步最全避坑指南!4痛点+4场景技术方案

    系统A和系统B的数据对不上,流程卡住,用户投诉?想搞实时同步提升体验,结果把核心数据库拖慢了?尤其在企业内部数据分析和业务流程流转等关键时刻,如果数据同步跟不上,问题就了。 2.数据孤岛与架构复杂性(1)痛点:在多系统并存的架构下,同一份数据常需在多个存储与计算引擎中冗余存储,导致数据孤岛问题加剧。 (2)技术实现:全周期一致性方案通过将存量数据校验与增量同步并行处理,缩短数据切换时间,降低业务中断风险。4.资源消耗与扩展不足(1)痛点:流式同步技术在提升实时性的同时,对计算资源的需求大大增加。 (2)技术实现:存算分离架构通过解耦计算层与存储层,实现资源的弹性伸缩。①计算层:可以根据业务流量动态调整节点规模,应对突发的数据同步压力。②存储层:独立扩展,支持海量数据的低成本存储。 误区 4:安全防护的合规性缺失敏感数据同步需满足分类分级要求,山东大数据局明确要求传输加密、脱敏处理与最小权限管控。工具应该内置敏感数据规则,并支持操作日志审计留存,确保符合监管要求。

    59310编辑于 2025-09-22
  • 来自专栏云计算D1net

    数据时代 云安全4策略

    计算与大数据的结合可以说是天作之合。大数据需要灵活的计算环境,而后者可以快速、自动地进行扩展以支持海量数据,基础设施。 但是无论什么时候对云计算展开讨论,我们都无法回避以下问题: 针对大数据的云安全策略是什么? 在将大数据转移至云上时,以下四个小贴士可以让用户既能享受到云计算的灵活性又能获得严格的云安全策略。 1、将敏感数据加密(强烈推荐) 数据加密将会为你的云基础设施建起一堵“虚拟的墙”。 4、对数据安全永不妥协 虽然云安全通常十分复杂,但是用户在大数据部署当中还是会发现一些“安全捷径”。这些“安全捷径”通常貌似能够回避一些复杂设置,同时保持大数据结构“不受伤害”。 总结 只有为数据建立了最为严格的安全标准,大数据才能够不断地享受着由云计算提供的可扩展性、灵活性和自动化。加密被认为是保护云()数据的首要步骤。

    1.3K70发布于 2018-03-21
  • 来自专栏云计算D1net

    7计算数据仓库

    顶级云计算数据仓库展示了近年来云计算数据仓库市场发展的特性,因为很多企业更多地采用云计算,并减少了自己的物理数据中心足迹。 云计算数据仓库是一项收集、组织和经常存储供组织用于不同活动(包括数据分析和监视)数据的服务。 在企业使用云计算数据仓库时,物理硬件方面全部由云计算供应商负责。 云计算数据仓库通常包括一个或多个指向数据库集合的指针,在这些集合中收集生产数据。云计算数据仓库的第二个核心元素是某种形式的集成查询引擎,使用户能够搜索和分析数据。这有助于数据挖掘。 如何选择云计算数据仓库服务 在寻求选择云计算数据仓库服务时,企业应考虑许多标准。 现有的云部署。 (4)Microsoft Azure SQL Data Warehouse 潜在买家的价值主张。

    7.5K30发布于 2019-09-26
  • 数据资产怎么管?关键在这4环节!

    我们可以利用数据发现工具或数据目录平台,自动连接到公司内部的各个数据库、数据仓库甚至文件存储。 2.核心是抓取“元数据”工具会自动采集“关于数据数据”,比如一个数据表叫什么、在哪里、包含哪些字段(这是技术元数据);每个字段在业务上代表什么,归哪个部门管(这是业务元数据)。 3.形成数据目录将所有采集到的元数据组织起来,形成一个可搜索的、统一的数据资产地图。想象一下,这就是你公司数据的“搜索引擎”。做完这一步,你就能快速回答:我们到底有没有“客户满意度评分”这个数据? 2.设计一致的数据模型在数据汇聚的层面,比如数据仓库里,按照商定好的标准来设计和整合数据,确保口径一致。3.理清数据血缘这一点非常关键。 我们应该把处理好的数据,封装成易于使用的数据服务API、可复用的数据产品或直观的分析报表。让业务方能够方便地获取数据能力。2.尝试进行价值度量数据值多少钱?这是个难题,但我们必须尝试去回答。

    32310编辑于 2025-12-08
  • 来自专栏程序你好

    区块链4优势,与传统金融4短板

    通俗地说,所有网络虚拟数字货币的交易过程都是去中心化的分布式网络账本,被记录的所有交易数据都可以在区块链各个节点上共享,各个数据终端通过加密合约彼此间相互链结。 技术的关键点在于所有节点都分散保存着一个账本,单一或部分节点无法单独篡改数据。 ? 在传统金融日系,都依赖于信用背书系统。 目前大部分的金钱交易都是通过银行、保险公司、担保公司等第三受信机构作为中介完成交易的,记录单独保存于其中央数据库中,这种方式无法确保记录的完整性和唯一性。 区块链技术的四优势表现在四个方面: 首先是免基础信任机制。 所有参与区块链交易节点都参与记录和验证,以及数据的维护。

    1.2K10发布于 2018-07-20
  • 来自专栏云计算D1net

    2014年数据与云计算的预测

    然而,云计算却处于一个截然不同的阶段,远远超过了初始的炒作阶段,进入了一个混合部署的新时代,在这一新时代中云计算显然地扩展到了数据中心中。 在2014年,我们可以期待大数据和云计算的发展: 1、大数据和云计算一同成长:大多数组织知道他们应该使用云计算平台,但云计算到大数据的主要贡献将会转移。 不久,云计算将成为许多大数据的来源,从开放数据到社会数据到聚合数据——所有来源都将为大数据项目提供能量和动力。 企业要建立一个包括全面数据源的大数据基础设施。 我们可以期待Hadoop将成为“下一个”企业计算平台,推动大数据在2014年更多的实时的和操作的采用。 4、大数据走向全球化:今年,大数据会从用于分析目的的新概念,走向企业采用的用于更好地了解客户行为的良好实践,执行高级风险分析等。

    3K30发布于 2018-03-16
  • 来自专栏灯塔大数据

    4位专家解读2015数据技术进展

    【回顾2015】 1 关键技术进展 Hadoop: Hadoop作为大数据平台中最基础与重要的系统,在2015年提高稳定性的同时,发布了多个重要功能与特性,这使得Hadoop朝着多类型存储介质和异构集群的方向迈进了一步 ●可配置的store compression 存储的field,例如_source字段,可以使用默认的LZ4算法快速压缩,或者使用DEFLATE算法减少index size。 2015年Kylin的主要发展都在Streaming OLAP上,为了支持低延迟的数据刷新,从整体的架构和设计上都做了相当的重新设计,目前已经可以支持从Kafka读取数据并进行聚合计算的能力,同时提供 ●2015年4月,亚马逊启动其机器学习平台Amazon Machine Learning,这是一项全面的托管服务,让开发者能够轻松使用历史数据开发并部署预测模型。 对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验。有超过10年云计算、云存储、大数据经验。曾在联想、百度、Carbonite工作,并拥有多篇大数据相关的专利和论文。

    93870发布于 2018-04-10
  • 来自专栏KisFlow-Golang流式计算框架

    Golang框架实战-KisFlow流式计算框架(4)-数据

    而且KisFlow支持批量数据的流逝计算处理。 common.KisDataMap // 流式计算各个层级的数据源inPut common.KisRowArr // 当前Function的计算输入数据}buffer: 用来临时存放输入字节数据的内部 Buf, 一条数据为interface{}, 多条数据为[]interface{} 也就是KisBatchdata: 流式计算各个层级的数据源inPut: 当前Function的计算输入数据后续章节会使用到这几个成员属性 ,将当前Function的计算结果数据进行提交。 ,测试下每层的Function是否可以得到数据,并且将计算结果传递给下一层。

    47110编辑于 2024-04-23
  • 数据清洗,必须掌握的5解决方案+4步骤

    4)机器学习和人工智能:模型训练极度依赖数据质量,缺失值处理不当、异常值未识别、特征尺度差异巨大,都会导致模型性能低下甚至失效。数据清洗的效果直接影响模型的上限。 (3)错误数据:拼写错误、逻辑错误等。(4)异常值:超出正常范围的数据。(5)格式混乱:日期、数字、文本等格式不一致。(6)不一致数据:跨系统、跨表的数据存在差异。(7)冗余数据:不必要的重复信息。 FineDataLink(FDL)作为新一代数据集成与治理平台,通过可视化低代码架构与分布式计算能力,构建了全流程可控的数据清洗体系。 (2)新建「数据转换」节点。(3)拖入「数据输入」算子,配置连接数据库。新增计算列拖入「新增计算列」算子,连接上游数据。如果需要清洗掉数据中的特殊字符,如货币符号、括号等,可以通过输入公式来实现。 (4)将最终字符串转为DOUBLE类型。得到干净、可直接计算的数字型“利润_清洗”列。数据过滤设置过滤条件,筛选出符合特定条件的数据。例如,筛选出「订购日期」为2023年,「运货费」大于100的数据

    45210编辑于 2025-09-26
  • 来自专栏Lansonli技术博客

    2021年数据Hadoop(十六):MapReduce计算模型介绍

    MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 Hadoop MapReduce构思体现在如下的三个方面: ​​​​​​​如何对付大数据处理:分而治之 对相互间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略。 并行计算的第一个重要问题是如何划分计算任务或者计算数据以便对划分的子任务或数据块同时进行计算。不可分拆的计算任务或相互间有依赖关系的数据无法进行并行计算! ​​​​​​​ 统一构架,隐藏系统层细节 如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此,MapReduce设计并提供了统一的计算框架 如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,到到数千小到单个节点集群的自动调度使用。

    1.1K10发布于 2021-10-11
  • 来自专栏数据猿

    密态计算模型商用数据瓶颈的新解法?

    密态计算的产业化应用,不仅为模型的产业深度应用,也为打通数据要素流通的梗阻,提供新的思路。 无论是模型的训练还是推理应用,都存在数据瓶颈 当模型从实验室研究走向实际行业应用时,数据瓶颈问题成为了阻碍其进一步商用的重要障碍,这主要表现在模型训练和推理应用两个阶段: 模型训练阶段,行业数据分散在不同机构 随着模型在各行业应用中的潜力逐渐显现,解决数据流通和隐私保护的难题变得愈发迫切。传统的隐私计算虽然在一定程度上缓解了数据安全问题,但其复杂性和效率问题限制了其广泛应用。 2022年,蚂蚁首创的可信密态计算获得数字中国建设峰会“十硬核科技奖”, 隐语可信隐私计算技术栈被评为世界人工智能大会“八镇馆之宝”之一。 用密态计算释放数据要素价值,让模型真正规模化商用 展望未来,密态计算作为一种创新技术,将进一步提升计算效率和安全性,扩大应用范围。

    73310编辑于 2024-07-16
  • 来自专栏云计算D1net

    计算数据管理的五支柱

    随着越来越多的企业采用云计算服务,采用最新的软件工具和开发方法,它们之间的界限越来越模糊。企业的真正区别取决于其数据。 随着越来越多的企业采用云计算服务,采用最新的软件工具和开发方法,它们之间的界限越来越模糊。企业的真正区别取决于其数据。 企业要在不关闭数据的情况下有效管理数据,并阻止非法访问请求,企业需要一个可靠的云计算数据管理策略,并需要考虑五个重要因素。 1. 数据存储加密 大多数时候数据都存储在存储设备中。 毫无疑问,大多数企业都将重点放在数据保护工作上,这很重要,但不要把重点放在传输中的数据上,否则会损害其他方面的利益。 4.到达数据数据到达目的地时,企业希望确定它是真实的并且没有被篡改。 也就是说,利用多个云账户将备份数据与生产数据隔离开来。企业需要确保备份其云计算基础设施的配置信息,以防因任何原因需要重建它。

    2.9K00发布于 2018-07-31
  • 来自专栏机器学习/数据可视化

    MySQL必学4语言

    MySQL必学4种语言 本篇文章记录的是MySQL中常用的4种语言: DDL DDL,data defination language,指的是数据定义语言,其主要作用是创建数据库,对库表的结构进行删除和修改等操作 # 需要查询的字段 from table_name # 表名 where 条件 简单查询 select name, age from user where id=4; where id in :指定从哪里开始显示,显示多少行 简写:limit 5, 4:表示从第5行开始,显示4数据 select name, age from user limit 5; -- 只显示5行数据 select name, age from user limit 5 offset 4; -- 从第4(offset)行开始显示5(limit)行数据 select name, age from user limit 4, 5 ; -- 效果同上:逗号之前是offset的内容,逗号之后是limit内容 MySQL中的DQL应该是最常用的,请参考《MySQL经典50题》

    47540编辑于 2023-08-25
  • 来自专栏云头条

    4 亿、金融 IT

    5月24日,吉林省农村信用社联合社发布《2022年核心主机及配套存储等设备采购项目》竞争性谈判公告 预算金额:8688 万元 采购需求: 1、硬件设备共计31台: 其中核心主机3台、核心主机硬件控制台4台 ) 2、核心主机使用的配套软件3套: 其中核心主机存储切换管理软件1套,核心系统性能分析软件1套,核心系统开发工具1套 3、原厂集成实施服务: 包括核心系统生产及同城灾备三点架构环境搭建,核心业务系统数据平滑迁移 ,核心交换机4台,区域汇聚交换机32台,接入交换机118台,4套SDN控制器等软硬件设备。 采购需求: 2022年5月17日,福建省农村信用社联合社发布《数据库存储(01)采购项目等六个项目》招标公告,预算 7693 万元。 2022年5月17日,福建省农村信用社联合社发布《数据库存储(02)采购项目等六个项目》招标公告,预算未公布。

    1.1K10编辑于 2022-06-02
  • 来自专栏Hello工控

    CAN总线4优点!!!

    规模化:CAN的广泛流行本身就是一个降低成本的因素,从控制器、收发器、线束——以及更间接相关的成本,如数据采集硬件、培训等。 易于访问 CAN总线提供了与所有网络ECUs通信的“单一入口点”——使得集中诊断、数据记录和配置成为可能。 这极大地简化了诊断工作,因为你不需要为每个节点单独收集数据。 静默CAN记录:特别是,可以在“静默模式”下进行CAN总线数据记录,确保设备完全不影响CAN总线——这对于例如诊断来说至关重要。 高效 CAN帧通过ID进行优先级排序,这样高优先级的数据就能立即获得总线访问权,而不会造成其他帧的中断或CAN错误。 仲裁:当多个CAN节点尝试同时传输数据时,具有最低CAN ID(最高优先级)的帧获胜,其余的则退避并重试。这避免了碰撞,并确保了安全关键消息的优先级。

    83110编辑于 2024-10-28
  • 来自专栏量子位

    鹅厂发布模型计算集群!算力提升3倍,4天就能训完万亿规模模型

    以训练自家模型效果为例——万亿参数的混元NLP模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。 网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。 腾讯自研星脉网络,可为新一代集群带来了业界最高的3.2T的超高通信带宽。 相对业界开源集合通信库,为模型训练优化40%负载性能,消除多个网络原因导致训练中断问题。 存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。 目前,腾讯混元AI模型已经覆盖了自然语言处理、计算机视觉、多模态等基础模型和众多行业、领域模型。 未来,新一代集群不仅能服务于模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

    67720编辑于 2023-05-06
  • 来自专栏技术杂记

    QT(二).计算器(4

    name: 'pb3') Object::connect: (receiver name: 'Calc') Object::connect: No such slot QDialog::append4( ) Object::connect: (sender name: 'pb4') Object::connect: (receiver name: 'Calc') Object::connect:

    75840发布于 2021-09-14
  • 来自专栏大数据文摘

    数据路线|构建供应链金融的4步骤

    第一步:核心数据来源 无论是业务还是数据都需要有渠道来源,对于供应链金融而言,就必须选择一个核心企业,通过这类企业来获取核心的交易数据。这种企业有三类四标准。 根据上述的简单介绍,这三类企业一般都符合以下四个标准: 1、在行业中属于龙头企业、风向标; 2、具有大量上下游企业; 3、具有稳定或有规律采购以及销售流水; 4、具有较高程度的系统化信息化。 财务数据,一般是指传统财务的三报表,资产负债表、利润表以及现金流量表。 在银行传统业务中,主要是通过财务数据对风险进行评估。 无论是teradata的十主题( 当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道 ),还是风险管理中按资金风险、市场风险、信用风险、操作风险等进行分类主题,主题下的指标都需要分析人员根据统计制度手工添加 这种规则引擎模式的分析在支付宝的支付模型中有非常好的体现,例如支付宝在其风险模型中采用了六维度( 账户、设备、位置、行为、关系、偏好 ),在模型中采用了1万多条规则或策略,来判断支付行为是否有危险。

    2.3K90发布于 2018-05-21
领券