0x00 前言 周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。 0x01 大数据 “什么是大数据?” ,和数据相关的技术也都数据大数据。 2016年初 然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一大部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。 然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就大了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。 大规模数据的处理是一个非常大的课题,但是这一点更偏向于是搞技术的。 我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。
在数据湖仓一体、流批一体的背景下,数据同步作为数据流动越来越重要的一环。然而,数据同步听起来简单,做起来却处处是坑:业务急着要数据做决策,报表却迟迟出不来? 系统A和系统B的数据对不上,流程卡住,用户投诉?想搞实时同步提升体验,结果把核心数据库拖慢了?尤其在企业内部数据分析和业务流程流转等关键时刻,如果数据同步跟不上,问题就大了。 (2)技术实现:全周期一致性方案通过将存量数据校验与增量同步并行处理,缩短数据切换时间,降低业务中断风险。4.资源消耗与扩展不足(1)痛点:流式同步技术在提升实时性的同时,对计算资源的需求大大增加。 误区 4:安全防护的合规性缺失敏感数据同步需满足分类分级要求,山东大数据局明确要求传输加密、脱敏处理与最小权限管控。工具应该内置敏感数据规则,并支持操作日志审计留存,确保符合监管要求。 3.流处理平台:实时化场景方案企业可以根据场景选择单一工具或组合方案:4.新一代统一架构:流批一体与湖仓融合理想的数据同步架构应该整合流批一体引擎(Flink)、湖仓存储层(Iceberg)与智能管控面
云计算与大数据的结合可以说是天作之合。大数据需要灵活的计算环境,而后者可以快速、自动地进行扩展以支持海量数据,基础设施。 4、对数据安全永不妥协 虽然云安全通常十分复杂,但是用户在大数据部署当中还是会发现一些“安全捷径”。这些“安全捷径”通常貌似能够回避一些复杂设置,同时保持大数据结构“不受伤害”。 并不是所有的大数据基础设施是安全的,如果处于风险当中的数据非常敏感或是属于管制数据,那么用户可能需要寻找替代方案。 多备份在给用户备份数据时自动把数据压缩加密并传到多个云端平台,采用3层加密安全保护体系使得数据安全达到最高。 总结 只有为数据建立了最为严格的安全标准,大数据才能够不断地享受着由云计算提供的可扩展性、灵活性和自动化。加密被认为是保护云(大)数据的首要步骤。
我们可以利用数据发现工具或数据目录平台,自动连接到公司内部的各个数据库、数据仓库甚至文件存储。 2.核心是抓取“元数据”工具会自动采集“关于数据的数据”,比如一个数据表叫什么、在哪里、包含哪些字段(这是技术元数据);每个字段在业务上代表什么,归哪个部门管(这是业务元数据)。 3.形成数据目录将所有采集到的元数据组织起来,形成一个可搜索的、统一的数据资产地图。想象一下,这就是你公司数据的“搜索引擎”。做完这一步,你就能快速回答:我们到底有没有“客户满意度评分”这个数据? 2.设计一致的数据模型在数据汇聚的层面,比如数据仓库里,按照商定好的标准来设计和整合数据,确保口径一致。3.理清数据血缘这一点非常关键。 我们应该把处理好的数据,封装成易于使用的数据服务API、可复用的数据产品或直观的分析报表。让业务方能够方便地获取数据能力。2.尝试进行价值度量数据值多少钱?这是个难题,但我们必须尝试去回答。
通俗地说,所有网络虚拟数字货币的交易过程都是去中心化的分布式网络账本,被记录的所有交易数据都可以在区块链各个节点上共享,各个数据终端通过加密合约彼此间相互链结。 技术的关键点在于所有节点都分散保存着一个账本,单一或部分节点无法单独篡改数据。 ? 在传统金融日系,都依赖于信用背书系统。 目前大部分的金钱交易都是通过银行、保险公司、担保公司等第三受信机构作为中介完成交易的,记录单独保存于其中央数据库中,这种方式无法确保记录的完整性和唯一性。 区块链技术的四大优势表现在四个方面: 首先是免基础信任机制。 所有参与区块链交易节点都参与记录和验证,以及数据的维护。
【回顾2015】 1 关键技术进展 Hadoop: Hadoop作为大数据平台中最基础与重要的系统,在2015年提高稳定性的同时,发布了多个重要功能与特性,这使得Hadoop朝着多类型存储介质和异构集群的方向迈进了一大步 它的基本思想是,通过打标签的方式为不同的节点赋予不同的属性,这样,一个大的Hadoop集群按照节点类型被分成了若干个逻辑上相互独立(可能交叉)的集群。 ●可配置的store compression 存储的field,例如_source字段,可以使用默认的LZ4算法快速压缩,或者使用DEFLATE算法减少index size。 2015年Kylin的主要发展都在Streaming OLAP上,为了支持低延迟的数据刷新,从整体的架构和设计上都做了相当大的重新设计,目前已经可以支持从Kafka读取数据并进行聚合计算的能力,同时提供 ●2015年4月,亚马逊启动其机器学习平台Amazon Machine Learning,这是一项全面的托管服务,让开发者能够轻松使用历史数据开发并部署预测模型。
一、数据清洗是什么及应用场景高质量的数据应用必须建立在干净可靠的基础之上,数据清洗正是数据治理体系中的关键战略环节。当原始数据从采集端流入处理流程,首先需要经历系统性的 “质检” 与 “加工”。 数据清洗是什么?数据清洗是对原始数据进行系统性审查、修正、转换与整合的过程。 (4)机器学习和人工智能:模型训练极度依赖数据质量,缺失值处理不当、异常值未识别、特征尺度差异巨大,都会导致模型性能低下甚至失效。数据清洗的效果直接影响模型的上限。 (3)错误数据:拼写错误、逻辑错误等。(4)异常值:超出正常范围的数据。(5)格式混乱:日期、数字、文本等格式不一致。(6)不一致数据:跨系统、跨表的数据存在差异。(7)冗余数据:不必要的重复信息。 (4)将最终字符串转为DOUBLE类型。得到干净、可直接计算的数字型“利润_清洗”列。数据过滤设置过滤条件,筛选出符合特定条件的数据。例如,筛选出「订购日期」为2023年,「运货费」大于100的数据。
MySQL必学4种语言 本篇文章记录的是MySQL中常用的4种语言: DDL DDL,data defination language,指的是数据定义语言,其主要作用是创建数据库,对库表的结构进行删除和修改等操作 # 需要查询的字段 from table_name # 表名 where 条件 简单查询 select name, age from user where id=4; where id in :指定从哪里开始显示,显示多少行 简写:limit 5, 4:表示从第5行开始,显示4行数据 select name, age from user limit 5; -- 只显示5行数据 select name, age from user limit 5 offset 4; -- 从第4(offset)行开始显示5(limit)行数据 select name, age from user limit 4, 5 ; -- 效果同上:逗号之前是offset的内容,逗号之后是limit内容 MySQL中的DQL应该是最常用的,请参考《MySQL经典50题》
5月24日,吉林省农村信用社联合社发布《2022年核心主机及配套存储等设备采购项目》竞争性谈判公告 预算金额:8688 万元 采购需求: 1、硬件设备共计31台: 其中核心主机3台、核心主机硬件控制台4台 ) 2、核心主机使用的配套软件3套: 其中核心主机存储切换管理软件1套,核心系统性能分析软件1套,核心系统开发工具1套 3、原厂集成实施服务: 包括核心系统生产及同城灾备三点架构环境搭建,核心业务系统数据平滑迁移 ,核心交换机4台,区域汇聚交换机32台,接入交换机118台,4套SDN控制器等软硬件设备。 采购需求: 2022年5月17日,福建省农村信用社联合社发布《数据库存储(01)采购项目等六个项目》招标公告,预算 7693 万元。 2022年5月17日,福建省农村信用社联合社发布《数据库存储(02)采购项目等六个项目》招标公告,预算未公布。
规模化:CAN的广泛流行本身就是一个降低成本的因素,从控制器、收发器、线束——以及更间接相关的成本,如数据采集硬件、培训等。 易于访问 CAN总线提供了与所有网络ECUs通信的“单一入口点”——使得集中诊断、数据记录和配置成为可能。 这极大地简化了诊断工作,因为你不需要为每个节点单独收集数据。 静默CAN记录:特别是,可以在“静默模式”下进行CAN总线数据记录,确保设备完全不影响CAN总线——这对于例如诊断来说至关重要。 高效 CAN帧通过ID进行优先级排序,这样高优先级的数据就能立即获得总线访问权,而不会造成其他帧的中断或CAN错误。 仲裁:当多个CAN节点尝试同时传输数据时,具有最低CAN ID(最高优先级)的帧获胜,其余的则退避并重试。这避免了碰撞,并确保了安全关键消息的优先级。
第一步:核心数据来源 无论是业务还是数据都需要有渠道来源,对于供应链金融而言,就必须选择一个核心企业,通过这类企业来获取核心的交易数据。这种企业有三大类四大标准。 根据上述的简单介绍,这三大类企业一般都符合以下四个标准: 1、在行业中属于龙头企业、风向标; 2、具有大量上下游企业; 3、具有稳定或有规律采购以及销售流水; 4、具有较高程度的系统化信息化。 财务数据,一般是指传统财务的三大报表,资产负债表、利润表以及现金流量表。 在银行传统业务中,主要是通过财务数据对风险进行评估。 无论是teradata的十大主题( 当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道 ),还是风险管理中按资金风险、市场风险、信用风险、操作风险等进行分类主题,主题下的指标都需要分析人员根据统计制度手工添加 这种规则引擎模式的分析在支付宝的支付模型中有非常好的体现,例如支付宝在其风险模型中采用了六大维度( 账户、设备、位置、行为、关系、偏好 ),在模型中采用了1万多条规则或策略,来判断支付行为是否有危险。
这些数据可以来自多个不同的数据源,例如:(1)数据库:企业内部的关系型数据库、非关系型数据库,存储着结构化或半结构化的数据。 (3)传感器:物联网设备中的传感器,如温度传感器、压力传感器、摄像头等,产生实时的、连续的数据流。(4)网络:通过网络爬虫从互联网上抓取的数据,如社交媒体数据、新闻资讯、用户评论等。 (3)图像数据:如产品图片、监控摄像头图像、医学影像等,需要通过计算机视觉技术进行处理和分析。(4)视频数据:如视频监控、在线教育视频、广告视频等,数据量大,处理难度较高。 不同的融合方法适用于不同的场景和需求,选择合适的方法是实现高效数据融合的关键。4.应用领域数据融合在许多领域都有广泛应用,包括商业智能和数据分析、医疗健康、智能城市、军事情报分析、环境监测等。 通过FineDataLink进行数据质量监控,能够让相关人员及时了解到数据质量的情况,进而采取相应的措施。4.协同合作与知识共享在数据融合过程中,不同团队或者部门之间需要进行有效的协同合作与知识共享。
深度学习4大激活函数 如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出实际上都是上层输入的线性函数。 本文将介绍深度学习中的4个常见的激活函数,从原函数公式、导数函数及二者的可视化来进行对比: Sigmoid函数 Tanh函数 ReLu函数 Leaky ReLu函数 激活函数特征 非线性:激活函数满足非线性时 当X无穷大的时候,函数值趋于1;X无穷小的时候,趋于0。相当于对输入进行了归一化操作。 Sigmod函数存在幂运算,计算复杂度大,训练时间长。 frac{a-b}{a+b}\right){\prime}=\frac{(a-b)^{\prime} \times(a+b)-(a-b) \times(a+b){\prime}}{(a+b)2} 步骤4、
随着大数据技术的普及,IBM公司为我们总结了大数据的五大特点(也称为5V特点),即Volume(大量)、Velocity(快速)、Variety(多样)、Veracity(真实)和Value(价值),如图 ▲图1-1 大数据的五大特点 大数据时代为人们带来了丰富多彩的生活方式,让人们充分享受着从大数据中挖掘而来的价值。但也正因为大数据产生得太多太快,让我们开始疲于对正在发生的事情做出及时反应。 4. 实时推荐 实时推荐是实时流计算技术的另一个常见应用场景。如今手机几乎成为每一个年轻人的必备品。 4. 无限性 流数据是一种随时间无限增长的数据序列。这是流数据和批数据最本质的区别。批数据在每次处理时数据量是有限的,而流数据没有“每次”的概念,它总在不断产生,无穷无尽。 在实时流数据的四大特点中,无限性是流数据相比批数据最大的区别,这直接导致了流处理和批处理的查询模式有所不同。批处理是在固定数据集上进行不同的查询,而流处理是在无限数据集上进行固定的查询。
鉴于研究中研究的学习和信用分配方案,在第 4 节中,我们考虑了神经科学启发的机器学习研究面临的重要开放性问题和挑战,以及可能取得进展的有前景的问题领域。 一些变体利用标签作为上下文信息,并通过前馈传播路径运行该标签,而其他一些则使用一种机制来自动生成对抗性的“负”数据样本作为上下文信息,然后通过前馈路径运行这些数据样本(即,这些方案将对抗数据点的“良好度 ”最小化,并将良好度最大化为从原始数据集中获取的数据点)。 注意,在等式11中,我们明确了活动向量 是从原始数据集D采样输入模式的产物,而 是从负面/敌对数据分布 采样的。 4 Future Directions for Research未来研究方向 尽管近年来在生物启发式(bio-inspired)学习方法方面取得了显著的进展和活动,但这些方法尚未达到反向传播(backpropagation
4大方法进行特征选择 特征选择能剔除和目标变量不相关(irrelevant)或冗余(redundant )的特征,以此来减少特征个数,以此来达到提高模型精确度,减少运行时间的目的。 另一方面,筛选出真正相关的特征之后也能够简化模型,经常听到的这段话足以说明特征工程以及特征选择的重要性: 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 本文记录的是使用4种不同的方法来进行机器学习中特征的重要性排序 from sklearn.preprocessing import MinMaxScaler from sklearn.ensemble import RandomForestRegressor 导入数据 [3]: (21613, 21) In [4]: # 字段缺失值 house.isnull().sum() Out[4]: id 0 date 0 price ) plt.show() 下面是用对其他3种方式进行特征的重要性进行探索,先实施数据的分割 数据分离 In [14]: # 1、先提取目标变量 y = house.price.values
1、插入缓冲(insert buffer) 2、二次写(double write) 3、自适应哈希索引(ahi) 4、预读(read ahead)
Langchain架构 LangChain工具 组件:大模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六大模块 模块 核心作用 Vectorstores 向量数据库 因为数据相关性搜索其实是向量运算。 转换成向量也很简单,只需要我们把数据存储到对应的向量数据库中即可完成向量的转换。 官方也提供了很多的向量数据库供我们使用。 Agent作为高级模块,可调用其他所有模块功能 大模型接入 接入示例 云服务和私有化大模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商大模型 较低,开箱即用 算力资源充足,大模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化大模型 较高,自建大模型网关、服务鉴权、可用性等 算力硬件投入成本高,大模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强
北京时间3月2日凌晨,DJI大疆创新在美国纽约举行新品发布会,发布了精灵系列新品——大疆精灵Phantom 4。 发布会并没太多惊喜,因为在发布会开始前Phantom 4的照片已被曝光过。 关于Phantom 4的几大改进,我们总结如下: 第一、机身更紧凑 精灵4的机身设计在电池上留出了更大空间,因此,电池容量得以提高。 Phantom 4与Phantom 3主要参数区别如下: 据悉,Phantom 4在中国大陆地区的官方售价为8999元人民币。 自即日起,从大疆的官方自营渠道:官网商城、天猫旗舰店、大疆欢乐海岸旗舰店就可购买。Apple官网商城和Apple Store零售店即将开始接受Phantom 4的预定;3月15日起上述各渠道开始发货。 大疆各授权经销商将于4月1日起开始对外发货。
根据IBM的2019年数据泄露成本报告,美国数据泄露的平均成本为819万美元。公司平均需要206天才能识别出泄露,尝试解决这些问题则平均需要38天。 这些统计数据和其他数百起有关网络犯罪的数据都非常醒目。网络攻击已不可避免,这是开展业务需要承担的另一成本。但是,企业可以采取很多措施来降低风险,特别是在漏洞管理方面。