首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏木东居士的专栏

    闲聊4数据经历

    0x00 前言 周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。 0x01 大数据 “什么是大数据?” ,和数据相关的技术也都数据数据。 2016年初 然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。 然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。 大规模数据的处理是一个非常的课题,但是这一点更偏向于是搞技术的。 我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。

    85230发布于 2018-05-25
  • 数据同步最全避坑指南!4痛点+4场景技术方案

    数据湖仓一体、流批一体的背景下,数据同步作为数据流动越来越重要的一环。然而,数据同步听起来简单,做起来却处处是坑:业务急着要数据做决策,报表却迟迟出不来? 系统A和系统B的数据对不上,流程卡住,用户投诉?想搞实时同步提升体验,结果把核心数据库拖慢了?尤其在企业内部数据分析和业务流程流转等关键时刻,如果数据同步跟不上,问题就了。 (2)技术实现:全周期一致性方案通过将存量数据校验与增量同步并行处理,缩短数据切换时间,降低业务中断风险。4.资源消耗与扩展不足(1)痛点:流式同步技术在提升实时性的同时,对计算资源的需求大大增加。 误区 4:安全防护的合规性缺失敏感数据同步需满足分类分级要求,山东大数据局明确要求传输加密、脱敏处理与最小权限管控。工具应该内置敏感数据规则,并支持操作日志审计留存,确保符合监管要求。 3.流处理平台:实时化场景方案企业可以根据场景选择单一工具或组合方案:4.新一代统一架构:流批一体与湖仓融合理想的数据同步架构应该整合流批一体引擎(Flink)、湖仓存储层(Iceberg)与智能管控面

    59310编辑于 2025-09-22
  • 来自专栏云计算D1net

    数据时代 云安全4策略

    云计算与大数据的结合可以说是天作之合。大数据需要灵活的计算环境,而后者可以快速、自动地进行扩展以支持海量数据,基础设施。 4、对数据安全永不妥协 虽然云安全通常十分复杂,但是用户在大数据部署当中还是会发现一些“安全捷径”。这些“安全捷径”通常貌似能够回避一些复杂设置,同时保持大数据结构“不受伤害”。 并不是所有的大数据基础设施是安全的,如果处于风险当中的数据非常敏感或是属于管制数据,那么用户可能需要寻找替代方案。 多备份在给用户备份数据时自动把数据压缩加密并传到多个云端平台,采用3层加密安全保护体系使得数据安全达到最高。 总结 只有为数据建立了最为严格的安全标准,大数据才能够不断地享受着由云计算提供的可扩展性、灵活性和自动化。加密被认为是保护云()数据的首要步骤。

    1.3K70发布于 2018-03-21
  • 来自专栏Datawhale专栏

    Datawhale出品:《GLM-4 模型部署微调教程》发布!

    Datawhale开源 开源贡献:Datawhale self-llm团队 前言 就在昨天,智谱 AI 发布了最新开源模型 GLM4,通过 10T 高质量多语言数据与更先进的训练技术,达到了更加出色的生成效果 Datawhale成员万字测评(二) 教程介绍 秉承开源贡献的宗旨,Datawhale团队成员在模型发布 12 小时 之内,为 编写了GLM-4整套教学流程,包括: 模型 api 部署; Langchain 教程除提供过程代码外,还贴心为学习者提供了训练数据与 Autodl 环境镜像,方便学习者一键运行!! 项目介绍 《开源模型食用指南》是一个围绕开源模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属模型教程,针对各类开源模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源模型的部署 除 GLM4 外,项目已支持 LLama3, InternLM, Qwen1.5 等 20 项开源模型全流程教程,并且,本项目代码全部开源!!

    1.8K20编辑于 2024-06-08
  • 来自专栏IT云清

    arthas教程4

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    44210发布于 2019-10-25
  • 来自专栏媒矿工厂

    WebRTC 教程 (4)

    WebRTC 教程(1) WebRTC 教程(2) WebRTC 教程 (3) 目录 WebRTC 聊天室:设计 WebRTC 聊天室:信令服务器 WebRTC 聊天室:客户端部署 WebRTC 聊天室 讲者接着介绍了对于搭建聊天室,会需要用到哪些 WebRTC 功能或 API: 只要用户登录并请求聊天室,就会有一个 RTCPeerConnection; 对于数据传输,用户需要创建 RTCDataChannel http://mpvideo.qpic.cn/0bc3viaaqaaa24aix737ybrfbkwdbcvaacaa.f10002.mp4?

    1.7K20编辑于 2022-05-24
  • 数据资产怎么管?关键在这4环节!

    我们可以利用数据发现工具或数据目录平台,自动连接到公司内部的各个数据库、数据仓库甚至文件存储。 2.核心是抓取“元数据”工具会自动采集“关于数据数据”,比如一个数据表叫什么、在哪里、包含哪些字段(这是技术元数据);每个字段在业务上代表什么,归哪个部门管(这是业务元数据)。 3.形成数据目录将所有采集到的元数据组织起来,形成一个可搜索的、统一的数据资产地图。想象一下,这就是你公司数据的“搜索引擎”。做完这一步,你就能快速回答:我们到底有没有“客户满意度评分”这个数据? 2.设计一致的数据模型在数据汇聚的层面,比如数据仓库里,按照商定好的标准来设计和整合数据,确保口径一致。3.理清数据血缘这一点非常关键。 我们应该把处理好的数据,封装成易于使用的数据服务API、可复用的数据产品或直观的分析报表。让业务方能够方便地获取数据能力。2.尝试进行价值度量数据值多少钱?这是个难题,但我们必须尝试去回答。

    32310编辑于 2025-12-08
  • 来自专栏数据科学(冷冻工厂)

    RNA-seq 详细教程:count 数据探索(4

    学习目标了解 RNA-seq count 数据的特征比较 count 数据的不同数学模型确定最适合 RNA-seq count 数据的模型了解设置生物学重复对于鉴定样本间差异的好处1. 数据建模计数数据一般可以用各种分布建模:二项分布泊松分布那么应该选择那一个呢?在 RNA-seq 数据中,代表了非常多的 RNA,提取出特定转录本的概率非常小。这种情况泊松分布可能是最合适的。 然而,这还取决于我们数据中均值和方差之间的关系。3.1. 均值与方差为了评估正在处理的数据的特征,可以使用与 Mov10 过表达”对应的三个重复样本。 4. 重复与差异生物重复代表对应于同一样本类别或组的多个样本(即来自不同小鼠的 RNA)。直觉上,我们期望来自同一样本组的样本(即在相似条件或扰动下的样本)表现出相似的转录谱。 我们将在本教程中使用 DESeq2 进行分析。 DESeq2 的分析步骤在下面的流程图中以绿色和蓝色显示。图片

    1.5K10编辑于 2023-01-29
  • 来自专栏Spring Cloud设计原理

    Junit 4 Tutorials(Junit 4 教程)

    教程是比较全面的、较新的Junit 4 实用教程,译自:http://www.javatutorials.co.in/junit-4/,希望对大家有所帮助! 以下是本教程的内容设置,读者可以点击以下标题进行阅读: Junit测试框架介绍 Junit 测试框架是最流行的Java单元测试框架。Junit被用来开发Java类的单元测试。 Junit Eclipse教程 介绍eclipse IDE 中junit的相关特性及其使用方法。在eclipse IDE中书写和运行单元测试代码的样例。 Junit 4注解 Junit4 注解提供了书写单元测试的基本功能。 Junit 4参数化测试 参数化测试允许使用不同范围的参数测试Java类中的方法。 Junit 4测试套件(Test Suite) 使用测试套件类来同时运行各种测试类。

    75220发布于 2021-09-14
  • 来自专栏数据科学(冷冻工厂)

    RNA-seq 详细教程:count 数据探索(4

    学习目标 了解 RNA-seq count 数据的特征 比较 count 数据的不同数学模型 确定最适合 RNA-seq count 数据的模型 了解设置生物学重复对于鉴定样本间差异的好处 1. 对于 RNA-seq 数据,情况总是如此。此外,正如我们之前观察到的,数据是整数计数而不是连续测量。在决定使用哪种统计模型时,我们需要考虑这些特征。 3. 数据建模 计数数据一般可以用各种分布建模: 二项分布[1] 泊松分布 那么应该选择那一个呢? 在 RNA-seq 数据中,代表了非常多的 RNA,提取出特定转录本的概率非常小。 4. 重复与差异 生物重复代表对应于同一样本类别或组的多个样本(即来自不同小鼠的 RNA)。直觉上,我们期望来自同一样本组的样本(即在相似条件或扰动下的样本)表现出相似的转录谱。 我们将在本教程中使用 DESeq2[2] 进行分析。 DESeq2 的分析步骤在下面的流程图中以绿色和蓝色显示。

    1.1K30编辑于 2023-02-27
  • 来自专栏深入浅出区块链技术

    Solidity 教程系列4 - 数据存储位置分析

    Solidity教程系列第4篇 - Solidity数据位置分析。 (arrays)和数据结构(struct)有一个额外的属性:数据的存储位置(data location)。 根据上下文的不同,大多数时候数据位置有默认值,也通过指定关键字storage和memory修改它。 函数参数(包含返回的参数)默认是memory。 状态变量:合约内声明的公有变量 还有一个存储位置是:calldata,用来存储函数参数,是只读的,不会永久存储的一个数据位置。外部函数的参数(不包括返回参数)被强制指定为calldata。 数据位置指定非常重要,因为他们影响着赋值行为。 在memory和storage之间或与状态变量之间相互赋值,总是会创建一个完全独立的拷贝。

    1.6K30发布于 2018-07-23
  • 来自专栏程序你好

    区块链4优势,与传统金融4短板

    通俗地说,所有网络虚拟数字货币的交易过程都是去中心化的分布式网络账本,被记录的所有交易数据都可以在区块链各个节点上共享,各个数据终端通过加密合约彼此间相互链结。 技术的关键点在于所有节点都分散保存着一个账本,单一或部分节点无法单独篡改数据。 ? 在传统金融日系,都依赖于信用背书系统。 目前大部分的金钱交易都是通过银行、保险公司、担保公司等第三受信机构作为中介完成交易的,记录单独保存于其中央数据库中,这种方式无法确保记录的完整性和唯一性。 区块链技术的四优势表现在四个方面: 首先是免基础信任机制。 所有参与区块链交易节点都参与记录和验证,以及数据的维护。

    1.2K10发布于 2018-07-20
  • 全面解析MySQL(4)——三范式与联合查询实例教程

    1.三范式 概念:数据库三范式(Normal Forms)是关系型数据库设计中的基本原则,用于减少数据冗余和提高数据一致性 1.1 第一范式(1NF) 定义:确保每一列的原子性,即每一列都是不可再分的最小数据单元 ,用于唯一标识表中的每一行数据。 ) 性别(sex) 课程名(course_name) 学分(credit) 分数(score) 1 张三 男 MySQL 4 80 2 李四 女 Java 4 75 1 张三 男 Java 4 70 3 王五 男 MySQL 4 85 姓名、性别两列由学号确定,和课程名没关系,即姓名和学号两列部分依赖学号;学分由课程名确定,和学号没关系,即学分这列部分依赖课程名 数据冗余:姓名、性别、学分三列在表中重复出现 :研发部名称重复存储 更新异常:修改部门所在地需要更新多条记录 2.联合查询 2.1 概述 使用场景:在数据设计时由于三范式的要求,数据被拆分到多个表中,那么要查询⼀条数据的完整信息,就要从多个表中获取数据

    19810编辑于 2026-01-13
  • 来自专栏灯塔大数据

    4位专家解读2015数据技术进展

    【回顾2015】 1 关键技术进展 Hadoop: Hadoop作为大数据平台中最基础与重要的系统,在2015年提高稳定性的同时,发布了多个重要功能与特性,这使得Hadoop朝着多类型存储介质和异构集群的方向迈进了一步 它的基本思想是,通过打标签的方式为不同的节点赋予不同的属性,这样,一个的Hadoop集群按照节点类型被分成了若干个逻辑上相互独立(可能交叉)的集群。 ●可配置的store compression 存储的field,例如_source字段,可以使用默认的LZ4算法快速压缩,或者使用DEFLATE算法减少index size。 2015年Kylin的主要发展都在Streaming OLAP上,为了支持低延迟的数据刷新,从整体的架构和设计上都做了相当的重新设计,目前已经可以支持从Kafka读取数据并进行聚合计算的能力,同时提供 ●2015年4月,亚马逊启动其机器学习平台Amazon Machine Learning,这是一项全面的托管服务,让开发者能够轻松使用历史数据开发并部署预测模型。

    93870发布于 2018-04-10
  • 来自专栏华章科技

    在中国我们如何收集数据?全球数据收集教程

    来源:36数据(ID:dashuju36) 以前都是有小伙伴说想找点数据,自己来试试手,想分析出一些好的东西来。现在我们分享这篇文章给大家,也希望大家可以实现一个小的梦想,数据在这里,分析等你来。 为了便于对这些数据做进一步的处理,接下来的工作可能有点枯燥:把你找的数据一个一个地输入到电脑。 至于若干国家长期的统计数据,两个不可多得的数据来源是,Heston-Summers数据库和Madison数据库。 数据覆盖了全球及美国经济。数据文件用PKZip格式压缩。 转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

    2.3K20发布于 2018-08-16
  • 数据清洗,必须掌握的5解决方案+4步骤

    一、数据清洗是什么及应用场景高质量的数据应用必须建立在干净可靠的基础之上,数据清洗正是数据治理体系中的关键战略环节。当原始数据从采集端流入处理流程,首先需要经历系统性的 “质检” 与 “加工”。 数据清洗是什么?数据清洗是对原始数据进行系统性审查、修正、转换与整合的过程。 (4)机器学习和人工智能:模型训练极度依赖数据质量,缺失值处理不当、异常值未识别、特征尺度差异巨大,都会导致模型性能低下甚至失效。数据清洗的效果直接影响模型的上限。 (3)错误数据:拼写错误、逻辑错误等。(4)异常值:超出正常范围的数据。(5)格式混乱:日期、数字、文本等格式不一致。(6)不一致数据:跨系统、跨表的数据存在差异。(7)冗余数据:不必要的重复信息。 (4)将最终字符串转为DOUBLE类型。得到干净、可直接计算的数字型“利润_清洗”列。数据过滤设置过滤条件,筛选出符合特定条件的数据。例如,筛选出「订购日期」为2023年,「运货费」大于100的数据

    45210编辑于 2025-09-26
  • 来自专栏Spring Cloud设计原理

    Junit 4 Tutorials(Junit 4 教程) 一、Junit简介及Junit Eclipse 教程

    Junit 4 特性 简单的注解,提供书写Junit测试的基本特性 断言方法(Assert Methods)比较测试的方法执行结果值和期望值 @Ignore 注解,忽略测试方法或者测试类的执行 期望异常测试 超时测试 , 测试方法的执行时间 测试组件,一起运行一些测试类 参数化测试, 以不同的输入参数值测试方法 Junit Eclipse教程 介绍eclipse IDE 中junit的相关特性及其使用方法 ArithmeticTest.java → Run As → Junit Test 如下所示,我们可以在eclipse 的左边栏junit窗口看到运行结果: 源码下载 点击我下载源码 教程目录导航 Junit测试框架介绍 Junit Eclipse教程 Junit 4注解 Junit 4断言方法(Assert methods) Junit 4参数化测试 Junit 4测试套件(Test Suite ) Junit 4忽略测试(Ignore Test) Junit 4超时测试(Timeout Test) ------------------------------------------------

    1.5K10发布于 2021-09-14
  • 来自专栏软件测试开发短篇

    Python自学教程4-数据类型学什么

    Hi,我是九柄,全网同号,今天我们说说Python的数据类型。python数据类型有什么特点每一门编程语言都要学数据类型的,每种类型的操作会稍微有一点区别。 setprint(isinstance({1,2,3}, set))# NoneTypeprint(None is None)TrueTrueTrueTrueTrueTrueTrueTrueTrue有的教程会用 数据类型转换几乎所有的数据类型都是可以转化成字符串的,但是反过来则不一定。数据类型转换需要满足特定的规则。 (1.7)) # bool 转成 int, True 为 1, False 为 0 print(int(True)) # str 转成 int, 必须是整数格式 print(int("4" )) 1 1 4转换成浮点数 # int 转换成 float print(float(3)) # bool 转换成 float print(float(True)) # str

    34410编辑于 2022-08-24
  • 来自专栏腾讯云大数据

    Flink 实践教程-入门(4):读取 MySQL 数据写入到 ES

    本文将为您详细介绍如何使用 MySQL 接入数据,经过流计算 Oceanus 对数据进行处理分析(示例中采用小写转换函数对name字段进行了小写转换),最终将处理好的数据存入 Elasticsearch 1.2 准备数据 首先创建 testdb 库,并在 testdb 库中创建用户 user 表,并插入数据。 创建流计算 Oceanus 集群 进入流计算 Oceanus 控制台[3],点击左侧【集群管理】,点击左上方【创建集群】,具体可参考流计算 Oceanus 官方文档创建独享集群[4]。 into es_sink( select user_id, LOWER(user_name) -- LOWER()函数会将用户名转换为小写 from user_source); 4. document/product/236/46433 [3]: 流计算 Oceanus 控制台:https://console.cloud.tencent.com/oceanus/overview [4]

    1.7K30发布于 2021-11-09
  • 来自专栏腾讯云流计算 Oceanus

    Flink 实践教程:入门4-读取 MySQL 数据写入 ES

    本文将为您详细介绍如何使用 MySQL 接入数据,经过流计算 Oceanus 对数据进行处理分析(示例中采用小写转换函数对name字段进行了小写转换),最终将处理好的数据存入 Elasticsearch 1.2 准备数据 首先创建 testdb 库,并在 testdb 库中创建用户 user 表,并插入数据。 进入 Oceanus 控制台[3],点击左侧【集群管理】,点击左上方【创建集群】,具体可参考 Oceanus 官方文档创建独享集群[4]。 into es_sink ( select user_id, LOWER(user_name) -- LOWER()函数会将用户名转换为小写 from user_source ); 4. document/product/236/46433 3: 流计算 Oceanus 控制台:https://console.cloud.tencent.com/oceanus/overview 4:

    1.8K50编辑于 2021-12-08
领券