首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据与微服务架构

    千亿级海量数据库OceanBase

    OceanBase是阿里集团研发的可扩展性关系型数据库,实现了数千亿条记录、数百TB数据上的跨行跨表事务。 OceanBase的目标是支持数百TB的数据量以及数十万TPS、数百万QPS的访问量。 一、OceanBase系统架构: 1、客户端:使用OceanBase的方式与MySQL完全相同,支持JDBC、C客户端访问,基于MySQL数据库开发的应用可以直接迁移至OceanBase。 4、ChunkServer:存储OceanBase系统的基线数据,一般存储两份到三份,可配置。 主要功能:存储多个子表,提供读取服务,执行定期合并以及数据分发。 三、OceanBase扩展 OceanBase融合了分布式存储系统和关系型数据库这两种技术,UpdateServer相当于一个高性能内存数据库,底层采用关系型数据库技术实现,ChunkServer相当于一个分布式文件存储系统

    2.6K10发布于 2020-04-11
  • 来自专栏Eliauk的小窝

    项目如何适配国产海量数据库

    postgresql即可 注意:postgresql的驱动类是:org.postgresql.Driver 要注意的是:postgresql的url中需要指定currentSchema=xxxx 这是一个默认访问的数据库

    94310编辑于 2024-03-16
  • YashanDB数据库海量数据存储方案解析

    在现代的数据库应用中,如何有效存储与管理海量数据,一直是技术发展与应用实践中的重大挑战。面对不断增长的数据量,传统数据库的存储方案往往难以满足高效性、扩展性和可靠性的需求。 因此,合理的海量数据存储方案显得尤为重要。本文将重点讨论YashanDB的各类存储方案与技术架构,帮助读者理解其背后的原理与优势。 适合高并发、海量数据分析等应用场景。共享集群部署共享集群通过共享存储,所有实例均可读写,提高了数据访问的效率。该模式通常用于对高可用、高性能以及可扩展性都有较高要求的场景。 YashanDB数据库将数据组织成不同的逻辑结构,以应对不同的业务需求。段页式存储管理YashanDB在段的管理能力上,可将数据库对象划分为多个段,段根据不同的存储需求可以被细分。 结论YashanDB提供了多样化的海量数据存储解决方案,结合先进的存储架构、逻辑管理、并发控制与高可用机制,能够高效支撑不同规模业务场景下对数据的存储与管理需求。

    12200编辑于 2025-07-06
  • 来自专栏腾讯云数据库(TencentDB)

    腾讯云数据库海量数据交互之道

    TDSQL-A是在腾讯业务场景下诞生的在线分布型OLAP数据库系统,在处理海量数据分析业务的过程中持续对产品构架进行升级调整,是PG生态中分析型MPP产品的又一力作。 本文将由腾讯云数据库专家工程师伍鑫老师为大家详细介绍TDSQL-A的发展历程、技术架构和创新实践,以下为分享实录: TDSQL-A发展历程 TDSQL-A是一款基于PostgreSQL自主研发的分布式在线关系型数据库 是一个面向海量数据实时在线分析产品,采用无共享MPP构架。面向分析型场景的极致性能优化,我们自研了列式存储,同时也支持行列混合存储模式。 这里有两层,首先是通用的透明压缩,透明压缩会使用LZ4或Zstd算法,针对特定数据类型会加轻量级压缩能力。 比如整数类型,如果是low我们用Delta+RLE,middle和high就会加上Lz4或Zstd类似透明压缩。

    2.1K30编辑于 2022-02-15
  • 来自专栏JavaQ

    支撑海量数据的数据库架构如何设计?

    分库分表 说白了就是大量分表来保证海量数据下的查询性能。 import java.util.Map; import java.util.Set; import java.util.concurrent.CountDownLatch; import org.slf4j.Logger ; import org.slf4j.LoggerFactory; import lombok.ToString; /** * Copyright: Copyright (c) 2019 * 用 10 bit 作为工作机器 id,12 bit 作为序列号 *

    * @version: v1.0.0 * @author: BianPeng * @date: 2019年4月 Version Description *---------------------------------------------------------------* * 2019年4

    1.3K20发布于 2019-06-02
  • 来自专栏小工匠聊架构

    Oracle海量数据优化-02分区在海量数据库中的应用-更新中

    ---- 概述 以前梳理了一篇文章, 案例不是很充分 Oracle-分区表解读 故本篇博文系统的再重新阐述一下 当我们对海量数据的Oracle数据库进行管理和维护时,几乎无一例外的使用了分区(partition 分区是Oracle数据库中对海量数据存储管理提供的一个应用很广泛的技术,它可以非常方便的加载数据、删除数据和移动数据,特别是对于一个拥有海量数据的OLAP及数据仓库系统的数据库来说,更是如此。 有一个分区裁剪功能,只对需要处理的分区进行扫描,这样扫描的数据块会大大的减少,使查询效率提高 分区更利于数据维护, 可以只对单独分区进行备份、恢复,这样就可以大大的缩短数据备份、恢复的时间 分区有利于数据库数据的过期化处理

    1.8K20发布于 2021-08-16
  • 来自专栏Cloud Native - 产品级敏捷

    海量数据, 为何总是 海量垃圾 ?!

    2017.9.10, 深圳, Ken Fang 雷军说:我拥有海量的数据, 却不知道怎么用?每年, 花在存储海量数据的费用, 也是海量;足以使企业破产⋯ 为何会如此? 当我们将所谓 “海量数据分析” 的神秘面纱给揭开时, 打破 “海量数据分析” 的神话, 就会很容易的明白, 真正的问题到底出在哪?为何谷歌能做到的, 我们却做不到? 大家都明白的 Common Sense: 做海量数据分析, 要先能建立数据模型;有了数据模型, 我们才能从 “海量” 数据中, 去提炼出 “有用” 的数据。 海量数据分析最关键、最重要的ㄧ步:将海量数据 “转换” 为有用的数据。 而数据模型建立的前提是: @ 要能先分析出, 产生数据背后的 “用户的目的” 。例如:用户是基于什么样的社会事件?天灾? 这样的数据, 再如何的 “海量”, 也根本没法经由 “数据分析师”, 使用任何的数据分析工具, 建立出任何有效的数据模型;海量数据将永远没办法转换为有用的数据。 为什么谷歌能做得到?

    1.4K50发布于 2018-01-05
  • YashanDB数据库如何保障海量数据安全与隐私

    在现代信息技术迅猛发展的时代,数据库管理系统面临着数据安全与隐私保护的重大挑战。随着企业集成越来越多的海量数据,确保这些数据在存储、传输及访问过程中的安全性和隐私保护变得尤为重要。 YashanDB作为一个高性能、高可用的数据库系统,实施了多种措施以保障数据安全与隐私内容。 用户可以选择不同的加密算法,如AES128、AES192、AES256和国密SM4等,灵活应对不同的安全需求。传输加密使用SSL/TLS协议,确保客户端与服务端之间数据传输的机密性和完整性。 4. 多版本并发控制(MVCC)YashanDB利用多版本并发控制技术实现了读写之间的隔离。在多版本机制下,读操作不会阻塞写操作,确保用户在查询时能够读取到一致性数据,而不受其他事务影响。 定期执行数据库备份并测试恢复过程,确保在紧急情况下数据能够快速恢复。结论YashanDB通过加密、访问控制、完整性约束、多版本控制和高可用性等技术手段,有效保障了海量数据的安全与隐私。

    16810编辑于 2025-07-05
  • 如何在YashanDB数据库中高效处理海量数据

    在现代数据库技术中,海量数据的管理和处理成为了一个普遍存在的挑战。随着数据规模的不断扩大,性能瓶颈、数据一致性问题以及易用性需求等问题日益凸显。 YashanDB作为一款专为处理海量数据而设计的数据库,凭借其高可扩展性、高并发性能和高可用性,提供了一系列技术手段以应对这些挑战。 本文旨在探讨如何在YashanDB中高效地管理和处理海量数据,目标读者为数据库管理员、数据工程师及相关技术人员。 4. 动态SQL和PL语言支持YashanDB提供了强大的PL语言支持,使得用户可以在服务器端编写复杂的业务逻辑处理,减少客户端与服务器之间的网络交互,从而提高效率。 定期监控数据库性能,分析慢查询,优化执行计划,确保海量数据高效处理。启用数据加密保护机制,加强数据安全,防止数据泄露风险。

    13700编辑于 2025-07-18
  • YashanDB数据库如何帮助企业应对海量数据挑战

    传统数据库系统在面对多样化的数据类型和复杂的业务场景时,性能瓶颈和管理复杂性逐渐显现。 YashanDB作为一款先进的企业级数据库产品,通过其多态部署架构、高性能存储引擎和智能优化器,有效提升了海量数据环境下的处理能力与业务连续性。 分布式部署结合MN(管理节点)、CN(协调节点)、DN(数据节点)实现数据的横向扩展,适用海量数据分析和复杂事务处理。 身份认证支持数据库认证和操作系统认证,多因素密码策略增强安全防护。审计功能涵盖系统权限、对象操作及角色变更,异步审计机制降低性能影响。 利用主备自动选主和共享集群高可用特性,实现数据库的故障自动检测与快速恢复,保证关键业务连续性。

    32910编辑于 2025-08-29
  • 巧用YashanDB数据库实现海量数据快速查询

    在现代数据驱动的业务场景中,如何应对海量数据的快速查询需求成为数据库技术的核心问题。数据量的持续增长给存储和计算带来巨大压力,查询性能瓶颈不仅影响用户体验,还制约业务决策的实时性。 因此,挖掘数据库内核技术的潜力,通过系统性的优化手段,实现海量数据的高效访问,是提升整体系统竞争力的关键。 本文针对YashanDB数据库,通过深入分析其架构与核心技术,解析其如何支持海量数据场景下的高效查询,提供系统的技术方法与优化策略,帮助开发与运维人员提升对该技术体系的理解和应用能力。 随着数据采集和处理需求的持续增长,数据库技术的体系化优化将成为提升核心竞争力的重要方向。 未来,结合智能调度、自动化运维及机器学习辅助优化,YashanDB的查询性能和系统可用性将更进一步,满足复杂业务对海量数据实时、高效访问的挑战,引领行业数据库技术的演进。

    17200编辑于 2025-06-27
  • 来自专栏ShowMeAI研究中心

    图解大数据 | 海量数据库查询-Hive与HBase详解

    3) HBase与大数据数据库、 HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。 HBase是一个数据模型,类似于谷歌的Bigtable设计,可以提供快速随机访问海量结构化数据。 [49c6e15bdddffe07d564da60bea44fd7.png] 4) HBase在大数据生态环境中的位置 HBase在大数据生态环境中的位置如下图所示,它建立在Hadoop HDFS之上的分布式面向列的数据库 [f1f4c8fa45dd6ffab4fee0fcd2ddad23.png] 2) Region组件 HBase Tables 通过行健的范围(row key range)被水平切分成多个Region。 4) Hive与传统数据库对比 [26c6110854d492e76050eb6188c44eca.png] 5) Hive的体系架构 [28a9600e4a63e081d5bd26bba523ed79 海量结构化数据离线分析。

    2.5K71编辑于 2022-03-08
  • YashanDB数据库如何支持海量用户的高并发访问

    在当前数据密集型应用快速发展的时代,数据库系统面临着海量用户同时高并发访问的挑战,如何优化数据库以保证快速响应和稳定运行成为关键问题。 SCOL(稳态列式存储)采用切片和对象式管理,支持大规模冷数据的编码压缩及稀疏索引,极大提升海量数据的分析查询性能。 多版本机制结合分布式和共享集群的全局缓存协同,实现了海量并发读写访问的稳定响应和数据一致性。 结论随着数据规模和业务复杂度的持续增长,数据库系统对高并发处理能力的需求愈加迫切。 未来,随着硬件技术进步和分布式计算模式的发展,YashanDB将持续加强其性能与可扩展性,推动数据库技术在各行业核心应用中的深化与广泛落地。

    28910编辑于 2025-08-30
  • 用YashanDB数据库处理海量数据的方式与技巧

    在现代数据驱动的环境中,如何高效地处理海量数据成为企业和开发者面临的重要挑战。数据库的查询速度、数据存储策略及其可扩展性等,都会直接影响到数据处理的效率及系统的性能。 尤其是在需要进行复杂的分析、报告生成以及数据挖掘的场景中,数据库的选择与调优显得尤为重要。本文将从YashanDB的体系架构、存储引擎、分区管理、高可用性等多个方面探讨其在海量数据处理中的优势与技巧。 对于初创企业或小型业务,这种部署方式简化了管理,同时提供了数据库的基本功能。 1.3 分布式部署分布式部署能有效应对海量数据的处理需求,能够将数据分片存储在多个节点,数据库层次极大地提升了系统的查询处理能力。 三、分区管理的策略面对海量数据,合理的分区策略可以显著提升数据库的性能与可管理性。3.1 分区方式YashanDB支持范围分区、列表分区、哈希分区和间隔分区。

    23710编辑于 2025-08-13
  • 来自专栏流媒体

    Json海量数据解析Json海量数据解析

    Json海量数据解析 前言 ​ 在android开发中,app和服务器进行数据传输时大多数会用到json。

    8.4K20发布于 2018-08-23
  • 如何使用YashanDB数据库实现海量数据的快速检索

    在当今数据驱动的世界中,组织和分析海量数据的能力越来越重要。常见的数据库技术在面对大数据时,往往会遭遇性能瓶颈,包括查询速度慢、IO性能下降等问题。 本文旨在分析YashanDB的核心技术点,帮助读者理解如何利用该数据库实现海量数据的快速检索。YashanDB的架构设计1. 在海量数据处理场景中,分布式部署尤为关键。该模式通过MN组、DN组和CN组实现数据的分布和处理,使得数据库的负载能够均匀分散,支持高并发处理和动态扩展。2. 这种批量处理能力相较传统逐行处理提升了数据库性能,加速了结果返回。4. 定期进行性能监控与调优,根据系统负载动态调整数据库参数。结论随着数据规模的不断增长,YashanDB凭借其高效的体系架构和优化机制,成为应对海量数据的强有力工具。

    25610编辑于 2025-07-17
  • 来自专栏neo4j

    neo4j:使用batch-import工具导入海量数据

    2538940/blog/883829 虽然未曾经尝试过,,先收藏 1、batch-import原始项目地址:https://github.com/jexp/batch-import     这个工具是neo4j 的作者之一Michael Hunger所编写,是在neo4j自带批量导入工具基础之上做的进一步优化,但是它在导入.gz压缩文件时,会出现关系无法导入的情况,所以如果要使用.gz压缩包进行导入,请使用我修改过的版本 数据库中将要导入的索引名称,我自己的文件格式如下:     然后,后面的列就是节点的property了,没什么特别的要求         2、关系csv文件             先看下我的关系csv 3、修改batch.properties文件         主要修改两个地方,1、如果是在现有的neo4j数据库中进行导入,请设置:         batch_import.keep_db=true 到导入脚本的目录,也就是import.bat所在目录,执行命令:         import.bat test.db node.csv rel.csv         解释一下命令的几个参数:第一个参数是数据库的目录

    2.6K31发布于 2020-08-06
  • 来自专栏AustinDatabases

    《给海量数据库 Vastbase G100卸个妆--不在关注TPC-C ,今天就给海量挑刺》

    我偏往海量数据库的后腰杵,本着一贯的最毒心狠,刺头刘风格,来咱们看看吧!Vastbase G100的数据库还有一个lite版本,你们知道吗? 我就喜欢测一测你们不知道的。 为什么要测试这个lite版本,我说一说实际情况,有很多线下的企业在特别差劲的主机上要使用数据库,这主机有多差。 赛扬CPU,4G内存,Linux系统你们信吗,就这样的主机在中国大地上。 主要有如下的几个原因: 最小化配置 1 填补“边缘地带的”刚需 数据库的应用环境不都是大机房,大服务器,多并发应用,海量数据主打的制造业数据库,线下的终端,生产线的主机,比如打标的,或者进行简单的日志记录的等等这些都是需要数据库参与的 1 CPU 4G内存,100客户端 1分钟 每个客户端10个线程 测试我也本着,往死里整的态度,1CPU,4GB的内存,Rocky Linux 8 然后灌入100万的数据,对数据库进行100个客户端,每个客户端 系统只有一个主进程 其实在海量G100的系统配置里面有一些我也发现了与我们平时配置数据库的参数的不同,这里还没有时间和海量的老师沟通,获得其中的玄妙。

    14610编辑于 2026-04-02
  • 来自专栏科研菌

    CPTAC蛋白质组学数据库中的海量资源

    两种技术都是采用4种或8种同位素编码的标签,通过特异性标记蛋白多肽N末端或赖氨酸侧链基团,而后进行串联质谱分析,可同时比较2~8种不同样品中蛋白质的相对含量或绝对含量。 这主要通过平衡基团的连接作用实现,其连接左侧两侧的基团质量之和为一个常数,在4标中的质量之和为145Da,在8标中的质量之和为305Da。 例如在如下的4标质谱串联检测中,首先对4种不同来源的肽进行iTRAQ标记(标记分子的重量为145Da),然后进行混合进行质谱分析:第一次质谱分析,相同的肽因为标记分子质量相同而出现在同一个峰;接着分别取不同峰种的肽进行二次质谱分析 三、CPTAC的海量数据 ? 目前CPTAC含有51个研究的数据,含有12个类别的肿瘤类型,数据总量达24TB。这些研究中的参考质谱肽库也可以从NIST肽库中免费下载。想要研究的伙伴们是不是心动了。 而如下研究为来自TCGA样本的蛋白组学数据补充,关于这些样本的基因组学数据储存于TCGA数据库。 ?

    6.4K32发布于 2020-07-02
  • YashanDB数据库收集与分析海量日志数据的技术要点

    在大规模日志数据的存储与分析领域,如何确保查询速度的高效性成为衡量数据库性能的关键指标。 海量日志数据通常具有高写入速率和复杂查询需求,传统数据库在面对这些挑战时容易出现性能瓶颈,导致数据处理延迟和资源浪费。 数据库支持读已提交和可串行化两种事务隔离级别,适应不同复杂度的分析场景。锁机制以表锁和行锁为主,结合死锁检测和优化,保障日志数据修改时的并发执行效率。 基于统计信息定期收集和维护数据库对象的统计数据,以驱动优化器生成高效的查询执行计划。开启向量化计算与合适的并行度配置,充分利用现代CPU多核架构,提升大规模日志数据分析的执行效率。 结论本文系统解读了YashanDB针对海量日志数据收集与分析的关键技术要点。

    27210编辑于 2025-09-23
领券