首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人工智能头条

    面向图像分析应用的海量样本过滤方案

    ✎ 文 | 常江龙 在图像分析应用中,海量图片样本的有效自动化过滤是一项重要的基础工作。本文介绍一种基于多重算法过滤的处理方案,能够自动提取有效图像样本,极大减少人工标注的工作量。 这些成果所采用的技术路线,很多都是利用海量的已标注样本数据,在深度神经网络上训练相应的识别或检测模型。就企业算法应用而言,往往需要根据实际的应用场景,构建自己的训练样本集,以提升算法的有效性。 利用这个新的模型,对目标样本进行识别,得到其类别置信度。如果某个样本在所属类别上置信度很低,则将该样本作为不相关样本予以筛除。 总结 在企业级深度学习图像应用中,海量高质量图像样本的获取,是取得优异算法性能的重要前提。 不过,“爬图容易挑图难”,即使积累了海量样本数据,却因为缺乏有效的处理手段和标注人力而望洋兴叹,这也是经常遇到的一种数据困境。

    1.1K20发布于 2018-07-20
  • 来自专栏小刀志

    基于海量样本数据的高级威胁发现

    海量样本数据运营 要进行高级威胁的持续自动化发现,离不开海量样本数据作为来源。面对海量的威胁样本数据,必须及时获取有关这些数据的准确信息。 接下来,我将简单描述一下如何进行海量样本数据的运营,以及做好海量样本数据的运营如何支撑起情报生产和高级威胁发现的任务。 什么是漏斗模型? 面向海量样本数据运营的漏斗模型 为了适用于针对威胁检测的海量样本数据运营,我们提出了面向海量样本数据运营的漏斗模型。 情报生产和高级威胁发现 海量样本数据的运营,用于支持情报生产业务和高级威胁发现业务。接下来我将简单描述一下如何基于海量样本数据运营进行情报生产和高级威胁发现。 什么是威胁情报? 然后我们对指标数据进行丰富化处理,包括去除误报、指标评分、上下文补充,这些处理是依赖于信誉和沙箱报告中的其他内容进行的。最后是情报的输出。 什么是高级威胁?

    5.4K10编辑于 2022-12-12
  • 来自专栏大数据与微服务架构

    千亿级海量数据OceanBase

    OceanBase是阿里集团研发的可扩展性关系型数据,实现了数千亿条记录、数百TB数据上的跨行跨表事务。 OceanBase的目标是支持数百TB的数据量以及数十万TPS、数百万QPS的访问量。 一、OceanBase系统架构: 1、客户端:使用OceanBase的方式与MySQL完全相同,支持JDBC、C客户端访问,基于MySQL数据开发的应用可以直接迁移至OceanBase。 三、OceanBase扩展 OceanBase融合了分布式存储系统和关系型数据这两种技术,UpdateServer相当于一个高性能内存数据,底层采用关系型数据技术实现,ChunkServer相当于一个分布式文件存储系统

    2.7K10发布于 2020-04-11
  • 来自专栏Eliauk的小窝

    项目如何适配国产海量数据

    即可 注意:postgresql的驱动类是:org.postgresql.Driver 要注意的是:postgresql的url中需要指定currentSchema=xxxx 这是一个默认访问的数据

    1.1K10编辑于 2024-03-16
  • 来自专栏新智元

    语言处理AI被谷歌地图训练:年删帖过亿条,训练样本海量

    算法可通过TensorFlow在GitHub上公开获得,TensorFlow是谷歌自己的开源机器学习软件。 谷歌地图项目早已在用机器学习来识别汽车牌照,现在还在使用相同的技术从路牌中获取信息。

    1.3K20编辑于 2022-04-06
  • 来自专栏乐沙弥的世界

    安装MySQL样本数据Sakila

    对此,MySQL为我们提供了一些样本数据,我们可以基于这些数据作基本的操作以及压力测试等等。本文描述的是安装sakila数据。该数据需要安装在MySQL 5.0以上的版本。以下是其描述。 1、下载种子数据 下载位置:http://dev.mysql.com/doc/index-other.html 2、安装种子数据sakila [root@localhost ~]# unzip sakila-db.zip

    1.2K30发布于 2018-08-13
  • YashanDB数据海量数据存储方案解析

    在现代的数据应用中,如何有效存储与管理海量数据,一直是技术发展与应用实践中的重大挑战。面对不断增长的数据量,传统数据的存储方案往往难以满足高效性、扩展性和可靠性的需求。 因此,合理的海量数据存储方案显得尤为重要。本文将重点讨论YashanDB的各类存储方案与技术架构,帮助读者理解其背后的原理与优势。 适合高并发、海量数据分析等应用场景。共享集群部署共享集群通过共享存储,所有实例均可读写,提高了数据访问的效率。该模式通常用于对高可用、高性能以及可扩展性都有较高要求的场景。 自动选主在数据主实例出现故障时,系统能够自动选取备作为新的主库,保证业务瞬时切换,降低故障恢复时间。 结论YashanDB提供了多样化的海量数据存储解决方案,结合先进的存储架构、逻辑管理、并发控制与高可用机制,能够高效支撑不同规模业务场景下对数据的存储与管理需求。

    14000编辑于 2025-07-06
  • 来自专栏腾讯云数据库(TencentDB)

    腾讯云数据海量数据交互之道

    TDSQL-A是在腾讯业务场景下诞生的在线分布型OLAP数据系统,在处理海量数据分析业务的过程中持续对产品构架进行升级调整,是PG生态中分析型MPP产品的又一力作。 本文将由腾讯云数据专家工程师伍鑫老师为大家详细介绍TDSQL-A的发展历程、技术架构和创新实践,以下为分享实录: TDSQL-A发展历程 TDSQL-A是一款基于PostgreSQL自主研发的分布式在线关系型数据 是一个面向海量数据实时在线分析产品,采用无共享MPP构架。面向分析型场景的极致性能优化,我们自研了列式存储,同时也支持行列混合存储模式。 同时用户也可以在同一个或同一个实例里,去根据业务场景针对不同特征建立行存表和列存表,可以自动在查询计划中选择更好的access path。 ﹀ ﹀ ﹀ -- 更多精彩 -- 揭秘TDSQL-A:兼容Oracle的同时支持海量数据交互 十问十答,带你全面了解TDSQL-A核心优势 ↓↓点击阅读原文,了解更多优惠

    2.3K30编辑于 2022-02-15
  • 来自专栏Cloud Native - 产品级敏捷

    海量数据, 为何总是 海量垃圾 ?!

    2017.9.10, 深圳, Ken Fang 雷军说:我拥有海量的数据, 却不知道怎么用?每年, 花在存储海量数据的费用, 也是海量;足以使企业破产⋯ 为何会如此? 当我们将所谓 “海量数据分析” 的神秘面纱给揭开时, 打破 “海量数据分析” 的神话, 就会很容易的明白, 真正的问题到底出在哪?为何谷歌能做到的, 我们却做不到? 大家都明白的 Common Sense: 做海量数据分析, 要先能建立数据模型;有了数据模型, 我们才能从 “海量” 数据中, 去提炼出 “有用” 的数据。 海量数据分析最关键、最重要的ㄧ步:将海量数据 “转换” 为有用的数据。 而数据模型建立的前提是: @ 要能先分析出, 产生数据背后的 “用户的目的” 。例如:用户是基于什么样的社会事件?天灾? 这样的数据, 再如何的 “海量”, 也根本没法经由 “数据分析师”, 使用任何的数据分析工具, 建立出任何有效的数据模型;海量数据将永远没办法转换为有用的数据。 为什么谷歌能做得到?

    1.5K50发布于 2018-01-05
  • 来自专栏小工匠聊架构

    Oracle海量数据优化-02分区在海量数据中的应用-更新中

    ---- 概述 以前梳理了一篇文章, 案例不是很充分 Oracle-分区表解读 故本篇博文系统的再重新阐述一下 当我们对海量数据的Oracle数据进行管理和维护时,几乎无一例外的使用了分区(partition 分区是Oracle数据中对海量数据存储管理提供的一个应用很广泛的技术,它可以非常方便的加载数据、删除数据和移动数据,特别是对于一个拥有海量数据的OLAP及数据仓库系统的数据来说,更是如此。 有一个分区裁剪功能,只对需要处理的分区进行扫描,这样扫描的数据块会大大的减少,使查询效率提高 分区更利于数据维护, 可以只对单独分区进行备份、恢复,这样就可以大大的缩短数据备份、恢复的时间 分区有利于数据数据的过期化处理

    2K20发布于 2021-08-16
  • 来自专栏JavaQ

    支撑海量数据的数据架构如何设计?

    如果你运气不太好,数据服务器的配置不是特别的高的话,弄不好你还会经历数据宕机的情况,因为负载太高对数据压力太大了。 那么百万并发的数据架构如何设计呢?多数都是分库分表加主从吧? 分库分表 说白了就是大量分表来保证海量数据下的查询性能。 在写入数据的时候,需要做两次路由,先对订单 id hash 后对数据的数量取模,可以路由到一台数据上,然后再对那台数据上的表数量取模,就可以路由到数据上的一个表里了。 写入主库的时候,会自动同步数据到从上去,保证主库和从数据一致。 然后查询的时候都是走从去查询的,这就通过数据的主从架构实现了读写分离的效果了。 然后从的读请求增加到了 3200,需要扩容了。 这时,你直接给主库再挂载一个新的从就可以了,两个从,每个从支撑 1600 的读请求,不需要因为读请求增长来扩容主库。

    1.4K20发布于 2019-06-02
  • 如何在YashanDB数据中高效处理海量数据

    在现代数据技术中,海量数据的管理和处理成为了一个普遍存在的挑战。随着数据规模的不断扩大,性能瓶颈、数据一致性问题以及易用性需求等问题日益凸显。 YashanDB作为一款专为处理海量数据而设计的数据,凭借其高可扩展性、高并发性能和高可用性,提供了一系列技术手段以应对这些挑战。 本文旨在探讨如何在YashanDB中高效地管理和处理海量数据,目标读者为数据管理员、数据工程师及相关技术人员。 定期监控数据性能,分析慢查询,优化执行计划,确保海量数据高效处理。启用数据加密保护机制,加强数据安全,防止数据泄露风险。 通过合理运用多版本并发控制、分区技术、ACID特性、PL语言支持、数据加密与监控优化等手段,数据管理员和数据工程师可以在实际项目中有效地管理和处理海量数据,保证数据的安全、性能和可靠性。

    16400编辑于 2025-07-18
  • 来自专栏用户8955222的专栏

    中国工业企业数据 | 特殊样本统计

    在对中国工业企业数据进行数据清洗之后,一个伴随而来的问题是:数据清洗本身会否影响估计结果? 换句话说,基于一个特定的变量对数据进行清洗,这样的一种选择过程将导致参与回归的样本与被剔除的样本在某些方面存在系统性偏差,即对样本的选择不再随机。 排除行业分类代码统一错误的可能,使用这样的跨行转移样本来进行估计可能导致样本选择偏误。 为什么会导致样本选择偏误? 以上只是工企数据进行数据清洗后可能出现的两点比较突出的问题,除此之外还存在单期观测企业、在位企业、持续在位企业与其他企业是否存在系统性差异的问题。 剔除这部分特殊样本的前提是识别出这些样本,下面的代码是可供参考的识别方案。

    1.8K00发布于 2021-11-02
  • YashanDB数据如何保障海量数据安全与隐私

    在现代信息技术迅猛发展的时代,数据管理系统面临着数据安全与隐私保护的重大挑战。随着企业集成越来越多的海量数据,确保这些数据在存储、传输及访问过程中的安全性和隐私保护变得尤为重要。 YashanDB作为一个高性能、高可用的数据系统,实施了多种措施以保障数据安全与隐私内容。 高可用性与容灾备份YashanDB设计了高可用性架构,支持主备复制机制,确保一旦主数据故障,备能够快速接管服务。同时,系统定期进行数据备份,以支持数据恢复,进一步保护数据的安全性。 定期执行数据备份并测试恢复过程,确保在紧急情况下数据能够快速恢复。结论YashanDB通过加密、访问控制、完整性约束、多版本控制和高可用性等技术手段,有效保障了海量数据的安全与隐私。 在实际应用中,应结合行业最佳实践,对数据安全策略进行定期评审和调整,以适应不断变化的安全环境。

    19910编辑于 2025-07-05
  • 来自专栏流媒体

    Json海量数据解析Json海量数据解析

    Json海量数据解析 前言 ​ 在android开发中,app和服务器进行数据传输时大多数会用到json。 在解析json中通常会用到以下几种主流的解析:jackson、gson、fastjson。而对于从server端获取的数据量很小时候,我们可能会忽略解析所产生的性能问题。 测试验证 准备工作 相关依赖 compile group: 'com.alibaba', name: 'fastjson', version: '1.2.29' // https:

    9.1K20发布于 2018-08-23
  • YashanDB数据如何帮助企业应对海量数据挑战

    在当前数字化转型的浪潮中,企业面临着海量数据的高并发处理与管理挑战。如何保障数据存储的高效性、系统的可扩展性以及查询的快速响应成为关键问题。 传统数据系统在面对多样化的数据类型和复杂的业务场景时,性能瓶颈和管理复杂性逐渐显现。 YashanDB作为一款先进的企业级数据产品,通过其多态部署架构、高性能存储引擎和智能优化器,有效提升了海量数据环境下的处理能力与业务连续性。 分布式部署结合MN(管理节点)、CN(协调节点)、DN(数据节点)实现数据的横向扩展,适用海量数据分析和复杂事务处理。 利用主备自动选主和共享集群高可用特性,实现数据的故障自动检测与快速恢复,保证关键业务连续性。

    37810编辑于 2025-08-29
  • 巧用YashanDB数据实现海量数据快速查询

    在现代数据驱动的业务场景中,如何应对海量数据的快速查询需求成为数据技术的核心问题。数据量的持续增长给存储和计算带来巨大压力,查询性能瓶颈不仅影响用户体验,还制约业务决策的实时性。 本文针对YashanDB数据,通过深入分析其架构与核心技术,解析其如何支持海量数据场景下的高效查询,提供系统的技术方法与优化策略,帮助开发与运维人员提升对该技术体系的理解和应用能力。 CN负责生成分布式执行计划并调度DN节点并行执行,支持海量数据的高效拆解和并行处理。 随着数据采集和处理需求的持续增长,数据技术的体系化优化将成为提升核心竞争力的重要方向。 未来,结合智能调度、自动化运维及机器学习辅助优化,YashanDB的查询性能和系统可用性将更进一步,满足复杂业务对海量数据实时、高效访问的挑战,引领行业数据技术的演进。

    20700编辑于 2025-06-27
  • YashanDB数据如何支持海量用户的高并发访问

    在当前数据密集型应用快速发展的时代,数据系统面临着海量用户同时高并发访问的挑战,如何优化数据以保证快速响应和稳定运行成为关键问题。 SCOL(稳态列式存储)采用切片和对象式管理,支持大规模冷数据的编码压缩及稀疏索引,极大提升海量数据的分析查询性能。 多版本机制结合分布式和共享集群的全局缓存协同,实现了海量并发读写访问的稳定响应和数据一致性。 结论随着数据规模和业务复杂度的持续增长,数据系统对高并发处理能力的需求愈加迫切。 未来,随着硬件技术进步和分布式计算模式的发展,YashanDB将持续加强其性能与可扩展性,推动数据技术在各行业核心应用中的深化与广泛落地。

    33510编辑于 2025-08-30
  • 来自专栏ShowMeAI研究中心

    图解大数据 | 海量数据查询-Hive与HBase详解

    1) 从Hadoop到数据 大家知道在计算机领域,关系数据大量用于数据存储和维护的场景。 3) HBase与大数据数据、 HBase是建立在Hadoop文件系统之上的分布式面向列的数据。 HBase是一个数据模型,类似于谷歌的Bigtable设计,可以提供快速随机访问海量结构化数据。 Meta store 元数据:表名、表所属数据、表拥有者、列、分区字段、表类型、表数据所在的目录等,默认存储在自带的derby数据中。 Driver:解析器、编译器、优化器、执行器。 作用 HiveQL 查看所有数据 SHOW DATABASES; 使用指定的数据 USE database_name; 创建指定名称的数据 CREATE DATABASE database_name 海量结构化数据离线分析。

    2.7K71编辑于 2022-03-08
  • 用YashanDB数据处理海量数据的方式与技巧

    在现代数据驱动的环境中,如何高效地处理海量数据成为企业和开发者面临的重要挑战。数据的查询速度、数据存储策略及其可扩展性等,都会直接影响到数据处理的效率及系统的性能。 尤其是在需要进行复杂的分析、报告生成以及数据挖掘的场景中,数据的选择与调优显得尤为重要。本文将从YashanDB的体系架构、存储引擎、分区管理、高可用性等多个方面探讨其在海量数据处理中的优势与技巧。 1.3 分布式部署分布式部署能有效应对海量数据的处理需求,能够将数据分片存储在多个节点,数据层次极大地提升了系统的查询处理能力。 三、分区管理的策略面对海量数据,合理的分区策略可以显著提升数据的性能与可管理性。3.1 分区方式YashanDB支持范围分区、列表分区、哈希分区和间隔分区。 4.1 主备复制策略YashanDB允许在主库与备之间进行同步与异步复制,实时传输 redo 日志。因此,在事务提交后,备可以及时更新,保持数据的一致性。

    26010编辑于 2025-08-13
领券