首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据计算

    万亿是真地吗?比 ORACLE 快 N 倍是不是吹牛?

    我们经常听到大数据产品宣传自己性能好,“万亿”是个常见的说法,大概意思就是上万亿行数据中找出查出满足条件的数据,可以级返回。这是真地吗?看过“1T数据有多大”,那期的同学大概都会觉得不可能。 万亿行数据,得有几十上百 T 了,想级处理,岂不是得要几万几十万块硬盘,这不太现实。其实不然,并不一定意味着全遍历。 嗯,这件事,万亿行上想是不太现实了,但针对 TB 级数据却是可能的。 因为这个运算是个乘法级的复杂度,总计算量是 10*50 万 *50 万 =2.5 万亿,3.8 小时能跑出来已经算是不错的了。 有了好算法,100T 可以,没有好算法,10G 也可能 N 小时。从这个意义上讲,考察大数据技术的性能,关键在于这东西是不是有提供与众不同的好算法,能把计算量降下去。

    18701编辑于 2024-12-12
  • 来自专栏JAVA葵花宝典

    实战:上亿数据如何

    优化完成后,报表查询速度有从半小时以上(甚至查不出)到的质变。从修改SQL查询语句逻辑到决定创建存储过程实现,花了我3天多的时间,在此总结一下,希望对朋友们有帮助。 因为我直接在SQL查询分析器,半小时都没有结果。 (原因是里面对一张上亿级数据表和3张千万级数据表做全表扫描查询) 不由感慨,西门子中国的素质(或者说责任感)就这样? 最后,将SSRS报表替换成此存储过程后,SQL查询分析器是的。B/S前端用时1~2! 四. 总结 平常的你是否偶尔会因急于完成任务而书写一堆性能极低的SQL语句呢?

    1.4K40发布于 2020-10-09
  • 来自专栏ACM算法日常

    算法动画懂并

    集是一种很常用的数据结构,LeetCode上面有二十多道题,这次我们来看一道入门题目LeetCode 547 省份数量。 有 n 个城市,其中一些彼此相连,另一些没有相连。 并集 并集能很好的处理这种集合关系,和朋友圈类似,比如有n个人,需要将这些人划分到不同的圈子。并集有两个操作,一个是find,也就是查找这个人属于哪个圈子,另一个是union,是合并圈子。 并集初始的时候每个人都是一个圈子,每个人的圈子都指向自己,每次union合并操作,会把一个圈子a的根节点指向另一个圈子b的根节点,这样圈子a的所有节点的根节点也会跟着指向圈子b的根节点,达到合并的目的 并集的压缩处理是在find的过程中记录每个节点所在圈子的根节点,这样不需要递归遍历查询。 一记忆 一句话:合并是一个根节点指向另一个根节点,一山不容二虎。 i] == i) { circles++; } } return circles; } }; 总结 并集解决的是集合快速查询和合并的问题

    53820发布于 2021-04-22
  • 来自专栏好好学java的技术栈

    实战上亿数据,如何实现

    优化完成后,报表查询速度有从半小时以上(甚至查不出)到的质变。从修改SQL查询语句逻辑到决定创建存储过程实现,花了我3天多的时间,在此总结一下,希望对朋友们有帮助。 因为我直接在SQL查询分析器,半小时都没有结果。 (原因是里面对一张上亿级数据表和3张千万级数据表做全表扫描查询) 不由感慨,西门子中国的素质(或者说责任感)就这样? 最后,将SSRS报表替换成此存储过程后,SQL查询分析器是的。B/S前端用时1~2! 四. 总结 平常的你是否偶尔会因急于完成任务而书写一堆性能极低的SQL语句呢?

    1K20发布于 2020-12-08
  • 来自专栏对线JAVA面试

    调优实战:上亿数据如何

    优化完成后,报表查询速度有从半小时以上(甚至查不出)到的质变。从修改SQL查询语句逻辑到决定创建存储过程实现,花了我3天多的时间,在此总结一下,希望对朋友们有帮助。 因为我直接在SQL查询分析器,半小时都没有结果。 (原因是里面对一张上亿级数据表和3张千万级数据表做全表扫描查询) 不由感慨,西门子中国的素质(或者说责任感)就这样? 最后,将SSRS报表替换成此存储过程后,SQL查询分析器是的。B/S前端用时1~2! 四. 总结 平常的你是否偶尔会因急于完成任务而书写一堆性能极低的SQL语句呢?

    58410编辑于 2022-10-27
  • 来自专栏全栈学习之路

    网盘系统设计:万亿 GB 网盘如何实现传与限速?

    DBox 的存储量、吞吐量、带宽负载估算如下: 总存储量 理论上,总存储空间估算为 10 亿 TB,即 1 万亿 GB。 不重复上传:相同文件内容不重复上传,也就是说,如果用户上传的文件内容已经被其他用户上传过了,该用户不需要再上传一次文件内容,进而实现“传”功能。从用户视角来看,不到一就可以完成一个大文件的上传。 DBox 详细设计将关注元数据库、上传下载限速、传的设计实现。 3、传是用户快速上传文件的一种功能。 事实上,网盘保存的很多文件,内容其实是重复的,比如电影、电子书等等。 当文件长度小于256KB,则直接上传文件,不启用传功能。

    2.3K12编辑于 2023-12-04
  • OpenClaw装上这个skill,A股数据

    装TushareSkill→懂金融,一键A股全量数据装搜索Skill→联网查资料、扒信息装其他Skill→解锁更多专业场景不会装Skill,你只用了OpenClaw10%的功能,纯纯大冤种!

    78620编辑于 2026-03-19
  • 来自专栏深度学习与python

    万亿数据级响应,Apache Doris 在360数科实时数仓中的应用

    系统选型及对比 基于以上需求及痛点,我们对实时数仓的选型目标提出了明确的需求,我们希望新的 MPP 数据库具有以下几个特点: 数据写入性能高,查询级 兼容标准的 SQL 协议 表关联查询性能优秀 丰富的数据模型 应用实践 Doris 对 Hive 数仓的查询加速方案 在即席查询场景中,传统的查询引擎(Hive/Spark/Presto)越来越满足不了数据开发者、数据分析师对查询响应性能提出的高要求,动辄几十甚者分钟级的查询耗时极大的限制了相关场景的开发效率 Broker Load 任务,使用 Kerberos 认证访问 HDFS 的 Hive 文件导入数据,Hive 文件路径中分区和下一级目录使用通配符 *,访问所有分区所有文件,任务提交后隔 40 多出现如下的错误 在阅读了 Broker Load 的访问 HDFS 相关代码后确认了问题原因,Broker Load 调用 HDFS 的 LS、DU 方法时会获取文件目录信息,由于路径下的文件过多导致耗时会超过 45 , 而 Thrift 设置的 Socket 请求超时默认小于 40 ,所以出现了上述的 RPC 异常,问题反馈社区后,对 FE 增加了配置参数broker_timeout_ms,设置为 90 后解决问题

    1.3K21编辑于 2022-11-28
  • 来自专栏半月无霜

    mongodb如何实现增删改,SQL对比版,让你一上手

    那么现在有空了,编写一个mongodb如何进行增删改,采用SQL对比的方式,让大家清楚明了的知道mongodb增删改的写法。 having$match连表join$unwind聚合group by$group排序order by$sort分页limit$limit跳过skip$skip四、最后实际上,我在查找mongodb的增删改命令时

    58410编辑于 2024-12-04
  • 来自专栏java技术大本营

    java 小工具 | 封装通用的 Mybatis 生成模板 |1 写完增删改

    www.lixiang.red/articles/2019/07/23/1563857782748.html 今天小刀和各位小伙伴们一起来深入下这个问题,我们来研究下怎么去封装一个通用的Mybatis模板,让简单的增删改操作 sql , 可以重新建一个DAO , 或者在provider里面用字符串拼接的方式去完成 具体用法,大家可以参考上面的官方文档中的地址 设计封装的方法 封装规则要求 我们总说,我们一直都在做重复的增删改工作 ,现在我们就可以把这些基本的操作都封装起来,把更多的精力放在应用高可用,高响应,业务逻辑的梳理上面 因此 ,我们的封装也是以增删改四大方向为主. ); } } }); } 这样我们就可以做到,把增删改从 controller到dao直接一键生成到对应文件夹啦,只要把表建好,剩下的事就一步搞定啦 最后说两句 这个工具一般是做后台管理页面,增删改的时候用, 业务逻辑不建议用工具类生成,业务逻辑一般是提供dubbo

    1.1K40发布于 2019-08-09
  • 、毫秒、微秒、纳、皮

    "五"后,你情不自禁地感叹:"好威"风啊,"那匹"算法界的黑马! 单位换算(Conversion) 1 = 1000 毫秒 1 毫秒 = 1000 微秒 1 微秒 = 1000 纳 1 纳 = 1000 皮 也就是 1 = 1,000 毫秒 = 1,000,000 微秒 = 1,000,000,000 纳 = 1,000,000,000 皮 举个栗子 时间戳:1722584533.0780177 :1722584533 毫秒:1722584533078 /ˈnænəʊ sekənd/ 皮 picosecond /ˈpiːkəʊ sekənd/ 单位符号(Symbol) s 毫秒 ms 微秒 μs 纳 ns 皮 ps 其他 -> 毫秒 -> 千分之一 微秒 -> 百万分之一 -> 十亿分之一 -> 一万亿分之一

    2.2K10编辑于 2024-08-19
  • 来自专栏云计算D1net

    信息消费释放万亿内需

    2010-2013年我国信息消费规模由1.01万亿元增长到2.2万亿元,年均复合增长率29.7%。其中,基于互联网的新型信息消费规模由3800亿元增长到1.6万亿元,年均复合增长率超过60%。 2013年,电信全行业固定资产投资规模3754.7亿元,创造了4年来的新高;电子信息制造业500万元以上项目完成固定资产投资额1.08万亿元,同比增长12.9%。 2013年,我国信息消费带动工业、服务业等相关行业新增产出1.19万亿元,对经济增长的贡献超过8.85个百分点,约占同期GDP增速的11%;网络零售规模1.85亿元,同比增长50%,占社会零售总额比重约 基于增长预期与结构转型,2014年,经济社会各领域对信息网络、技术、产品和服务等需求将进一步释放,信息消费将继续呈现快速增长态势,预计今年信息消费规模将超过2.8万亿元,同比增长超过29%,对GDP增长的贡献达

    70050发布于 2018-03-16
  • 来自专栏数据指象

    1302万亿-你占多少?

    今天微博热榜,“中国总资产已达1302万亿”,人均93万,网友纷纷高呼,拖国家后腿了。 与其简单粗暴的平均,不如尝试用“齐普夫定律”来做一个相对可信的推演。 同样我们将1302万亿资产拆解到100层里面。 同理: 4,层级人数与资产对照 人均资产低于10万,有近8亿人口;如果你有50万资产,恭喜你超越了84%的人,真的很了不起了。

    46020编辑于 2022-04-27
  • 来自专栏资深Tester

    增删改之简单查询

    导读 软件测试人员在工作使用SQL语言中的查询是使用得最多的,而查询也是SQL语言中最复杂的,很多测试人员只使用到其中最简单的查询 1.数据库的使用 现在在任何项目中都有数据的存在,那么在测试过程中查看数据库中的数据是必不可少的步骤,那什么情况下测试人员会查看数据库呢? 比如有一个测试场景是注册新用户,用户在前端页面上添加了一个新用户,点击提交后,弹出提示用户注册成功。 这时预期结果中就应该包含查询数据库: 查询user表中新增一条数据,数据字段的信息与注册信息一致; 查询password表中新增一条数据

    2.4K30发布于 2018-06-08
  • 来自专栏vivo互联网技术

    Kafka万亿级消息实战

    一、Kafka应用 本文主要总结当Kafka集群流量达到 万亿级记录/天或者十万亿级记录/天  甚至更高后,我们需要具备哪些能力才能保障集群高可用、高可靠、高性能、高吞吐、安全的运行。

    1.3K00发布于 2021-05-18
  • 来自专栏资深Tester

    增删改之高级查询

    前言 如果忘记了简单查询,可以再次查看:增删改之简单查询 今天主要是讲高级查询部分,如果碰到不懂的可以在微信群里跟我交流,如果没有加到群里的朋友,可以先加我的微信(evangline7),我再把你们拉进去

    1.6K40发布于 2018-06-08
  • 来自专栏机器之心

    1.9万亿参数量,快手落地业界首个万亿参数推荐精排模型

    Google 日前发布了首个万亿级模型 Switch Transformer,参数量达到 1.6 万亿,其速度是 Google 之前开发的最大语言模型(T5-XXL)的 4 倍。 实际上,快手万亿参数精排模型总的参数量超过 1.9 万亿,规模更大,且已经投入实践。这篇文章将正式介绍快手精排模型的发展史。 ? 快手用户长期兴趣精排模型结构示意图 千亿特征,万亿参数 随着模型的迭代,深度学习网络的复杂度越来越高,模型中添加的特征数量也越来越多,模型特征规模的大小也制约了精排模型的迭代。 为了解决这个问题,快手推荐和架构的同学针对训练引擎和线上 serving 进行改进,做到离线训练和线上 serving 的服务根据配置的特征量灵活扩展,可以支持精排模型离线跟线上有千亿特征,万亿参数的规模 为了适配这种硬件,推荐团队实现了底层 KV 引擎 NVMKV 来支撑 GSET,从而很好的确保了万亿参数模型的线上稳定性。

    2.6K10发布于 2021-02-23
  • 来自专栏SDNLAB

    浅谈VPC二三,

    VPC全称是Virtual Private Cloud,翻译成中文是虚拟私有云。但是在有些场合也被翻译成私有网络或者专有网络等。这里其实就有些让人迷惑,VPC究竟是指云还是网络?答案是,VPC即是一种云,也是一种网络模式,不过应该从服务和技术的角度分别来看。 一、虚拟私有云 首先从服务的角度来看,VPC指的是一种云(Cloud),这与它的字面意思相符。对于基础架构服务(IaaS),云就是指资源池。你或许听过公有云(Public Cloud)、私有云(Private Cloud)、混合云(Hybrid Cl

    12.3K91发布于 2018-03-28
  • 来自专栏咖啡拿铁

    万亿级数据应该怎么迁移?

    在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪个女孩说三个字:我爱你,如果非要在这份爱上加一个期限,我希望是一万年!”在我们开发人员的眼中,这个感情就和我们数据库中的数据一样,我们多希望他一万年都不改变,但是往往事与愿违,随着公司的不断发展,业务的不断变更,我们对数据的要求也在不断的变化,大概有下面的几种情况:

    1.7K20发布于 2020-11-05
  • 来自专栏腾讯云Elasticsearch Service

    ​腾讯万亿级 Elasticsearch 技术解密

    今天给大家分享近期在 Elastic 中国开发者大会上的演讲内容:腾讯万亿级 Elasticsearch 技术解密。 支持交互式分析,即使在万亿级日志的情况下,ES 搜索响应时间也是级。 日志是互联网行业最基础、最广泛的数据形式,ES 非常完美的解决了日志实时分析场景,这也是近几年 ES 快速发展的一个重要原因。 这里举个简单的例子,比如在机器监控场景下,原始粒度的监控数据是 10 级的,而一个月之前的监控数据,一般只需要查看小时粒度,这即是一个 Rollup 应用场景。

    1.8K30发布于 2019-12-30
领券