首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏推荐系统杂谈

    哪来的TB推荐模型

    可以推算1TB左右大小的模型大概有130-250亿项Embedding,而每一项Embedding背后是一个离散特征,换言之TB模型约等于常说到的百亿特征千亿参数模型。 哪来的百亿特征  推荐场景中最为庞大的特征组就是User和Item的ID,哪怕对于头部业务而言两者加起来无非也就10亿的量级,靠原始数据要凑出百亿特征几乎不可能。 可以用Item的ID和User的性别、年龄进行三联交叉派生,特征空间能达到Item量级的百倍,有亿Item的场景光这一项就能产出百亿特征。 大维度Embedding vs 海量Embedding  如果没有百亿特征又想要TB模型,是不是可以发扬“土法大炼钢”精神,把Embedding维度统统提到100以上呢? 做大模型不是为了验证系统承载能力,而是为了更好记忆业务场景数据。尽管笔者并没有找到大维度Embedding不如海量Embedding的理论依据,不过据观察在当前的条件下细嚼慢咽依然比囫囵吞枣更有效。

    92251编辑于 2022-08-08
  • 来自专栏推荐系统杂谈

    如何上线TB推荐模型

    百亿KV的压力图片  推荐上一篇文章说到所谓TB模型主要的问题在于百亿离散特征,反映在物理层面就是由百亿KV对构成的Embedding表。 由于存在CHD之类的算法可以非常高效地打包5-10亿的KV对,百亿特征实际上也就10-30个包,存储引擎需要管理元数据的量级不是百亿而是几十。 单线程计算的话,着陆表加上数据回填的平均耗时也在5ms,满打满算Embedding查询环节平均延迟可以做到10ms左右。 真正的软肋  说到TB模型上线的困难,一般人很容易想起费内存和访问慢。从前文分析可知,访问其实并没有非常慢。 个人认为TB模型上线真正的软肋在于更新难,模型更新与业务需求以及基础存储条件密切相关,本文暂不展开讨论,日后有机会再填坑。

    50470编辑于 2022-08-08
  • 来自专栏气象学家

    ERA5再分析数据、GPM L3降水数据下载(27TB、4TB)

    目前,气象学家公众号分发的ERA5数据分为两部分: ERA5常规变量再分析数据,11TB左右 ERA5-land陆面高分辨率再分析数据,16TB左右 另外,GPM L3降水数据半小时/逐日的已上传至百度云盘 1.数据获取方式 由于ECMWF对于ERA5数据的下载速度限制以及数据量巨大短时间难以下载获取等原因,因此开展ERA5数据共享Project,将近一两年内个人与课题组下载、整理的ERA5(~11TB)、 ERA5-Land(~16TB数据共享出来,在ECMWF的使用条款中合法的复制与分发都是符合规定的,不存在数据使用上的法律纠纷问题。 2.ERA5常规变量属性: 数据大小:11 TB (3块5TB盘拷贝) 数据格式:NetCDF (.nc) 存储方式:不同变量分开存放,每天1个文件(24时次) 时间:1979.1.1-2021.1.31 pageId=82870405#ERA5:datadocumentation-Table7 4.ERA5-LAND变量属性: 数据大小:~16TB (4块5TB盘拷贝) 数据格式:NetCDF (.nc

    2.4K60发布于 2021-07-28
  • 来自专栏肉眼品世界

    TB微服务海量日志监控平台

    cnblogs.com/dengbangpang/ p/12961593.html 我们的解决方案 我们的架构 日志可视化 ---- 本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 的日志监控系统。 在企业的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志,业务排查需要业务等等。 也很难挖掘业务日志的数据价值。 那么将日志统一输出到一个地方集中管理,然后将日志处理化,把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案,也是企业迫切解决日志的需求。 所以我们采用了过滤、清洗、动态调整日志优先采集等方案。首先把日志全量采集到 Kafka 集群中,设定一个很短的有效期。 我们目前设置的是一个小时,一个小时的数据量,我们的资源暂时还能接受。

    1.8K30发布于 2021-10-27
  • 来自专栏铭毅天下

    Elasticsearch 8.X 如何生成 TB 的测试数据 ?

    1、实战问题 我只想插入大量的测试数据,不是想测试性能,有没有自动办法生成TB级别的测试数据? 有工具?还是说有测试数据集之类的东西? ES_BASIC_AUTH_PASSWORD='psdXXXXX' export ES_SSL_ASSERT_FINGERPRINT='XXddb83f3bc4f9bb763583d2b3XXX0401507fdfb2103e1d5d490b9e31a7f03XX "hits": [ { "_index": "test_index", "_id": "2ff2971b-bc51-44e6-bbf7-9881050d5b78 ", "ext": "mean", "blobId": "c4f5c8dc-3d97-44ee-93da-2d93be676b8b" } 这种方法不仅高效,而且可以灵活地根据需求生成各种格式的数据5、小结 上述的验证都是使用 Elasticsearch 8.10.2 版本验证通过的。

    1.2K20编辑于 2023-11-06
  • 来自专栏气象学家

    ECMWF ERA5气象再分析数据,70TB+

    目前,气象学家公众号分发的ERA5数据分为三部分: ERA5常规变量中国区域再分析数据,18TB左右 (更新完成) ERA5-land陆面高分辨率中国区域再分析数据,34TB左右 (更新完成) ERA5 -land陆面高分辨率全球区域(4个变量)再分析数据,18TB 1.ERA5常规变量属性: 数据大小:16.5 TB (4块5TB盘拷贝) 数据格式:NetCDF (.nc) 存储方式:不同变量分开存放 pageId=82870405#ERA5:datadocumentation-Table7 3.ERA5-LAND变量属性: 数据大小:~35TB (2块18TB盘拷贝) 数据格式:NetCDF (.nc ERA5(~16TB)、ERA5-Land(~18TB数据共享出来,在ECMWF的使用条款中合法的复制与分发都是符合规定的,不存在数据使用上的法律纠纷问题。 气象学家公众号ERA5数据共享Project不是盈利为目的,目前下载、分发占用的存储设备就高达50TB+,大部分是自购设备,少部分为研究人员和相关课题组赞助的存储设备。

    2.9K10编辑于 2022-06-13
  • 来自专栏生信技能树

    什么,需要5Tb内存啊!

    众所周知,单细胞数据分析对计算机资源的要求有一点高,尤其是10X单细胞转录组数据的多样本合并那个步骤! 最近我就接到一个粉丝咨询,说他想处理一个公共数据集,只有8个原位肿瘤+3个转移肿瘤的10X单细胞转录组样品,但是数据处理的过程发现系统提示说需要5Tb内存,虽然说他自己有一个512G内存的服务器,但是也承受不起 5Tb内存,问我有没有渠道! 额,给他配置一个5Tb内存服务器倒是简单,我自己就有2.5T内存的服务器,不就是加倍嘛!不过,我注意到他就是11个10X转录组样品,理论上不可能是需要5Tb内存的,所以让他把代码发过来我检查看看. 没办法,我只好让他把数据发过来了。 我自己也读取看看,让我留意到了它居然每个样品有70万个细胞!!!

    1.3K30发布于 2021-01-18
  • 《深度剖析:Java ZGC 如何重塑 TB 实时 AI 数据处理格局》

    在ZGC横空出世之前,传统垃圾回收器在面对TB实时AI数据处理时,暴露出诸多难以克服的弊端。实时AI数据处理的一大特点是数据的海量性与持续性,这使得内存中的对象数量与数据规模急剧膨胀。 在实时AI数据处理中,对内存的高效利用和快速回收至关重要,传统垃圾回收器显然难以满足这一需求。ZGC的出现,为TB实时AI数据处理带来了曙光。 这使得它在处理TB实时AI数据时,游刃有余,不会因为内存规模的庞大而出现性能瓶颈。无论是大规模的深度学习模型训练,还是海量数据的实时分析,ZGC都能提供稳定而高效的内存管理支持。 在TB实时AI数据处理中,内存分配与释放的频率极高。ZGC通过优化内存分配算法,能够快速地为新的AI数据对象分配内存,同时及时回收不再使用的内存空间。 在实际应用中,已经有众多企业和项目成功地运用ZGC优化TB实时AI数据处理。以某知名互联网公司为例,其在开发一款基于AI的实时推荐系统时,面临着海量用户数据的处理和分析任务。

    18710编辑于 2025-06-08
  • 来自专栏气象学家

    继续更新 | ERA5再分析数据(1979-2021,50TB+)

    目前,气象学家公众号分发的ERA5数据分为三部分: ERA5常规变量中国区域再分析数据,16TB左右 (更新ing) ERA5-land陆面高分辨率中国区域再分析数据,16TB左右 (更新完成) ERA5 -land陆面高分辨率全球区域(4个变量)再分析数据,18TB 另外,GPM L3降水数据半小时/逐日的已上传至百度云盘(~4TB)可免费获取。 1.ERA5常规变量属性: 数据大小:16 TB (4块5TB盘拷贝) 数据格式:NetCDF (.nc) 存储方式:不同变量分开存放,每天1个文件(24时次) 时间:1979.1.1-2021.8.31 pageId=82870405#ERA5:datadocumentation-Table7 3.ERA5-LAND变量属性: 数据大小:~16TB (4块5TB盘拷贝) 数据格式:NetCDF (.nc ERA5(~16TB)、ERA5-Land(~16TB数据共享出来,在ECMWF的使用条款中合法的复制与分发都是符合规定的,不存在数据使用上的法律纠纷问题。

    6.5K41编辑于 2022-03-31
  • 来自专栏对线JAVA面试

    用ELK搭建TB微服务海量日志监控系统

    本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 的日志监控系统。很多细节知识,一篇文章是不够的,本文主要介绍了核心知识点。 在企业的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志,业务排查需要业务等等。 也很难挖掘业务日志的数据价值。 那么将日志统一输出到一个地方集中管理,然后将日志处理化,把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案,也是企业迫切解决日志的需求。 所以我们采用了过滤、清洗、动态调整日志优先采集等方案。首先把日志全量采集到 Kafka 集群中,设定一个很短的有效期。 我们目前设置的是一个小时,一个小时的数据量,我们的资源暂时还能接受。 可为 DBA 提供优化数据库的依据,如按查询的 SQL 创建索引。 高峰时段按业务类型的权重指标、日志等级指标、每个服务在一个时段内日志最大限制量指标、时间段指标等动态清洗过滤日志。

    70930编辑于 2022-10-27
  • 来自专栏Loki

    如何用LogQL在几秒内查询TB的日志

    LogQL是Loki特有的语句,在本文中,我们将提供LogQL的快速过滤器查询技巧,这些查询可以在几秒钟内过滤掉数TB数据。 在Loki中,我们可以使用三种类型的过滤器: ? Label matchers Label matchers(标签匹配器)是你的第一道防线,是大幅减少你搜索的日志数量(例如,从100TB到1TB)的最好方法。 基本上,标签应该定义的类型包括,工作负载、集群、命名空间和容器等,这样你就可以在多个不同的维度上对数据进行切分。 否则,你将不得不提取整个索引数据。 但有一个例外。 = \"metrics.go\" |= \"recover\"" query_type=filter range_type=range length=168h0m1s step=5m0s duration

    1K20发布于 2021-05-13
  • 来自专栏全栈程序员必看

    100TB数据存储方案

    sort=created 请问,在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的? 假定你搭个 100个结点的集群,每个结点就是 100TB,然后每个结点以 175MB 的速度写入,大约需要一个星期写满,这还不包括冗余。 RAID50 RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。 RAID50具备更高的容错能力,因为它允许某个组内有一个磁盘出现故障,而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上,故重建速度有很大提高。 此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。

    1.7K20编辑于 2022-11-08
  • 来自专栏性能与架构

    如何打造一个TB微服务海量日志监控平台

    本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 的日志监控系统。在企业的微服务环境中,跑着成百上千个服务都算是比较小的规模了。 也很难挖掘业务日志的数据价值。 那么将日志统一输出到一个地方集中管理,然后将日志处理化,把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案,也是企业迫切解决日志的需求。 所以我们采用了过滤、清洗、动态调整日志优先采集等方案。首先把日志全量采集到 Kafka 集群中,设定一个很短的有效期。 我们目前设置的是一个小时,一个小时的数据量,我们的资源暂时还能接受。 所以从成本上考虑,我们在 Log Streams 服务引入了过滤器,过滤没有价值的日志数据,从而减少了日志服务使用的资源成本。 技术我们采用 Kafka Streams 作为 ETL 流处理。 可为 DBA 提供优化数据库的依据,如按查询的 SQL 创建索引。 高峰时段按业务类型的权重指标、日志等级指标、每个服务在一个时段内日志最大限制量指标、时间段指标等动态清洗过滤日志。

    1.3K20发布于 2021-11-02
  • 来自专栏气象学家

    ECMWF ERA5再分析数据共享(ERA-Land全变量16TB数据更新中)

    近期在更新ERA5-LAND数据0.1°逐小时(1981-2020),14609*1.1/1024 ≈ 16TB 范围:'area': [65, 70, -5, 140] # North, West, 1.数据获取方式 由于ECMWF对于ERA5数据的下载速度限制,因此开展ERA5数据共享Project,将近一两年内下载、整理的数据共享出来,仅限科研和学习用途。 2.已下载部分变量属性: 数据大小:11 TB (推荐单块12TB或者3块5TB盘拷贝) 数据格式:NetCDF (.nc) 存储方式:不同变量分开存放,每天1个文件(24时次) 时间:1979.1.1 pageId=82870405#ERA5:datadocumentation-Table7 另外,会连同TRMM降水数据(日/逐3小时)一并拷贝。 文件:ERA5更新数据压缩包(~ 60 GB) 提链接:https://pan.baidu.com/s/1ja6R3F3V4_N6FU4c_HHo2w 提取码:4i8c 最后,补充一下之前有反馈下载的极个别数据存在文件大小不一的情况

    4.4K50发布于 2021-04-16
  • 来自专栏CSDN技术头条

    【问底】Yao Yu谈Twitter的百TBRedis缓存实践

    Timeline服务(一个数据中心)Hybrid List使用情况: 分配40TB左右的内存堆栈 3000万QPS(query per second) 超过6000个实例 BTtree(一个数据中心)使用状态 : 分配65TB的内存堆栈 900万QPS 超过4000个实例 下文将会带你详细的学习BTree和Hybrid。 你可能会认为内存碎片率设定在5%就足矣,但是我更愿意多分配10%,甚至是20%的空间作为缓冲。 原文:How Twitter Uses Redis to Scale - 105TB RAM, 39MM QPS,10,000+ Instances (http://highscalability.com /blog/2014/9/8/how-twitter-uses-redis-to-scale-105tb-ram-39mm-qps-10000-ins.html) (编译/童阳  责编/仲浩)

    1.2K70发布于 2018-02-08
  • 来自专栏祝威廉

    Bug剖析篇-Facebook 60TB+的Apache Spark应用案例

    Facebook 60TB+的Apache Spark应用案例 里大体有两方面的PR,一个是Bug Fix,一个是性能优化。这篇文章会对所有提及的Bug Issue进行一次解释和说明。 前言 Facebook 60TB+的Apache Spark应用案例,本来上周就准备看的,而且要求自己不能手机看,要在电脑上细细的看。然而终究是各种忙拖到了昨天晚上。 很多情况下,ReduceStage 去读取数据MapStage 的数据会失败,可能的原因比如有节点重启导致MapStage产生的数据有丢失,此外还有GC超时等。 Int的最大值,但是在特定数据分布下且数据集>268.43 million 并则会触发这个Bug。 这个问题是这样的,Spark MemoryManager 可能认为还有10M内存,但是此时实际JVM可以提供给MemroyManager的内存只有5M了。所以分配内存的时候,就抛OOM了。

    50440发布于 2018-08-27
  • 来自专栏云计算行业

    大咖分享预告丨云时代,如何防范TBDDoS攻击?

    直播预告 7月21日(周二)19:30 腾讯云大学将邀请 腾讯安全网络安全负责人 高毅 带来有关DDoS攻击防范的精彩分享 戳“阅读原文”或扫描“海报二维码”即可预约直播哦~👇 腾讯云大学公众号 长按识别二维码关注   “腾讯云大学”    了解更多免费、专业   行业最新技术动态分享   戳“阅读原文”即可预约直播噢!

    40120编辑于 2023-05-29
  • 来自专栏Loki

    如何用LogQL在几秒内快速查询TB的日志

    LogQL是Loki特有的语句,在本文中,我们将提供LogQL的快速过滤器查询技巧,这些查询可以在几秒钟内过滤掉数TB数据。 Label matchers Label matchers(标签匹配器)是你的第一道防线,是大幅减少你搜索的日志数量(例如,从100TB到1TB)的最好方法。 基本上,标签应该定义的类型包括,工作负载、集群、命名空间和容器等,这样你就可以在多个不同的维度上对数据进行切分。 否则,你将不得不提取整个索引数据。 但有一个例外。 = \"metrics.go\" |= \"recover\"" query_type=filter range_type=range length=168h0m1s step=5m0s duration

    2.3K40发布于 2021-01-08
  • 来自专栏光城(guangcity)

    如何定位10TB数据查询错误?

    1.​首先通过debug包捞出计算后的数据,如果符合预期那么优化前后的数据应该是匹配的,数据规模是10TB数据行数大约是1.3亿条,抓取多少条能分析出问题是一个比较重要的参数,于是设置了200进行对比 ,其结果如下: ​ 图中左侧为正常数据,右侧为错误数据,可以看到的是丢了中间一部分数据,其余数据完全是对的,从sort算法的优化逻辑上来看,算法的bug率比较低。 所以可以先pass掉优化算法问题,应该是下游数据输入问题?带这这个问题继续深入。 ,这里恰好验证了前面的想法:数据输入侧有问题! 经过两个关键点的分析,快速改了一版,验证后,数据恢复正常。本次调试在10TB数据规模下才复现的问题着实令人棘手,不过还能怎么办呢?当攒点经验吧。 ​

    20610编辑于 2024-01-23
  • 来自专栏腾讯安全

    产业安全专家谈丨云时代,企业如何防范TBDDoS攻击?

    现在攻击流量TB时代已经到来了,这给我们防御方带来了很大的困扰。即使是简单粗暴的DDoS攻击也能在短时间内让企业提供的服务瘫痪,甚至可以直接摧毁企业的商业系统,给企业的经济和名誉带来巨大的损失。 Q5:腾讯的DDoS防御能力是如何应用到自身的业务防护中的? 高毅:我们在2006年的时候,腾讯安全平台部宙斯盾团队就已经开始做防御支援了。 还有就是我们会长时间对防御算法和防御策略进行更新迭代,宙斯盾团队中有10多名专家的技术人员一直在做这方面的研究,包括动态黑客攻击手法的演练、攻击的发展趋势,经过长时间的积累才打造出了比较强大的DDoS 随着腾讯云在海外数据中心的建立,也同步建立了多个云清洗中心,我们可以为出海企业提供DDoS防护。除此之外,腾讯安全在网络层、应用层、主机层以及数据层等方面都拥有成熟的解决方案。 勒索、黑客、数据窃取、企业间的恶意竞争等因素,都可能成为发动DDoS攻击的原因。

    1.4K40发布于 2020-05-18
领券