搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏光城(guangcity)
如何定位10TB数据查询错误？
1.首先通过debug包捞出计算后的数据，如果符合预期那么优化前后的数据应该是匹配的，数据规模是10TB，数据行数大约是1.3亿条，抓取多少条能分析出问题是一个比较重要的参数，于是设置了200进行对比，其结果如下：图中左侧为正常数据，右侧为错误数据，可以看到的是丢了中间一部分数据，其余数据完全是对的，从sort算法的优化逻辑上来看，算法的bug率比较低。所以可以先pass掉优化算法问题，应该是下游数据输入问题？带这这个问题继续深入。，这里恰好验证了前面的想法：数据输入侧有问题！经过两个关键点的分析，快速改了一版，验证后，数据恢复正常。本次调试在10TB数据规模下才复现的问题着实令人棘手，不过还能怎么办呢？当攒点经验吧。
21310编辑于 2024-01-23
来自专栏推荐系统杂谈
如何上线TB级推荐模型
百亿KV的压力图片　　推荐上一篇文章说到所谓TB级模型主要的问题在于百亿离散特征，反映在物理层面就是由百亿KV对构成的Embedding表。由于存在CHD之类的算法可以非常高效地打包5-10亿的KV对，百亿特征实际上也就10-30个包，存储引擎需要管理元数据的量级不是百亿而是几十。分布式Embedding服务　　虽说拥有TB级内存的服务器已经不是什么稀罕物了，但是在云原生时代为一种服务准备专用机器不是什么好主意，一般来说还是考虑分布式服务。真正的软肋　　说到TB级模型上线的困难，一般人很容易想起费内存和访问慢。从前文分析可知，访问其实并没有非常慢。个人认为TB级模型上线真正的软肋在于更新难，模型更新与业务需求以及基础存储条件密切相关，本文暂不展开讨论，日后有机会再填坑。
51470编辑于 2022-08-08
来自专栏推荐系统杂谈
哪来的TB级推荐模型
而归纳的效果非常依赖表征的丰富程度，故Embedding部分的参数量往往远大于神经网络部分，当神经网络还在10MB量级时，Embedding表可以达到百GB乃至TB量级。　　可以推算1TB左右大小的模型大概有130-250亿项Embedding，而每一项Embedding背后是一个离散特征，换言之TB级模型约等于常说到的百亿特征千亿参数模型。哪来的百亿特征　　推荐场景中最为庞大的特征组就是User和Item的ID，哪怕对于头部业务而言两者加起来无非也就10亿的量级，靠原始数据要凑出百亿特征几乎不可能。大维度Embedding vs 海量Embedding　　如果没有百亿特征又想要TB级模型，是不是可以发扬“土法大炼钢”精神，把Embedding维度统统提到100以上呢？做大模型不是为了验证系统承载能力，而是为了更好记忆业务场景数据。尽管笔者并没有找到大维度Embedding不如海量Embedding的理论依据，不过据观察在当前的条件下细嚼慢咽依然比囫囵吞枣更有效。
94051编辑于 2022-08-08
来自专栏FreeBuf
黑客组织入侵西部数据，10TB数据遭窃
3月份黑客曾在一次网络攻击中窃取了西部数据的敏感信息。在调查确认了此事后，西部数据已将其商店下线，并向客户发送了数据泄露通知。上周五下午，该公司通过电子邮件发送了数据泄露通知，称其数据库遭到攻击，存储在内的客户数据被盗。作为一项安全措施，相关数据库以加密的形式存储了哈希密码（已加盐）和部分信用卡号码。【西部数据公司的数据泄露通知】西部数据一方面在继续调查此事件，同时也已将其商店做了下线处理。西部数据遭遇网络攻击 3月26日，西部数据公司遭遇网络攻击，发现其网络遭到黑客攻击，公司数据被盗，随后发布了数据泄露通知。据TechCrunch报道，一个“未命名”的黑客组织此前入侵了西部数据公司，并声称窃取了10tb的数据。
45240编辑于 2023-05-12
来自专栏肉眼品世界
TB级微服务海量日志监控平台
cnblogs.com/dengbangpang/ p/12961593.html 我们的解决方案我们的架构日志可视化 ---- 本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。在企业级的微服务环境中，跑着成百上千个服务都算是比较小的规模了。在生产环境上，日志扮演着很重要的角色，排查异常需要日志，性能优化需要日志，业务排查需要业务等等。也很难挖掘业务日志的数据价值。那么将日志统一输出到一个地方集中管理，然后将日志处理化，把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案，也是企业迫切解决日志的需求。所以我们采用了过滤、清洗、动态调整日志优先级采集等方案。首先把日志全量采集到 Kafka 集群中，设定一个很短的有效期。我们目前设置的是一个小时，一个小时的数据量，我们的资源暂时还能接受。
1.8K30发布于 2021-10-27
来自专栏铭毅天下
Elasticsearch 8.X 如何生成 TB 级的测试数据 ?
1、实战问题我只想插入大量的测试数据，不是想测试性能，有没有自动办法生成TB级别的测试数据？有工具？还是说有测试数据集之类的东西？真实业务场景一般不愁数据的，包含但不限于：生成数据业务系统产生数据互联网、设备等采集生成的数据其他产生数据的场景..... 回归问题，Elasticsearch 8.X 如何构造呢？ regist_id": "UUID", "company_name": "RANDOM_COMPANY", "regist_id_new": "RANDOM_NEW"}' ] count => 10 event.set("regist_id", SecureRandom.uuid) event.set("company_name", "COMPANY_" + SecureRandom.hex(10 )) event.set("regist_id_new", SecureRandom.hex(10)) ' } } output { elasticsearch {
1.3K20编辑于 2023-11-06
来自专栏黑客
“匿名者”发布 10TB 针对俄罗斯的泄露数据
该组织发布了约10TB 泄露数据，并表示这一行动是 “为了捍卫乌克兰”。该声明是通过社交平台 X（原推特）上的一篇帖子发布的，帖子还附上了一张显示泄露内容目录的截图。从帖子所分享的图片中可以看到一长串文件夹，其命名如下：“中国网站泄露数据”“唐纳德・特朗普的泄露数据”“国际特赦组织泄露数据”“与克里姆林宫相关的 Telegram 频道泄露数据”“俄罗斯 IP 摄像头的 DarkHabits 泄露数据”“德米特里・佩斯科夫的泄露数据”此次攻击的目标包括媒体人物、外交官、跨国公司和国有企业。尽管 “匿名者” 没有透露更多细节，也没有威胁会采取后续行动，但 10TB 的数据泄露规模无疑是巨大的。网络安全专家警告称，这些数据可能包含从内部通信、凭证到监控录像、财务文件以及个人信息等各种内容。自 2022 年初以来，“匿名者” 已承认对俄罗斯政府网站进行了篡改、泄露军事数据，并曝光了在海外开展业务的俄罗斯公司。然而，这次 10TB 的数据发布标志着该行动有史以来规模最大的数字泄露事件之一。
26410编辑于 2025-04-27
来自专栏运维项目
记一次10TB级别的对象存储数据迁移
数据量有大约10个Bucket，总计约10TB数据量，文件数量约5万千。迁移量安排由于数据量太大，带宽却不够，完成数据迁移需要大约半个月时间，安排停服半个月迁移是完全不可能的，因此考虑全量+增量的迁移方式。全量迁移因数据量大，文件多，采用多线程的方案对文件进行迁移，必须记录和校验每个文件的迁移结果，以防遗漏。总结数据量大的数据迁移，除了基本的完整一致性考虑之外，还要更多地考虑时效性，以满足业务需求。抛开技术，执行数据迁移需要和业务方做好沟通，各种风险和安排都通知到位，才能把事情做得漂亮。一旦前四项配置任何一个发生变更，都需要对数据库内的数据进行修正，才能保持数据正确。
1.9K60编辑于 2022-03-14
《深度剖析：Java ZGC 如何重塑 TB 级实时 AI 数据处理格局》
在ZGC横空出世之前，传统垃圾回收器在面对TB级实时AI数据处理时，暴露出诸多难以克服的弊端。实时AI数据处理的一大特点是数据的海量性与持续性，这使得内存中的对象数量与数据规模急剧膨胀。在实时AI数据处理中，对内存的高效利用和快速回收至关重要，传统垃圾回收器显然难以满足这一需求。ZGC的出现，为TB级实时AI数据处理带来了曙光。它的低延迟特性堪称惊艳，ZGC致力于将垃圾回收的停顿时间控制在极其短暂的范围内，通常能稳定在10毫秒以下，甚至在某些情况下达到毫秒级。这使得它在处理TB级实时AI数据时，游刃有余，不会因为内存规模的庞大而出现性能瓶颈。无论是大规模的深度学习模型训练，还是海量数据的实时分析，ZGC都能提供稳定而高效的内存管理支持。在TB级实时AI数据处理中，内存分配与释放的频率极高。ZGC通过优化内存分配算法，能够快速地为新的AI数据对象分配内存，同时及时回收不再使用的内存空间。
19810编辑于 2025-06-08
来自专栏FreeBuf
欧洲能源巨头遭勒索，用1000万欧元换10TB数据？
攻击者扬言“撕票”10TB的窃密数据在这次攻击过程中，Ragnar Locker勒索软件的幕后黑手声称已经获取了公司10TB的敏感数据文件，如果EDP不支付赎金，那么他们将在公开泄露这些数据。据Ragnar的泄密网站说到：我们已经下载了EDP组织服务器10TB的私密信息。作为证据，我们提供了一些你方企业网络中下载的文件截屏！ Ragnar 网站的威胁通知其中，攻击者泄露了部分文件来警告EDP，包含一个edpradmin2.kdb的文件，这是KeePass密码管理数据库。 Ragnar Locker加密过程 Ragnar Locker勒索软件在2019年12月底首次被发现，专门针对托管服务提供商（MSP）的常用软件，来入侵网络窃取数据文件。 Ragnar Locker具有多次的赎金记录，赎金记录包括受害者的公司名称、Tor站点的链接以及包含受害者已发布数据的数据泄漏站点，赎金范围从20万美元到大约60万美元不等。
1K30发布于 2020-04-20
来自专栏闪石星曜CyberSecurity
佳能遭严重勒索软件攻击，10TB数据被窃取，大量服务宕机
‍Garmin 遭勒索攻击的风波未平，近日，佳能又遭受了勒索软件攻击，攻击除了让佳能的一些网站宕机外，据说还导致佳能服务器中高达 10TB 的数据被盗。 BleepingComputer（以下称我们）一直在关注佳能公司出现的问题，佳能云照片和视频存储服务出现数据泄露，这两个服务为用户免费提供10GB存储功能。但是，该网站最后显示的状态，因为虽然提到了出现数据丢失，但并没有图像数据泄漏的情况出现。 ? 当我们就这次故障联系佳能想要获取更多的信息时，而佳能并没有透露公告之外的消息。有Maze声称已经窃取佳能10TB的数据在我们与Maze取得联系后，Maze 表示攻击是在今天早上进行的，窃取了对方10TB的数据、私有云数据库等等，这些数据窃取是攻击行动的一部分成果。如果受害者不支付赎金，Maze将创建一个数据泄露网站，并在该网站上公开发布窃取的文件。
47920发布于 2020-09-28
来自专栏对线JAVA面试
用ELK搭建TB级微服务海量日志监控系统
本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。很多细节知识，一篇文章是不够的，本文主要介绍了核心知识点。在企业级的微服务环境中，跑着成百上千个服务都算是比较小的规模了。在生产环境上，日志扮演着很重要的角色，排查异常需要日志，性能优化需要日志，业务排查需要业务等等。也很难挖掘业务日志的数据价值。那么将日志统一输出到一个地方集中管理，然后将日志处理化，把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案，也是企业迫切解决日志的需求。所以我们采用了过滤、清洗、动态调整日志优先级采集等方案。首先把日志全量采集到 Kafka 集群中，设定一个很短的有效期。我们目前设置的是一个小时，一个小时的数据量，我们的资源暂时还能接受。可为 DBA 提供优化数据库的依据，如按查询的 SQL 创建索引。高峰时段按业务类型的权重指标、日志等级指标、每个服务在一个时段内日志最大限制量指标、时间段指标等动态清洗过滤日志。
72130编辑于 2022-10-27
来自专栏Loki
如何用LogQL在几秒内查询TB级的日志
LogQL是Loki特有的语句，在本文中，我们将提供LogQL的快速过滤器查询技巧，这些查询可以在几秒钟内过滤掉数TB的数据。在Loki中，我们可以使用三种类型的过滤器： ? Label matchers Label matchers（标签匹配器）是你的第一道防线，是大幅减少你搜索的日志数量（例如，从100TB到1TB）的最好方法。基本上，标签应该定义的类型包括，工作负载、集群、命名空间和容器等，这样你就可以在多个不同的维度上对数据进行切分。否则，你将不得不提取整个索引数据。但有一个例外。 container="query-frontend"} |= "caller=metrics.go:83" | logfmt | throughput > 1GB and duration > 10s
1.1K20发布于 2021-05-13
来自专栏全栈程序员必看
100TB大数据存储方案
sort=created 请问，在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的？预算10万以内，性价比越高越好带宽和吞吐量不是很重要，USB 3.0/千兆LAN 单出口都可以接受，软raid硬raid都行可以是机柜形式，有单间机房耗电无所谓，噪声小一点可靠，2-3年内只需要更换坏掉的 – 知乎 http://www.pp1pp.com/news/detail/1285 https://www.zhihu.com/question/56577327 1万亿条，每条10K，也就是 1T* 10K = 10PB，以每秒 175MB的速度写入，大概需要 710天。假定你搭个 100个结点的集群，每个结点就是 100TB，然后每个结点以 175MB 的速度写入，大约需要一个星期写满，这还不包括冗余。
1.8K20编辑于 2022-11-08
来自专栏性能与架构
如何打造一个TB级微服务海量日志监控平台
本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统。在企业级的微服务环境中，跑着成百上千个服务都算是比较小的规模了。也很难挖掘业务日志的数据价值。那么将日志统一输出到一个地方集中管理，然后将日志处理化，把结果输出成运维、研发可用的数据是解决日志管理、协助运维的可行方案，也是企业迫切解决日志的需求。所以我们采用了过滤、清洗、动态调整日志优先级采集等方案。首先把日志全量采集到 Kafka 集群中，设定一个很短的有效期。我们目前设置的是一个小时，一个小时的数据量，我们的资源暂时还能接受。所以从成本上考虑，我们在 Log Streams 服务引入了过滤器，过滤没有价值的日志数据，从而减少了日志服务使用的资源成本。技术我们采用 Kafka Streams 作为 ETL 流处理。可为 DBA 提供优化数据库的依据，如按查询的 SQL 创建索引。高峰时段按业务类型的权重指标、日志等级指标、每个服务在一个时段内日志最大限制量指标、时间段指标等动态清洗过滤日志。
1.3K20发布于 2021-11-02
来自专栏气象学家
ERA5再分析数据、GPM L3降水数据下载(27TB、4TB)
目前，气象学家公众号分发的ERA5数据分为两部分： ERA5常规变量再分析数据，11TB左右 ERA5-land陆面高分辨率再分析数据，16TB左右另外，GPM L3降水数据半小时/逐日的已上传至百度云盘 ERA5在4月14号发布的官方修正数据后，经过逐一匹对和校验，针对潜在可能存在缺陷的数据还是全部进行了重新下载，气象学家公众号分发的27TB数据中，目前只有再分析数据的常规变量中61个文件可能需要替换( ERA5-Land（~16TB）数据共享出来，在ECMWF的使用条款中合法的复制与分发都是符合规定的，不存在数据使用上的法律纠纷问题。 2.ERA5常规变量属性：数据大小：11 TB （3块5TB盘拷贝）数据格式：NetCDF (.nc) 存储方式：不同变量分开存放,每天1个文件(24时次) 时间：1979.1.1-2021.1.31 pageId=82870405#ERA5:datadocumentation-Table7 4.ERA5-LAND变量属性：数据大小：~16TB （4块5TB盘拷贝）数据格式：NetCDF (.nc
2.5K60发布于 2021-07-28
来自专栏FreeBuf
32TB Windows 10核心源码与微软内部项目泄露？
The Register宣称，多达32TB官方、非公开安装镜像和微软蓝图（被压缩至8TB后）上传到了betaarchive.com。国外媒体报道称，这些数据可能是今年3月份从微软系统中获取到的。这件事可能也因此成为Windows产品历史上最大规模泄露事件之一。这份数据另外还包含尚未公开、“顶级机密”的Windows 10与Windows Server 2016编译版本。我们暂无计划对数据进行恢复，直到内容的完整检查执行完成，这对我们而言是合理可接受的方案。该文件夹自身尺寸为1.2GB，包含12个部分，每个100MB。这与The Register在报道中提到的32TB相去甚远，不大可能覆盖“核心源代码”，因为太小了——而且我们内部规定也不能存储这样的数据。
91740发布于 2018-02-28
来自专栏云计算行业
大咖分享预告丨云时代，如何防范TB级DDoS攻击？
直播预告 7月21日（周二）19:30 腾讯云大学将邀请腾讯安全网络安全负责人高毅带来有关DDoS攻击防范的精彩分享戳“阅读原文”或扫描“海报二维码”即可预约直播哦~👇 腾讯云大学公众号长按识别二维码关注 “腾讯云大学” 了解更多免费、专业行业最新技术动态分享戳“阅读原文”即可预约直播噢！
41620编辑于 2023-05-29
来自专栏CSDN技术头条
【问底】Yao Yu谈Twitter的百TB级Redis缓存实践
Timeline服务（一个数据中心）Hybrid List使用情况：分配40TB左右的内存堆栈 3000万QPS（query per second）超过6000个实例 BTtree（一个数据中心）使用状态：分配65TB的内存堆栈 900万QPS 超过4000个实例下文将会带你详细的学习BTree和Hybrid。缓存使用C编写所以足够快速，因此它可以能其他组件所不能，提供足够的数据，而其他服务不能为每个请求都提供数据。可以实现为每条命令单独建立日志。在10万QPS时，缓存可以记录下所有发生的事情。在每秒100请求和每条日志消息100字节的情况下，每台服务器每秒会记录10MB的数据。当问题发生时，这些数据传输将造成很大的网络开销，大约占10%的带宽，这种开销完全不允许。原文：How Twitter Uses Redis to Scale - 105TB RAM, 39MM QPS,10,000+ Instances （http://highscalability.com
1.2K70发布于 2018-02-08
来自专栏祝威廉
Bug剖析篇-Facebook 60TB+级的Apache Spark应用案例
Facebook 60TB+级的Apache Spark应用案例里大体有两方面的PR，一个是Bug Fix，一个是性能优化。这篇文章会对所有提及的Bug Issue进行一次解释和说明。前言 Facebook 60TB+级的Apache Spark应用案例,本来上周就准备看的，而且要求自己不能手机看，要在电脑上细细的看。然而终究是各种忙拖到了昨天晚上。很多情况下，ReduceStage 去读取数据MapStage 的数据会失败，可能的原因比如有节点重启导致MapStage产生的数据有丢失，此外还有GC超时等。 Int的最大值，但是在特定数据分布下且数据集>268.43 million 并则会触发这个Bug。这个问题是这样的，Spark MemoryManager 可能认为还有10M内存，但是此时实际JVM可以提供给MemroyManager的内存只有5M了。所以分配内存的时候，就抛OOM了。
51540发布于 2018-08-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何定位10TB数据查询错误？

如何上线TB级推荐模型

哪来的TB级推荐模型

黑客组织入侵西部数据，10TB数据遭窃

TB级微服务海量日志监控平台

Elasticsearch 8.X 如何生成 TB 级的测试数据 ?

“匿名者”发布 10TB 针对俄罗斯的泄露数据

记一次10TB级别的对象存储数据迁移

《深度剖析：Java ZGC 如何重塑 TB 级实时 AI 数据处理格局》

欧洲能源巨头遭勒索，用1000万欧元换10TB数据？

佳能遭严重勒索软件攻击，10TB数据被窃取，大量服务宕机

用ELK搭建TB级微服务海量日志监控系统

如何用LogQL在几秒内查询TB级的日志

100TB大数据存储方案

如何打造一个TB级微服务海量日志监控平台

ERA5再分析数据、GPM L3降水数据下载(27TB、4TB)

32TB Windows 10核心源码与微软内部项目泄露？

大咖分享预告丨云时代，如何防范TB级DDoS攻击？

【问底】Yao Yu谈Twitter的百TB级Redis缓存实践

Bug剖析篇-Facebook 60TB+级的Apache Spark应用案例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐