首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏铭毅天下

    干货 | Elasticsearch 搜索快照深入详解

    搜索快照消除了对副本分片的需求(副本默认设置为0),会将搜索数据所需的本地存储减半。搜索快照依赖于已用于备份的相同快照机制,并保障对快照存储库存储成本的影响最小。 4、搜索快照实战 介绍两种实现方式:手动挂载快照、ILM(索引生命周期管理)搜索快照。 手动是基础,理解了手动,再理解 ILM 自动管理搜索快照会很容易。 也就是说:在没有搜索快照之前,要创建快照也得这么干。 4.1.3 步骤3:将快照挂载为搜索快照索引 这一步我们之前没有见过,这一步就是搜索快照最为核心的地方。 搜索快照分片的副本通过从快照存储库复制数据来恢复,就像搜索快照分片的主分片一样。相比之下,常规索引的副本是通过从主数据库复制数据来恢复的。 6、搜索快照常见问题? 本文讲解了搜索快照的产生背景、定义、适用场景、特点、工作原理、两种方式实战演练以及常见问题与解答,但这些都是搜索快照基础内容的冰山一角。 搜索快照还有很多细节问题待实战验证、讨论。

    1.8K40发布于 2021-08-13
  • 来自专栏腾讯云Elasticsearch Service

    Elasticsearch 搜索快照技术原理及最佳实践

    作者:吴容——腾讯云 Elasticsearch 高级开发工程师 Elasticsearch于7.10版本推出搜索快照功能,但是7.10版本的搜索快照技术还不够成熟,随着7.14版本的发布,搜索快照技术才真正能够大规模用于生产实践中 本文将基于ES 7.14.2版本,继续从原理和实践两个角度向大家介绍搜索快照技术。 搜索快照特性向我们展现一种能够直接搜索快照中数据的魔力,通常我们会将快照备份到非常廉价的存储介质中,如腾讯云对象存储COS中。这样我们就可以将集群的使用成本降到最低。 一、搜索快照技术原理 1.1 DataTier模型 要了解搜索快照的工作机制,首先我们需要了解从7.10版本开始ES对节点的分层规划,即DataTier(https://www.elastic.co Kibana上的快照列表信息 本文介绍了搜索快照的技术原理, 以及基于腾讯云COS对象存储完整演示了搜索快照的配置过程和搜索快照的转换流程。

    1.6K110编辑于 2021-12-29
  • 来自专栏腾讯云Elasticsearch Service

    Elasticsearch搜索快照技术原理及最佳实践

    Elasticsearch于7.10版本推出搜索快照功能,但是7.10版本的搜索快照技术还不够成熟,随着7.14版本的发布,搜索快照技术才真正能够大规模用于生产实践中。 本文将基于ES 7.14.2版本,继续从原理和实践两个角度向大家介绍搜索快照技术的。 搜索快照特性向我们展现一种能够直接搜索快照中数据的魔力,通常我们会将快照备份到非常廉价的存储介质中,如腾讯云对象存储COS中。这样我们就可以将集群的使用成本降到最低。 一、搜索快照技术原理 1.1 DataTier模型 要了解搜索快照的工作机制,首先我们需要了解从7.10版本开始ES对节点的分层规划,即DataTier概念。 3C696BEA-A516-43D1-8E7D-839FDAA457DC.png 本文介绍了搜索快照的技术原理, 以及基于腾讯云COS对象存储完整演示了搜索快照的配置过程和搜索快照的转换流程。

    2.5K122编辑于 2021-11-27
  • 来自专栏Elastic Stack专栏

    深度剖析:搜索快照性能测试报告

    通过利用Elastic的搜索快照,冷冻数据层能在低成本下保持良好的性能。这为在预算内管理海量数据并保持高效搜索性提供了令人信服的解决方案。 从热层到冷冻层的过渡涉及将数据转换为搜索快照搜索快照利用用于备份的快照机制,允许数据以成本效益高的方式存储,同时仍然搜索。这消除了对副本分片的需求,显著减少了本地存储需求。 虽然在极少情况下(0.1%的时间)可能会出现稍高的延迟,但Elastic的搜索快照确保了管理大数据集的强大且成本效益高的解决方案。 不论是搜索多年安全数据以查找高级持续威胁,还是从日志和指标中分析历史季节性趋势,搜索快照和冷冻层都提供了无与伦比的价值和性能。 通过采用冷冻层,组织可以优化存储策略,保持响应速度,使数据搜索,并保持在预算之内。

    59532编辑于 2025-01-20
  • 来自专栏腾讯云大数据

    Elasticsearch 搜索快照技术原理及最佳实践

    作者:吴容——腾讯云 Elasticsearch 高级开发工程师 Elasticsearch于7.10版本推出搜索快照功能,但是7.10版本的搜索快照技术还不够成熟,随着7.14版本的发布,搜索快照技术才真正能够大规模用于生产实践中 本文将基于ES 7.14.2版本,继续从原理和实践两个角度向大家介绍搜索快照技术。 搜索快照特性向我们展现一种能够直接搜索快照中数据的魔力,通常我们会将快照备份到非常廉价的存储介质中,如腾讯云对象存储COS中。这样我们就可以将集群的使用成本降到最低。 一、搜索快照技术原理 1.1 DataTier模型 要了解搜索快照的工作机制,首先我们需要了解从7.10版本开始ES对节点的分层规划,即DataTier(https://www.elastic.co Kibana上的快照列表信息 本文介绍了搜索快照的技术原理, 以及基于腾讯云COS对象存储完整演示了搜索快照的配置过程和搜索快照的转换流程。

    89520编辑于 2021-12-28
  • 来自专栏【腾讯云开发者】

    Elasticsearch 搜索快照技术原理及最佳实践

    导语 | Elasticsearch于7.10版本推出搜索快照功能,但是7.10版本的搜索快照技术还不够成熟,随着7.14版本的发布,搜索快照技术才真正能够大规模用于生产实践中。 本文将基于ES 7.14.2版本,继续从原理和实践两个角度向大家介绍搜索快照技术。 搜索快照特性向我们展现一种能够直接搜索快照中数据的魔力,通常我们会将快照备份到非常廉价的存储介质中,如腾讯云对象存储COS中。这样我们就可以将集群的使用成本降到最低。 一、搜索快照技术原理 (一)DataTier模型 要了解搜索快照的工作机制,首先我们需要了解从7.10版本开始ES对节点的分层规划,即DataTier概念。 图12 Kibana上的快照列表信息 本文介绍了搜索快照的技术原理,以及基于腾讯云COS对象存储完整演示了搜索快照的配置过程和搜索快照的转换流程。

    1K40编辑于 2022-01-04
  • 来自专栏腾讯云Elasticsearch Service

    大幅降低存储成本,Elasticsearch搜索快照是如何办到的?

    搜索快照功能),可以大幅度地降低存储成本。 实际上搜索快照类型的索引在集群的本地磁盘上存放了完整的一份数据文件,只不过命名规则和普通的索引不一样。 当集群中搜索快照类型的索引的分片因为节点故障不可用时, ES 会自动地从 S3/COS 中读取分片对应的数据文件进行恢复,从而保证数据的可靠性;如果需要提高搜索快照类型的索引的副本数量,也是直接从 my_repository 中,然后再把快照中的索引挂载为一个搜索快照的索引。 所以,官方也给出了搜索快照功能的路线图: 2304.png 结合 Data tiers 数据分层功能我们看到,当前 Beta 版的搜索快照是用在数据分层的 Cold 层,在该层中的索引一般是只读的

    4K53发布于 2021-02-23
  • 来自专栏腾讯云开发者社区推荐

    大幅降低存储成本,Elasticsearch搜索快照是如何办到的?

    不过就当前 7.10 版本的搜索快照功能的特点来看,没有我们预想的可以完全实现存储计算分离。 实际上搜索快照类型的索引在集群的本地磁盘上存放了完整的一份数据文件,只不过命名规则和普通的索引不一样。 当集群中搜索快照类型的索引的分片因为节点故障不可用时, ES 会自动地从 S3/COS 中读取分片对应的数据文件进行恢复,从而保证数据的可靠性;如果需要提高搜索快照类型的索引的副本数量,也是直接从 my_repository 中,然后再把快照中的索引挂载为一个搜索快照的索引。 所以,官方也给出了搜索快照功能的路线图: 结合 Data tiers 数据分层功能我们看到,当前 Beta 版的搜索快照是用在数据分层的 Cold 层,在该层中的索引一般是只读的,但是仍然需要保证一定的查询性能

    1.3K40发布于 2020-12-08
  • 来自专栏Elastic Stack专栏

    深度解析Elasticsearch跨集群搜索(CCS):兼论与CCR及搜索快照的区别

    本文将深入探讨CCS的核心工作原理,分析其配置中的关键角色,并将其与跨集群复制(CCR)、搜索快照(Searchable Snapshots)进行详细对比,帮助你为不同的业务场景做出最合适的架构选择。 搜索快照仅仅理解CCS是不够的,还需要清楚它与另外两个重要功能——CCR和搜索快照的区别,以避免在架构设计时用错工具。 特性跨集群搜索 (CCS)跨集群复制 (CCR)搜索快照 (Searchable Snapshots)核心目的对多个独立的实时集群进行统一查询将数据从一个集群复制到另一个,用于容灾或读写分离在低成本对象存储上对历史数据进行查询数据位置数据保留在各自的远程集群中 在面对灾难恢复、读写分离或海量历史数据归档等场景时,跨集群复制(CCR)和搜索快照(Searchable Snapshots)可能是更合适的选择。 深刻理解这三者的核心原理和适用场景,将使你在构建复杂、扩展的Elasticsearch数据平台时游刃有余。

    39721编辑于 2025-09-02
  • 来自专栏爬虫资料

    网页快照的结构化保存方案:对象存储 + 搜索元数据设计

    我们只是把网页原封不动地保存成HTML文件,命名规则类似:/snapshots/2025-10-10/people_001.html没错,看起来挺整齐,但根本没法搜索。 我们没有任何结构化的元信息,连搜索都得靠 grep 全盘扫,速度慢得像蜗牛。当时我在笔记里写下这样一句话:“网页快照不是存文件,而是存上下文。” category = 'politics' AND timestamp BETWEEN '2025-10-01' AND '2025-10-10';一句话总结:HTML 放对象存储,元信息进数据库,搜索靠索引 四、实战代码:代理采集 + 快照归档下面是我们后来用的 Python 脚本版本。 它会通过爬虫代理IP抓取网页内容,上传HTML到对象存储,同时写入检索的元数据。 、跨地域访问后续分析NLP主题提取 / 语义聚类做趋势与舆情分析七、尾声:让快照变成“知识素材库”回头看,最初那次“新闻快照失踪”事故其实是好事—— 它逼我们去思考“存的意义”。

    25010编辑于 2025-10-14
  • 来自专栏简言之

    搜索加密:前世今生

    本篇文章以小简看过的文献以及查阅的资料为基础,归纳和总结了搜索加密(Searchable Encryption,SE)的相关知识点。 特别是密文策略的属性基加密(CP-ABE),其密文上的访问策略本身就是一种搜索策略,访问策略的表达能力从一定程度上反映了搜索能力。 参考:在 搜索的对称加密:改进的定义和有效的构造 中,Curtmola 等人。 为搜索的加密方案提出非自适应和自适应(不可区分性和基于模拟器)的安全定义,通常称为IND-CKA1 和IND-CKA2。 今年来关于对称搜搜加密的研究主要集中于对于动态搜索加密中的前向安全和后向安全。 前向安全指的是:在插入新的文件后,之前的搜索不能匹配到新添加的文件。

    4.4K20编辑于 2023-01-04
  • 来自专栏小生观察室

    黑帽SEO实战搜索引擎快照劫持

    黑帽SEO实战搜索引擎快照劫持 1080P超清版 公众号平台本身会对素材进行二次压缩,会导致画面出现不清晰等情况。 如有需要查看超清1080P版视频,可以选用以下2种方式进行查看。 国内使用腾讯视频做为视频内容存储点,自定义选择超清1080P。

    91400发布于 2021-08-08
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(DARTS)

    神经网络架构搜索——微分搜索(DARTS) 背景 神经网络架构搜索之前主流的方法主要包括:强化学习,进化学习。 他们的搜索空间都是不可微的,Differentiable Architecture Search 这篇文章提出了一种微的方法,可以用梯度下降来解决架构搜索的问题,所以在搜索效率上比之前不可微的方法快几个数量级 这种方法,本质上是从很多的组合当中尽快的搜索到效果很好的一种,但是这个过程是黑盒,需要有大量的验证过程,所以会很耗时。而这篇文章把架构搜索融合到模型当中一起训练。 算法核心思想 ? DARTS优化算法 具体的公式推导流程参考(https://zhuanlan.zhihu.com/p/73037439) 生成最终Cell结构 根据前面所述,我们要训练出来一个alpha矩阵,使得权重大的边保留下来 ArXiv, abs/1806.09055. 【1】[DARTS 微 架构搜索] https://blog.csdn.net/cFarmerReally/article/details/81479639

    3.5K20发布于 2020-07-29
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(DAAS)

    DAAS 本文是华为基于微分网络搜索的论文。 本文基于DARTS搜索离散化后性能损失严重的问题,提出了离散化感知架构搜索,通过添加损失项(Discretization Loss)以缓解离散带来的准确性损失。 摘要 神经架构搜索(NAS)的搜索成本为通过权值共享方法大大减少。这些方法通过优化所有可能的边缘和操作的超级网络,从而确定离散化的最佳子网,即修剪弱候选者。 本文提出了离散化感知架构搜索(DAAS),其核心思想是添加损失项以推动超级网络朝向所需拓扑的配置,以便离散带来的准确性损失得到缓解。 CIFAR-10 搜索的Cell单元 ImageNet ? ImageNet 实验结果 消融实验 Error离散化对比 ? DARTS与DAAS的Error离散化对比 操作与边的可视化 ?

    1.3K30发布于 2020-09-14
  • 来自专栏全栈程序员必看

    百度搜索引擎中的快照快照更新机制「建议收藏」

    百度搜索引擎中的快照快照更新机制   1、什么是百度快照?   如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。 如果一个网页只是一般的文字变更或者内容没有时效性的价值,并不一定会被搜索引擎认为有快速更新索引的价值,即便百度蜘蛛重新抓取了该网页内容,其快照也不一定会快速更新,但这并不意味着它不重要或者百度更新的速度很慢 3.快照时间为什么会倒退?   一个重要网页的快照往往会在搜索引擎数据库中保存有多份网页快照,这些快照的抓取时间并不相同。 在一些极特殊情况下,搜索引擎系统可能会选择不同于当前搜索结果中的快照版本,导致出现快照时间倒退的情况。这对网站在搜索引擎中的表现无任何影响,也并不代表搜索引擎对该网站做了降权处理。    企业主们不必过多关注网站的快照时间,建议企业主们将精力集中在网站的内容建设中,只有提高网站的内容价值和检索体验,方可受到用户和搜索引擎的信赖。

    1.6K20编辑于 2022-11-10
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(SGAS)​

    神经网络架构搜索——微分搜索(SGAS) KAUST&Intel发表在CVPR 2020上的NAS工作,针对现有DARTS框架在搜索阶段具有高验证集准确率的架构可能在评估阶段表现不好的问题,提出了分解神经网络架构搜索过程为一系列子问题 传统的基于梯度搜索的DARTS技术,是根据block构建更大的超网,由于搜索的过程中验证不充分,最终eval和test精度会出现鸿沟。 "Accuracy GAP" 方法 整体思路 本文使用与DARTS相同的搜索空间,SGAS搜索过程简单易懂,如下图所示。 类似DARTS搜索过程为每条边指定参数α,超网训练时通过文中判定规则逐渐确定每条边的具体操作,搜索结束后即可得到最终模型。 ? SGAS架构示意图 ? 算法伪代码 为了保证在贪心搜索的过程中能尽量保证搜索的全局最优性,进而引入了三个指标和两个评估准则。 三个指标 边的重要性 非零操作参数对应的softmax值求和,作为边的重要性衡量指标。

    1.2K30发布于 2020-07-29
  • 来自专栏简言之

    搜索加密:基础知识

    在面向密文的多关键字模糊搜索方案中,构建索引、构建陷门和关键字查询的过程都是基于向量的操作过程。数据拥有者输入的关键字都由字符组成,由于字符的不可计算性,需要将其转换成向量的形式。 9.Top-k检索 旨在获取相似度后,将其作为打分结果,根据匹配到的文件的分数,按照顺序返回给用户分数排名最高的K份数据,是搜索引擎中最常见的模式。简而言之,就是使用户快速找到最相关的 k 个结果。 如果没有概率多项式时间(PPT)对手能够以不可忽略的优势区分真实项目和模拟项目,则该方案是自适应安全的,这是迄今为止基于SSE的关键字搜索最强大的安全模型。 参考:在 搜索的对称加密:改进的定义和有效的构造 中,Curtmola 等人。 为搜索的加密方案提出非自适应和自适应(不可区分性和基于模拟器)的安全定义,通常称为IND-CKA1 和IND-CKA2。

    2.4K63编辑于 2023-01-04
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(Noisy DARTS)

    Noisy DARTS 小米实验室 AutoML 团队的NAS工作,针对现有DARTS框架在搜索阶段训练过程中存在 skip-connection 富集现象,导致最终模型出现大幅度的性能损失的问题,提出了通过向 但是DARTS 的复现性不高,主要原因包括: 搜索过程中存在 skip-connection 富集现象,导致最终模型出现大幅度的性能损失问题。 connection 比其他算子有很大的优势,这种优势在竞争环境下表现为不公平优势并持续放大,而其他有潜力的操作受到排挤,因此任意两个节点之间通常最终会以 skip connection 占据主导,导致最终搜索出的网络性能严重不足 CIFAR-10 DARTS搜索结果 ImageNet实验结果 ? ImageNet实验结果 ? 搜索结果 消融实验 有噪声 vs. 无噪声 ? 有噪声 vs. 无噪声 无偏噪声 vs.

    1.2K20发布于 2020-07-29
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(DARTS+)​

    DARTS+ 华为诺亚方舟实验室的NAS工作,针对现有DARTS框架在搜索阶段训练过程中存在 skip-connection 富集现象,导致最终模型出现大幅度的性能损失的问题,提出了一种微分的神经网络架构搜索算法 ,搜索出的架构中会包含很多的 skip-connect,从而性能会变得很差。 在合适的训练过程中终止搜索,可以有效规避 skip-connect 富集问题。因此,早停准则的制定至关重要! 当早停准则满足时(左图中红色虚线),基本处于 DARTS 搜索充分处,因此在早停准则处停止搜索能够有效防止 DARTS 发生 collapse。 PC-DARTS 使用部分通道连接来降低搜索时间,因此搜索收敛需要引入更多的 epoch,从而仍然搜索 50 个 epoch 就是一个隐式的早停机制。 实验结果 CIFAR ?

    1.1K20发布于 2020-07-29
  • 来自专栏AI异构

    神经网络架构搜索——微分搜索(PC-DARTS)

    神经网络架构搜索——微分搜索(PC-DARTS) 华为发表在ICLR 2020上的NAS工作,针对现有DARTS模型训练时需要 Large memory and computing 问题,提出了 Partial Channel Connection 和 Edge Normalization 的技术,在搜索过程中更快更好。 贡献点 设计了基于channel的sampling机制,故每次只有小部分1/K channel的node来进行operation search,减少了(K-1)/K 的memory,故batchsize增大为 为了解决上述channel采样导致的不稳定性,提出了 边缘正规化(edge normalization),在搜索时通过学习edge-level超参来减少不确定性。 方法 ? 当网络搜索完毕,node间的operation选择由operation-level和edge-level的参数相乘后共同决定。

    1.6K30发布于 2020-07-29
领券