搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏pythonista的日常
es搜索优化&mysql查询优化
这周优化了我们沙抖官网搜索的功能，这个搜索目前是根据视频标题进行匹配，之前是对用户输入的关键词进行了分词查找，比如用户输入【机器人】,这样的话，只要视频标题中有关键词的任意一个字都会被搜到，比如含有【人】字的标题会展示出来，并可能排的很靠前，所以我就对当前的搜索进行了优化，现在搜索是优先进行相邻短语查询 match_phrase，如果相邻短语查询结果小于2个就进行普通的分词查询，这个相邻短语查询是要求在请求字符串中的所有查询项必须都在文档中存在 "fields": { "video_title": { } } } } 这周内我还对我们的数据表查询进行了优化加了普通索引和联合索引，现在我们一个视频数据表的数据量是几百兆大小，根据视频行业进行查询时，mysql 响应速度在 600ms 左右，我对行业字段添加了普通索引，查询响应在 30 ms 左右，前后对比优化结果还是很明显的添加索引语句如下: 1.普通索引 ALTER TABLE `aweme_data` ADD INDEX category_id_index ( `category_id` ); 2.添加联合索引 ALTER
2.1K20发布于 2020-06-16
来自专栏性能优化最佳实践
【腾讯云ES】基于NGram分词ES搜索性能优化实践
例如：使用 match api 时，基于 ik_max_word 分词方式对“白色死神”进行分词后，搜索"白色"、"死神"能搜索到，而根据 "白" 进行搜索时，结果确为空。关于严格匹配我们很容易就能想到模糊查询，es本身也是能支持模糊查询的：方案选择方案一：模糊查询 wildcard && fuzzy 模糊查询的功能有点类似 mysql 中的 like，可以使用正则表达式的通配符来达到模糊搜索的效果，但是当输入字符串很长或者搜索数据集很大时，搜索性能很低，原因是ES使用的是基于DFA的文本匹配算法，时间复杂度（M+N），当索引里面的数据量为K时，时间复杂度为（M+N）× K，数据量越大，输入文本越长 "successful" : 48,"skipped" : 0,"failed" : 0 }对2亿数据进行模糊搜索：耗时30s+ "took" : 32714, "timed_out" : false 使用 wildcard 不需要做分词，不需要额外占用磁盘，但数据量大时搜索性能很差，小规模业务可以使用。2.
4K40编辑于 2022-12-05
来自专栏ES搜索
【ES三周年】ES查询—海量数据搜索深度分页优化
图片背景最近在实际项目中查询条件上越来越复杂，mysql的筛选已无法支撑，准备将所有搜索筛选改为es查询。图片图片图片具体使用方法：第一次查询时，会生成一个 scrollId ，并将所有符合搜索条件的搜索结果缓存起来。 Scroll查询只搜索到了所有的符合条件的 doc_id (官方推荐用 doc_id 进行排序，因为本身缓存的就是 doc_id ，如果用其他字段排序会增加查询量)，并将它们排序后保存在search context 创建一个时间点 Point In Time（PIT）保障搜索过程中保留特定事件点的索引状态。有了 PIT，search_after 的后续查询都是基于 PIT 视图进行，能有效保障数据的一致性。引用文章：Elasticsearch Scroll API vs Search After with PIT 相比scroll，内存也得到了优化，es 的查询简化流程：第一步.用户发送查询dsl
5.1K229编辑于 2023-04-29
来自专栏洁癖是一只狗
ES搜索相似度
今天再来一道面试真题，es的搜索的相似度算法如何计算首先,我们要从这几方面回答 TF(term frequency）检索词频率 IDF(inversed document frequency)反向文档频率 doc2: hello java, you are very good, oh hello world!!! 中出现的次数，比如上面出现了3次,一个term在所有doc 中出现的次数越多，分数就越低，比如我们的and 或the常用词,就会频繁出现,对分数的贡献就很少，所以分数就比较小字段长度准则 hello搜索的文档向量比如hello world ,有3doc,其中一个doc1包含一个hello,另外一个doc2包含word,doc3包含hello world,比如下面 doc1----->[2,0] doc2 比如hello world,es会根据hello world在所有doc中的评分情况,计算一个查询向量，比如hello基于所有doc都有一个评分为2，world基于所有doc都有一个评分5，查询向量就是
1.5K10编辑于 2022-06-24
来自专栏第二蒙古上单
ES搜索内容置顶
有些时候，我们可能需要人工干预ES的搜索结果，让指定的内容置顶，ES提供了pinned语法来实现该功能。 match_phrase" : { "title" : { "query" : "制作云", "boost" : 2, "minimum_should_match" : 1 } } } }, "size" : 10, "from" : 0 } 看文档说似乎是从ES
2.5K30发布于 2021-05-18
来自专栏全栈程序员必看
02.全文搜索ES
全文搜索 1.介绍 elasticsearch 6 (和elasticsearch 5 的区别在于，root用户权限、一个库只能建立一个表) elasticsearch 6一个索引只能建立一张表 1.1 文本搜索引擎: 优点:搜索快; 缺点：占用空间。 solr需要依赖zk1. 1.2 elasticSearch(搜索引擎)的算法倒排索引(在内容上建立索引，用内容匹配索引)； btree mysql数据库的索引方式。 /elasticsearch 直接启动会报相关的错误 2.2.2 修改相关配置权限问题: 需要改成其他非root用户才能启动：(1)创建用户: adduser es (2)切换用户: su es 去修改: 建议配置2g~4g,学习测试环境配置256m 就可以了 elasticSearch.yml中配置es的host地址(配成本机地址，允许访问) elasticSearch.yml 集群配置文件
1.1K20编辑于 2022-06-30
来自专栏JAVA同学会
ES学习笔记（九）搜索
搜索是ES最最核心的内容，没有之一。前面章节的内容，索引、动态映射、分词器等都是铺垫，最重要的就是最后点击搜索这一下。下面我们就看看点击搜索这一下的背后，都做了哪些事情。分数（score） ES的搜索结果是按照相关分数的高低进行排序的，咦？！怎么没说搜索先说搜索结果的排序了？咱们这里先把这个概念提出来，因为在搜索的过程中，会计算这个分数。在ES的搜索当中，分为两种，一种计算分数，而另外一种是不计算分数的。频繁使用的过滤还会被ES加入到缓存，以提升ES的性能。下面我们看一个查询和过滤的例子，这个也是ES官网中的例子。最后在ES中，检索的花样是比较多的，这里也不能一一给大家介绍了，只介绍一些最基本、最常用的查询功能。下一篇我们看一下ES的聚合查询功能。
66930发布于 2020-05-21
来自专栏JAVA同学会
ES学习笔记（九）搜索
搜索是ES最最核心的内容，没有之一。前面章节的内容，索引、动态映射、分词器等都是铺垫，最重要的就是最后点击搜索这一下。下面我们就看看点击搜索这一下的背后，都做了哪些事情。分数（score） ES的搜索结果是按照相关分数的高低进行排序的，咦？！怎么没说搜索先说搜索结果的排序了？咱们这里先把这个概念提出来，因为在搜索的过程中，会计算这个分数。在ES的搜索当中，分为两种，一种计算分数，而另外一种是不计算分数的。频繁使用的过滤还会被ES加入到缓存，以提升ES的性能。下面我们看一个查询和过滤的例子，这个也是ES官网中的例子。最后在ES中，检索的花样是比较多的，这里也不能一一给大家介绍了，只介绍一些最基本、最常用的查询功能。下一篇我们看一下ES的聚合查询功能。
85130发布于 2020-05-25
来自专栏程序员泥瓦匠
搜索 ES 数据写入原理
写个小文巩固下，本文主要讲 ES -> Lucene 的底层结构，然后详细描述新数据写入 ES 和 Lucene 的流程和原理。 Elasticsearch 不仅仅是 Lucene 和全文搜索，我们还能这样去描述它：分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展到上百台服务器，处理 PB 级结构化或非结构化数据 ES 基于底层这些包，然后进行了扩展，提供了更多的更丰富的查询语句，并且通过 RESTful API 可以更方便地与底层交互。类似 ES 还有 Solr 也是基于 Lucene 实现的。三、新文档写入流程 3.1 数据模型如图一个 ES Index （索引，比如商品搜索索引、订单搜索索引）集群下，有多个 Node （节点）组成。每个节点就是 ES 的实例。每个节点上会有多个 shard （分片）， P1 P2 是主分片 R1 R2 是副本分片每个分片上对应着就是一个 Lucene Index（底层索引文件） Lucene Index 是一个统称。
82230编辑于 2021-12-17
来自专栏QQ大数据团队的专栏
源码级揭秘腾讯云 ES 向量搜索的优化之道
] _2f_ES812Postings_0.tim ├── [1.0M] _2f_ES812Postings_0.tip ├── [ 669] _2f_ES812Postings_0.tmd ├─ _2f.si ├── [ 393] segments_19 └── [ 0] write.lock 0 directories, 30 files **下面的表格概括了在纯向量搜索场景和混合搜索场景无需任何配置，即可以直接使用到降低 70% 存储的优化特性。 4. 量化量化是向量搜索领域，乃至 AI 模型领域的常用技术，它通过一定算法对原始向量进行压缩，得到字节数占用较小的，量化后的向量表示。虽然该功能相对实验性，但它进一步降低了 ES 向量搜索的存储门槛，拓展了不同读写流程。后续我们仅需要对”复水“算法进行优化，即可不断弱化这一影响，从而使其得到更广泛的使用。 6. 也希望更多有向量/混合搜索需求的用户，可以尝试和使用腾讯云 ES 向量搜索增强版，如果您也有独到的需求或想法，可以联系到腾讯云 ES 团队，我们将竭尽全力与您共同探索与解决。
81910编辑于 2025-02-24
来自专栏YG小书屋
ES 查询优化（二）
"search"] } { "tags" : ["search", "open_source"] } 两个文档，{ "term" : { "tags" : "search" } }都能匹配，但想只搜索包含一个的值插入数据时多加一个长度字段： { "tags" : ["search"], "tag_count" : 1 } { "tags" : ["search", "open_source"], "tag_count" : 2 { "text": "hop" }}, { "term": { "text": "leap" }} ] } } } 3、查询时提高索引的相关性比如说，我们es }, "query": { "term": { "text": "error" } } } 4、更改score计算方法 ES5.0之前默认用的是tf-idf来计算相关性原因是针对names建倒排时，各位置如下： Position 1: john Position 2: abraham Position 3: lincoln Position 4: smith 所以查询
2.8K40发布于 2018-05-23
来自专栏YG小书屋
ES 查询优化（一）
my_index/my_type/_search { "query": { "term": { "title": "quick" } } } 2、 "name": "dev" } }, "sort":[ "_doc" ] } 4、随机取n条（n>=10000）数据 1）可以利用ES } }, "random_score": { } } } } 2）可以利用ES的脚本查询。
5.2K60发布于 2018-05-23
来自专栏OSChina
ES - 使用ES客户端来操作搜索引新
编写方法 package com.shi.es; import java.io.IOException; import java.net.InetAddress; import java.net.InetSocketAddress org.elasticsearch.transport.client.PreBuiltTransportClient; import com.fasterxml.jackson.databind.ObjectMapper; /** * ES /关闭客户端 client.close(); } /** * 添加文档方式二 * @throws IOException */ public void setAddDOC2( .get(); System.out.println("文档添加成功..."); //关闭客户端 client.close(); } } package com.shi.es QueryBuilders.queryStringQuery("无人驾驶校车").defaultField("content"); search(client,builder);//执行查询 } } 3 测试 package com.shi.es
1.7K10发布于 2019-08-26
来自专栏小小程序员——DATA
【ES三周年】分布式搜索索引elasticsearch JavaAPI编写ES搜索
must：必须匹配的条件，可以理解为“与”should：选择性匹配的条件，可以理解为“或”must_not：必须不匹配的条件，不参与打分filter：必须匹配的条件，不参与打分2.搜索结果处理搜索的结果可以按照用户指定的方式去处理或展示不过，elasticsearch内部分页时，必须先查询 0~1000条，然后截取其中的990 ~ 1000的这10条：图片查询TOP1000，如果es是单点模式，这并无太大影响。针对深度分页，ES提供了两种解决方案，官方文档：search after：分页时需要排序，原理是从上一次的排序值开始，查询下一页数据。官方推荐使用的方式。从ES7.1开始不推荐，建议用 after search方案。2.3.高亮2.3.1.高亮原理什么是高亮显示呢？我们在百度，京东搜索时，关键字会变成红色，比较醒目，这叫高亮显示高亮显示的实现分为两步：1）给文档中的所有关键字都添加一个标签，例如标签2）页面给标签编写CSS样式2.3.2.实现高亮高亮的语法
2.4K51编辑于 2023-04-28
来自专栏Elastic Stack专栏
ES|QL：为搜索而生 - 引入评分和语义搜索
|QL中的其他令人兴奋的新功能，以加强我们在将ES|QL打造成现代搜索语言方面的投入。 books METADATA _score| WHERE match(title, "Shakespeare") OR match(plot, "Shakespeare")| WHERE _score > 2 只需将索引字段映射为semantic_text，即可为语义搜索设置您的索引。查看我们的语义文本搜索教程以获取更多详细信息。使用ES|QL进行混合搜索ES|QL使得同时进行语义和词法搜索变得简单。超越8.18和9.0在未来的版本中，我们将为ES|QL增加更多的搜索功能，包括向量搜索、语义重排序、增强的评分自定义选项以及组合混合搜索结果的附加方法，如互惠等级融合（RRF）。跟随在ES|QL中进行搜索和过滤的教程，进行一次对本文所述功能的实践介绍！
45210编辑于 2025-04-27
来自专栏mathor
搜索（2）
上一节我们以图的遍历为例讲了深度优先搜索算法和实现程序。上一节中的深度优先算法可以算是基本款，很多深度优先搜索的题目就是在这个基本款的程序上进行修改 DFS 加强版DFS首先增加或者说变化的一点是顶点颜色。然后1->2开始遍历2号节点，时间戳就是2。如果2再往后找不到新的顶点，那么2就要回溯，在回溯前会被标记为时间戳=3…… ? 我们可以看出来任意两个顶点的区间只可能有2种关系：(1)两个区间相离；(2)一个区间包含另一个区间。换句话说，不会出现像[1, 10], [4, 13]这样两个区间互相跨立的情况。第29行执行完以后，我们就完成了对这棵树的深度优先搜索，每个节点的开始时间戳和结束时间戳也都求出来了。
54640发布于 2018-07-04
来自专栏CES
【腾讯云ES】让你的ES查询性能起飞：Elasticsearch 搜索场景优化攻略“一网打尽”
一、背景 Elasticsearch是一个基于Lucene库的开源搜索引擎，简称ES。 ES 的分布式查询主要有2个阶段，Query阶段跟Fetch阶段。的数据节点数量，最大不超过总节点数的2倍，通过增加分片数可以提升并发；分片数越多长尾效应越明显，所以并不是越多越好，在搜索场景合理控制分片数也可以提升性能。业务层面也可以直接做到（1）（2） 5.5 Index Sorting 优化 ES (版本>=6.0) 提供了数据排序（Index Sorting）的功能，具体用法参考Index Sorting。当客户端发生流量倾斜后，ES 默认会对发送到该可用区的查询，会优先查该可用区的副本，旨在减少搜索延迟，但这个机制在高并发场景下也可能会导致可用区查询流量不均。
14.3K1812编辑于 2024-05-10
来自专栏我就是马云飞
RxJava2 实战知识梳理(3) - 优化搜索联想功能
应用场景几乎每个应用程序都提供了搜索功能，某些应用还提供了搜索联想。客户端利用当前输入框内的文字向服务器发起请求，服务器返回与该搜索文字关联的结果给客户端进行展示。在该场景下，有几个可以优化的方面：在用户连续输入的情况下，可能会发起某些不必要的请求。例如用户输入了abc，那么按照上面的实现，客户端就会发起a、ab、abc三个请求。当搜索词为空时，不应该发起请求。示例代码这里，我们针对上面提到的三个问题，使用RxJava2提供的三个操作符进行了优化：使用debounce操作符，当输入框发生变化时，不会立刻将事件发送给下游，而是等待200ms，如果在这段事件内
1.2K70发布于 2018-02-05
来自专栏林雍岷
本地搜索优化：更多优化技巧
当你商户信息在本地搜索找不到的时候，就要考虑做本地优化，服务于大型商业区，但你的企业实际上位于该地区的边缘。本地搜索优化实际操作中遇到的问题人们在寻找私人牙医时看到的地图，一个牙医所在的城市本身很有名，但是搜索结果排名并没有给他们显示在好排名的位置，如果牙医的位置错误，就很难获得展示，这是本地商户系统真正的弱点本地搜索优化技巧通过优化自然搜索页面来改善本地搜索排名，在之前讲座中解释了搜索引擎本地商户列表与网站相关联，下面是本地搜索优化的技巧：一、自然优化可能有助于本地列表你的网站排名越好，自然搜索结果排的位置越好二、优化页面在页面重要位置带上地理位置的关键词，外链锚文本通常是位置+关键字。五、谷歌活动搜索优化可以根据地址将事件与特定业务相关联，谷歌则会将事件信息放到本地商户列表中，或者用户搜索活动信息的时候显示在搜索结果中。
91410发布于 2019-07-03
来自专栏蚊子.
es搜索引擎--文档操作
添加文档如果id已经存在，就会执行覆盖修改 ---- 修改文档 ---- 删除文档乱码是id ---- GPS定位第一个：就是画圆，直线到达，看看距离够不够第二个：一个正方形，根据2个点
23420编辑于 2023-08-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

es搜索优化&mysql查询优化

【腾讯云ES】基于NGram分词ES搜索性能优化实践

【ES三周年】ES查询—海量数据搜索深度分页优化

ES搜索相似度

ES搜索内容置顶

02.全文搜索ES

ES学习笔记（九）搜索

ES学习笔记（九）搜索

搜索 ES 数据写入原理

源码级揭秘腾讯云 ES 向量搜索的优化之道

ES 查询优化（二）

ES 查询优化（一）

ES - 使用ES客户端来操作搜索引新

【ES三周年】分布式搜索索引elasticsearch JavaAPI编写ES搜索

ES|QL：为搜索而生 - 引入评分和语义搜索

搜索（2）

【腾讯云ES】让你的ES查询性能起飞：Elasticsearch 搜索场景优化攻略“一网打尽”

RxJava2 实战知识梳理(3) - 优化搜索联想功能

本地搜索优化：更多优化技巧

es搜索引擎--文档操作

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐