首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ES搜索

    ES三周年】ES查询—海量数据搜索深度分页优化

    图片 背景 最近在实际项目中查询条件上越来越复杂,mysql的筛选已无法支撑,准备将所有搜索筛选改为es查询。 例如ES 共有 4 个shard,并且每个shard没有副本。假如分页的大小为 10,想取第11 页的内容。则对应的 from = 100,size = 10。 图片 图片 图片 具体使用方法: 第一次查询时,会生成一个 scrollId ,并将所有符合搜索条件的搜索结果缓存起来。 search.Size(1000) // 7.0版本命中数 search.TrackTotalHits(true) // 第一次调用,传入scrollId空字符串, scrollTime 5s , 获取 esResult.ScrollId // 后续调用,传入 esResult.ScrollId, 5m, 直到命中数组长度为0即可 search.ScrollId(scrollId)

    5.1K229编辑于 2023-04-29
  • 来自专栏SmartSi

    ElasticSearch 分页搜索

    分页 之前的文章ElasticSearch 空搜索与多索引多类型搜索我们知道,我们的空搜索匹配到集群中的13个文档。 但是,命中数组中只有10个文档(文章只显示了2条数据,故意省略掉)。 size=5&pretty' curl -XGET 'localhost:9200/_search? size=5&from=5&pretty' curl -XGET 'localhost:9200/_search? 深度分页 为了理解深度分页为什么是有问题的,我们假设在一个有5个主分片的索引中搜索。 好消息是,网页搜索引擎一般不会为任何查询返回超过1,000个结果。

    1.6K30发布于 2019-08-07
  • 来自专栏微信公众号:Java团长

    SSM框架——实现分页搜索分页

    分页是Java Web项目常用的功能,昨天在Spring MVC中实现了简单的分页操作和搜索分页,在此记录一下。使用的框架为(MyBatis+SpringMVC+Spring)。 首先我们需要一个分页的工具类: 1.分页 import java.io.Serializable; /** * 分页 */ public class Page implements -- 分页功能 End --> 2.查询分页 关于查询分页,大致过程完全一样,只是第三个参数(上面是loginUserId)需要接受用户输入的参数,这样的话我们需要在控制器中接受用户输入的这个参数(页面中的 <input>使用GET方式传参),然后将其加入到SESSION中,即可完成查询分页(此处由于“下一页”这中超链接的原因,使用了不同的JSP页面处理分页搜索分页,暂时没找到在一个JSP页面中完成的方法 return "private/space/ProductSearchResult"; } } //如果SESSION不为空,且传入的搜索条件

    2.2K40发布于 2018-08-03
  • 来自专栏prepared

    es_分组-分页-TransportClient实现

    总结: 1、group 之后不能自动分页,需要手动设置; 2、size 需要指定,否则会出错。 ---- group 之后分页、排序实现 需要手动截取分页对应范围内的数据。 carids.getBuckets(); List<carBean> listCarTgs = new ArrayList<>(); carBean carBean ; // buckets 全部数据,分页就是取固定位置的

    1.4K51发布于 2019-10-08
  • 来自专栏YG小书屋

    ES 深度分页scroll使用方式

    我们知道ES对于from+size的个数是有限制的,二者之和不能超过1w。当所请求的数据总量大于1w时,可用scroll来代替from+size。 pretty' -H 'Content-Type: application/json' -d' { "scroll" : "1m", "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ ==" } ' 如果你对scroll取出的数据顺序没有要求的话,则可以对“_doc”进行排序,es对这种排序做了优化。 scroll查询时,scan类型scroll_id会变,普通查询scroll_id不会变 http://zcty5v5.xyz/2016/10/17/ES-scroll-issues/ 同样的命令,curl

    4.6K20发布于 2018-05-23
  • 来自专栏程序员泥瓦匠

    Spring Boot 2.0 整合 ES 5 文章内容搜索实战

    《Spring Boot 2.0 整合 ES 5 文章内容搜索实战》 本章内容 文章内容搜索思路 搜索内容分词 搜索查询语句 筛选条件 分页、排序条件 小结 阅读时间:8 分钟 摘录:人这一辈子,得到多少是多 ,怎样是过得好或者不好,其实并没有定义,关键你自己心里是怎么想的,要的太多,就不会幸福 一、文章内容搜索思路 上一篇讲了在怎么在 Spring Boot 2.0 上整合 ES 5 ,这一篇聊聊具体实战。 实现思路很简单: 基于「短语匹配」并设置最小匹配权重值 哪来的短语,利用 IK 分词器分词 基于 Fiter 实现筛选 基于 Pageable 实现分页排序 这里直接调用搜索的话,容易搜出不尽人意的东西 因为内容搜索关注内容的连接性。所以这里处理方法比较 low ,希望多交流一起实现更好的搜索方法。就是通过分词得到很多短语,然后利用短语进行短语精准匹配。 ES 安装 IK 分词器插件很简单。 最后重启 ES 即可。 二、搜索内容分词 安装好 IK ,如何调用呢? 第一步,我这边搜搜内容会以 逗号 拼接传入。

    75950编辑于 2021-12-17
  • 来自专栏犀牛饲养员的技术笔记

    ES分页看这篇就够了

    )同样也有很多分页查询的场景,比如在数据量比较大的情况下,并且查询条件比较复杂,在mysql中无法命中索引,我们往往会选择使用ES分页查询。 分页的几种方案 1. from/size方案 这是ES分页最常用的一种方案,跟mysql类似,from指定查询的起始位置,size表示从起始位置开始的文档数量。看个例子。 ES内部是通过index.max_result_window这个参数控制分页深度的,我们可以针对特定的索引来修改这个值。 所以分页越深,ES处理的开销就大,占用内存就越大。 ? 2. search after方案 有时候我们会遇到一些业务场景,需要进行很深度的分页,但是可以不指定页数翻页,只要可以实时请求下一页就行。 上面这个查询结果会返回一个scroll_id,拷贝过来,组成下一条查询语句, POST /_search/scroll { "scroll" : "1m", "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAA5AWNGpKbFNMZnVSc3loXzQwb0tJZHBtZw

    26.3K71发布于 2020-08-10
  • 来自专栏让技术和时代并行

    如何跳过es分页这个坑?

    1、分页查询 1.1、 正常分页查询代码如下 假设现在你要查询第100页的10条数据,但是对于es来说,from=1000000,size=100,这时 es需要从各个分片上查询出来10000100条数据 es分页查询过程中,刚开始翻页可能速度比较快,可能到第一百页查询就需要4-5s,翻到1000页以后,直接报错了。 这个size大小的意思不是总分页的大小,实际数量应该是:所以实际返回的数量是:分片的数量*size 滚动时间设置是指在这个查询搜索结果的缓存时间,时间不能太久,毕竟内存空间是有限的。 ##7、 总结: es分页查询不支持深度分页,如果偏要使用要结合具体业务场景进行使用。不能当成关系型数据库中的分页进行使用。 要想提高产品体验和查询效率不能过于依赖技术,要结合需求进行分析以提高体验,因为很多搜索类产品都不支持深度分页

    5.7K50发布于 2019-07-02
  • 来自专栏洁癖是一只狗

    ES搜索相似度

    今天再来一道面试真题,es搜索的相似度算法如何计算 首先,我们要从这几方面回答 TF(term frequency)检索词频率 IDF(inversed document frequency)反向文档频率 中出现的次数,比如上面出现了3次,一个term在所有doc 中出现的次数越多,分数就越低,比如我们的and 或the常用词,就会频繁出现,对分数的贡献就很少,所以分数就比较小 字段长度准则 hello搜索的 hello world ,有3doc,其中一个doc1包含一个hello,另外一个doc2包含word,doc3包含hello world,比如下面 doc1----->[2,0] doc2----->[0,5] doc3----->[2,5] 每一个doc都会计算出term计算出一个分数,hello 一个分数,world一个分数,都会计算出一个分数组,所有的分数组形成一个文档向量 查询向量 比如hello world ,es会根据hello world在所有doc中的评分情况,计算一个查询向量,比如hello基于所有doc都有一个评分为2,world基于所有doc都有一个评分5,查询向量就是[2,5] 计算相似度

    1.5K10编辑于 2022-06-24
  • 来自专栏第二蒙古上单

    ES搜索内容置顶

    有些时候,我们可能需要人工干预ES搜索结果,让指定的内容置顶,ES提供了pinned语法来实现该功能。 "minimum_should_match" : 1 } } } }, "size" : 10, "from" : 0 } 看文档说似乎是从ES

    2.5K30发布于 2021-05-18
  • 来自专栏第三方工具

    es分页,pageNum从0开始和es排序代码demo

    es分页,pageNum从0开始和es排序代码demo 如果从1开始,每页150条记录,可能查询不到结果。排查下来是初始的第一页的参数错误。 参数从0开始计算,es搜素,需要注意起始页。 //es分页,pageNum从0开始。 searchSourceBuilder.from((reqVO.getPageNum()) * reqVO.getPageSize()).size(reqVO.getPageSize()); } //es

    22410编辑于 2024-11-21
  • 来自专栏服务端技术杂谈

    ES的深度分页解决方案

    索引:共4T,5个索引,共100亿条数据 查询语句: { "query":{ "term":{ "app_servername":"set-app-heatontime01" } }, "size":10000, "sort": [ {"es_timestamp": "asc"}, ] } 符合条件结果总共5亿条数据。 es search_after也不适合做深度分页分页多了,内存不够,将查询失败。 我们在分页的时候如果用from+size的话,from + size 默认不能超过1万条数据。 对于深度分页,到底有没有比较理想的解决方案,既能拉取比较多的数据,拉取的数据也都是有序的?那么你可以了解下search_after。 返回了每条数据的es_timestamp和_uid。

    2.6K30发布于 2020-06-19
  • 来自专栏全栈程序员必看

    es6转es5_es6转es5插件

    npm init -y 首先安装babel组件 npm install @babel/cli @babel/core @babel/preset-env babel-plugin-transform-es2015 配置babel,.babelrc(babel配置文件) { "presets": [ "@babel/preset-env" ], "plugins": ["transform-es2015 babel命令 "scripts": { "test": "echo \"Error: no test specified\" && exit 1", "babel": "babel es6 .js -o es5.js" }, 配置完成之后,执行命令即可 npm run babel 效果 根目录下的es6.js export class A { a = 0 constructor setA(v) { this.a = v } } const a = new A() a.setA(10) console.log(a); 执行npm run babel后,根目录生成es5

    92020编辑于 2022-11-09
  • 来自专栏全栈程序员必看

    es6 转es5_es5 es6是什么

    情景问题 项目有很多新的 js 语法 es6 es7 等等 如你所愿市面上很多浏览器已经大部分支持这些与语法了 但是 ie 就差强人意了 直接歇菜 如何解决 利用 node 插件完成语法降级 实施情景 在一些 ES2015+ 语法不支持的环境下,每个需要用到 Polyfill 的引用时,会自动加上 }, ] ] } # 命令行转码 npm install --save-dev @babel/cli 复制到源项目下 \cp -r lib/js/business /root/my-project/src/main/resources/static/js packson.json { "name": "es6 -es5", "version": "1.0.0", "description": "es6 transform es5", "main": "index.js", "scripts": { "test

    91020编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    ES6转ES5_es5es6的区别

    es6转码es5 一.Babel 在线转码 二.谷歌的Traceur 在线转码 三.es6console 在线转码并运行 四.Traceur 在页面中引入使用 //加载 Traceur 文件 <script 五. node中使用Traceur 1.首先需要用安装 npm install -g traceur 2.运行es6文件 traceur 文件名.js 3.将es6转为es5 traceur --script 文件名.es6.js --out 文件名.es5.js 4.防止出现问题最好加上实验选项 --experimental traceur --script 文件名.es6.js --out 文件名.es5 .js --experimental 六. node中使用Babel 1.安装 npm install --global babel 2.运行es6文件 babel-node 文件名.js 3.将es6 转为es5 babel 文件名.js 或者指定转换后的es5文件名 babel es6文件名.js -o es5文件名.js 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

    1.2K20编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    es6 转es5_es6转换es5

    为什么要es6转es5? 答:es6代码在老版本的浏览器中无法执行。 怎么将es6代码转为es5代码,让其在老版本的浏览器中执行? 答:使用babel模块,babel是一个使用非常广泛的es6转换器,这就意味着我们可以将es6代码转为es5代码,从而在老版本的浏览器中执行。 使用步骤: 新建一个新的用来编写es6代码的文件夹,进入到该文件中,初始化一个项目 npm init 表示一步步通过配置来初始化一个项目 npm init -y 表示使用默认设置来快速初始化一个项目 out-file b.js –out-file 或 -o 参数指定输出文件 babel src --out-dir dist –out-dir 或 -d 参数指定输出目录 实例: //转化之前为es6 Iterator、Generator、Set、Map、Proxy、Reflect、Symbol、Promise等全局对象,以及定义在全局对象上的方法(比如Object.assign)都不会转码 举例来说,ES6

    1.3K10编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    02.全文搜索ES

    全文搜索 1.介绍 elasticsearch 6 (和elasticsearch 5 的区别在于,root用户权限、一个库只能建立一个表) elasticsearch 6一个索引只能建立一张表 1.1 文本搜索引擎: 优点:搜索快; 缺点:占用空间。 solr需要依赖zk1. 1.2 elasticSearch(搜索引擎)的算法 倒排索引(在内容上建立索引,用内容匹配索引); btree mysql数据库的索引方式。 node 集群中的一个节点,一般只一个进程就是一个node shard 分片,即使是一个节点中的数据也会通过hash算法,分成多个片存放,默认是5片。 GET /movie_index/_search { "took": 6, "timed_out": false, "_shards": { "total": 5,

    1.1K20编辑于 2022-06-30
  • 来自专栏JAVA同学会

    ES学习笔记(九)搜索

    搜索ES最最核心的内容,没有之一。前面章节的内容,索引、动态映射、分词器等都是铺垫,最重要的就是最后点击搜索这一下。下面我们就看看点击搜索这一下的背后,都做了哪些事情。 分数(score) ES搜索结果是按照相关分数的高低进行排序的,咦?! 怎么没说搜索先说搜索结果的排序了?咱们这里先把这个概念提出来,因为在搜索的过程中,会计算这个分数。 在ES搜索当中,分为两种,一种计算分数,而另外一种是不计算分数的。 频繁使用的过滤还会被ES加入到缓存,以提升ES的性能。下面我们看一个查询和过滤的例子,这个也是ES官网中的例子。 最后 在ES中,检索的花样是比较多的,这里也不能一一给大家介绍了,只介绍一些最基本、最常用的查询功能。下一篇我们看一下ES的聚合查询功能。

    66930发布于 2020-05-21
  • 来自专栏JAVA同学会

    ES学习笔记(九)搜索

    搜索ES最最核心的内容,没有之一。前面章节的内容,索引、动态映射、分词器等都是铺垫,最重要的就是最后点击搜索这一下。下面我们就看看点击搜索这一下的背后,都做了哪些事情。 分数(score) ES搜索结果是按照相关分数的高低进行排序的,咦?! 怎么没说搜索先说搜索结果的排序了?咱们这里先把这个概念提出来,因为在搜索的过程中,会计算这个分数。 在ES搜索当中,分为两种,一种计算分数,而另外一种是不计算分数的。 频繁使用的过滤还会被ES加入到缓存,以提升ES的性能。下面我们看一个查询和过滤的例子,这个也是ES官网中的例子。 最后 在ES中,检索的花样是比较多的,这里也不能一一给大家介绍了,只介绍一些最基本、最常用的查询功能。下一篇我们看一下ES的聚合查询功能。

    85130发布于 2020-05-25
  • 来自专栏程序员泥瓦匠

    搜索 ES 数据写入原理

    写个小文巩固下,本文主要讲 ES -> Lucene 的底层结构,然后详细描述新数据写入 ES 和 Lucene 的流程和原理。 Elasticsearch 不仅仅是 Lucene 和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索 分布式的实时分析搜索引擎 可以扩展到上百台服务器,处理 PB 级结构化或非结构化数据 ES 基于底层这些包,然后进行了扩展,提供了更多的更丰富的查询语句,并且通过 RESTful API 可以更方便地与底层交互。类似 ES 还有 Solr 也是基于 Lucene 实现的。 三、新文档写入流程 3.1 数据模型 如图 一个 ES Index (索引,比如商品搜索索引、订单搜索索引)集群下,有多个 Node (节点)组成。每个节点就是 ES 的实例。 一般建议稍微延长这个 refresh 时间间隔,比如 5 s。因此,ES 其实就是准实时,达不到真正的实时。

    82230编辑于 2021-12-17
领券