搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏超级架构师
【全文搜索】全文搜索 PostgreSQL 或 ElasticSearch
在本文中，我记录了在 PostgreSQL（使用 Django ORM）和 ElasticSearch 中实现全文搜索 (FTS) 时的一些发现。在深入研究我的发现之前，让我们澄清一下全文搜索 (FTS)（或“搜索”）与数据库过滤器或查询之间的区别。“搜索”涉及从零开始，然后向其中添加结果。数据库过滤从一个集合开始，然后根据条件从中删除条目。过滤不适用于模糊输入，但可以使用模糊输入完成“搜索”。 PostgreSQL 全文搜索我的大部分项目都使用 Django Web 框架和 PostgreSQL。使用 Trigram 最多可以将其减慢 5 倍。在网上查看其他人所做的基准测试时，我发现它会在大约 5-30 毫秒内返回 150 万条记录的结果。
3.1K30编辑于 2022-04-27
来自专栏Django中文社区
简单全文搜索
搜索是一个复杂的功能，但对于一些简单的搜索任务，我们可以使用 Django Model 层提供的一些内置方法来完成。现在我们来为我们的博客提供一个简单的搜索功能。当用户输入某个关键词进行搜索后，我们希望为用户显示标题和正文中含有被搜索关键词的全部文章。整个搜索的过程如下：用户在搜素框中输入搜索关键词，假设为 “django”，然后用户点击了搜索按钮提交其输入的结果到服务器。当然这样的搜索功能是非常简略的，难以满足一些复杂的搜索需求。编写一个搜索引擎是一个大工程，好在 django-haystack 这款第三方 app 为我们完成了全部工作。使用它我们可以实现更加复杂的搜索功能，比如全文检索、按搜索相关度排序、关键字高亮等等类似于百度搜索的功能，功能十分强大。
2.5K60发布于 2018-04-17
来自专栏Pengcheng's Blog
seafile配置全文搜索
Seafile 支持使用 ElasticSearch 服务实现全文搜索。背景本文主要是基于本博客另一篇文章自建 seafile pro 网盘而写的教程参考: 全文搜索官方文档搜索选项可以在 seafevents.conf 中设置 [INDEX FILES] 选项来控制文件搜索的行为 vim /opt/seafile/data/seafile/conf/seafevents.conf 如果是跟着本博客做的，对于 pro 版，选择已经默认开启了全文搜索，可以跳过这小节。 need to clear the search index and update the index again. index_office_pdf=false 启用 Office/PDF 文件的全文搜索搜索关键字时，没有返回结果搜索索引默认每10分钟更新一次，所以在执行第一次搜索更新之前，无论你搜索什么都没有结果。无法搜索加密文件服务器无法对加密文件进行索引，因为它们被加密了。
1.6K10编辑于 2023-07-24
来自专栏开源部署
Solr实现全文搜索
Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。 Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。 Solr是一个全文检索服务器，只需要进行配置就可以实现全文检索服务。跳转到文档末尾：G <fieldType name="text_ik" > <analyzer /> </fieldType> 1.2.2.2 业务字段配置业务字段判断标准： 1、在搜索时是否需要在此字段上进行搜索需要用到的字段： 1、商品id 2、商品title 3、卖点 4、价格 5、商品图片 6、商品分类名称 7、商品描述 Solr中的业务字段： 1、id——》商品id 其他的对应字段创建solr的字段。
1.4K10编辑于 2022-07-27
来自专栏Hongten
lucene(全文搜索)_建立索引_根据关键字全文搜索_源码下载
helloworld/src/com/b510/lucene/LuceneIndex.java 1 /** 2 * 3 */ 4 package com.b510.lucene; 5 (), 64 Field.Store.YES, Field.Index.NOT_ANALYZED)); 65 // 5. Query 105 // 创建parser来确定要搜索的文件的内容，第二个参数表示搜索的域 106 QueryParser parser = new QueryParser content中包含key的文档 109 Query query = parser.parse(key); 110 // 5.根据searcher搜索并返回 helloworld/src/com/b510/lucene/LuceneIndexTest.java 1 /** 2 * 3 */ 4 package com.b510.lucene; 5
1.4K20发布于 2018-09-13
来自专栏思考是一种快乐
Elasticsearch全文搜索与TFIDF
比如某篇新闻中，“剑术”出现了5次，“电视”出现了1次，很可能这是一个剑术赛事报道。如果这篇新闻中，“中国”和“剑术”出现的次数一样多，是不是表示两者同等重要呢？ norm(d) = 1 / √numTerms 即： 1 / 词出现次数的平方根二、elasticsearch的全文搜索 elasticsearh的全文搜索涉及到两个重要的方面：相关性（Relevance TF/IDF 相关性方法分析做一次搜索，带explain，elasticsearch会返回如何匹配。比如在title字段中进行全文搜索，关键词为'python' GET course/_search?
2.4K10发布于 2019-09-23
来自专栏测试帮日记
ElasticSearch构建全文搜索系统
前言 Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎，通过它我们可以构建出一个强大的全文搜索系统，解决诸如文章检索慢，商品检索慢、MySQL的like查询慢这样的问题。 ——苏格拉底 8 chenqionghe喜欢运动，绳命是如此的精彩，绳命是如此的辉煌我们想像这是千万级别的表，最后需要实现传入关键字，返回相应的文章例如：搜索运动返回页码1,2,3,5,7,8对应的文章搜索运动，应该是会返回1,2,3,5,7,8这几条 curl -s -XGET 'localhost:9200/book/_search? localhost:9200/book/_close' # 开启 curl -XPOST 'localhost:9200/book/_open' 总结通过Elasticsearch，我们可以快速构建出一个强大的全文搜索系统但是，相比数据库采用的 B 树索引，它的写入和更新性能都比较差，因此倒排索引也只是适合全文搜索，不适合更新频繁的交易类数据。
1.7K30发布于 2020-03-25
来自专栏全栈程序员必看
02.全文搜索ES
全文搜索 1.介绍 elasticsearch 6 (和elasticsearch 5 的区别在于，root用户权限、一个库只能建立一个表) elasticsearch 6一个索引只能建立一张表 1.1 文本搜索引擎: 优点:搜索快; 缺点：占用空间。 solr需要依赖zk1. 1.2 elasticSearch(搜索引擎)的算法倒排索引(在内容上建立索引，用内容匹配索引)； btree mysql数据库的索引方式。 node 集群中的一个节点，一般只一个进程就是一个node shard 分片，即使是一个节点中的数据也会通过hash算法，分成多个片存放，默认是5片。 GET /movie_index/_search { "took": 6, "timed_out": false, "_shards": { "total": 5,
1.1K20编辑于 2022-06-30
来自专栏python前行者
python全文搜索库Whoosh
stable/ pypi：https://pypi.python.org/pypi/Whoosh/#downloads 安装 pip install Whoosh Whoosh是一个纯python的全文搜索库大意：Whoosh是索引文本及搜索文本的类和函数库。它能让你开发出一个个性化的经典搜索引擎。例如，如果你在写博客选择（或者说博客搜索）程序，你可以用Whoosh添加一个让用户搜索博客条目的函数因为做的是中文的全文检索需要导入jieba工具包以及whoosh工具包 Schema 有两个field 这个field type不可搜索。这对于你想在搜索结果中展示给用户的文档信息很有用。 whoosh.fields.KEYWORD 这个类型针对于空格或逗号间隔的关键词设计。可索引可搜索（部分存储）。为减少空间，不支持短语搜索。 whoosh.fields.TEXT 这个类型针对文档主体。存储文本及term的位置以允许短语搜索。
1.7K00发布于 2020-01-13
来自专栏人生代码
带你认识 flask 全文搜索
01 全文搜索引擎简介对于全文搜索的支持不像关系数据库那样是标准化的。有几种开源的全文搜索引擎：Elasticsearch，Apache Solr，Whoosh，Xapian，Sphinx等等，如果这还不够，常用的数据库也可以像我上面列举的那些专用搜索引擎一样提供搜索服务 05 全文搜索抽象化正如我在本章的介绍中所说的，我希望能够轻松地从Elasticsearch切换到其他搜索引擎，并且我也不希望将此功能专门用于搜索用户动态，我更愿意设计一个可复用的解决方案，如果需要，对于搜索支持，我将定义我自己的SearchableMixin类，当它被添加到模型时，可以自动管理与SQLAlchemy模型关联的全文索引。现在Post模型会自动为用户动态维护一个全文搜索索引。
5K20发布于 2019-11-24
来自专栏Hongten
lucene(全文搜索)_删除索引
项目结构大家可以先看看：lucene(全文搜索)_根据内容建立索引_源码下载索引的删除操作： 1 /** 2 * 索引的删除 3 */ 4 public void delete() { 5 IndexWriter writer = null; 6 7 try { 8 writer = new IndexWriter testDelete(){ 3 LuceneUtil util = new LuceneUtil(); 4 System.out.println("删除前 ======="); 5
1.2K20发布于 2018-09-13
来自专栏Hongten
lucene(全文搜索)_luceneweb例子
由于我没"D:\opt\lucene\index"，所以不能搜索出东东... NOTICE file distributed with 4 this work for additional information regarding copyright ownership. 5 NOTICE file distributed with 4 this work for additional information regarding copyright ownership. 5 NOTICE file distributed with 4 this work for additional information regarding copyright ownership. 5 file distributed with 4 this work for additional information regarding copyright ownership. 5
1.6K20发布于 2018-09-13
来自专栏全栈程序员必看
pycharm全文搜索_python搜索关键词
PyCharm使用遇到的问题四 Q4：在pycharm中如何全局搜索关键词; A4：按照路径Edit>>Find>>Find in Path 进入图一界面；在搜索框中输入要查找的关键词，这里以“ax1 为例”，选择在In Project中查询可获得相应脚本；退出搜索按esc即可发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/174566.html原文链接：
1.1K10编辑于 2022-09-27
来自专栏Linux运维技术之路
DSL查询之全文搜索详解
标题 title 字段是一个 string 类型（ analyzed ）已分析的全文字段，这意味着查询字符串本身也应该被分析。分析查询字符串。将查询的字符串 QUICK! 我们可以将其设置为某个具体数字，更常用的做法是将其设置为一个百分数，因为我们无法控制用户搜索时输入的单词数量： GET /test-dsl-match/_search { "query": { 可以使用该query_string查询创建一个复杂的搜索，其中包括通配符，跨多个字段的搜索等等。尽管用途广泛，但查询是严格的，如果查询字符串包含任何无效语法，则返回错误。
89210编辑于 2024-02-29
来自专栏微信终端开发团队的专栏
微信全文搜索优化之路
FTS5发布于2015年中。存储架构微信全文搜索在2014 年底上线，最初主要服务于联系人和聊天记录的业务搜索。搜索速度快微信全文搜索使用SQLite FTS4 Extension，通过倒排索引提高搜索速度。 2. 业务独立性微信的核心业务是联系人和消息，而微信全文搜索无论是在建立索引、更新索引或者删除索引时，都需要处理大量数据，为了使得全文搜索不影响微信的核心业务，采用如下的存储架构：独立DB、读写分离：微信全文搜索在整体架构上独立于主业务我们统计过，从微信5.4版本到6.5.7版本，微信全文搜索各个任务的平均搜索时间增长超过10倍，给微信全文搜索带来巨大挑战。最后经过优化后，微信全文搜索全体用户各个任务平均耗时都在50ms以下，而重度用户各个任务的平均搜索耗时都在200ms以下，平均时间优化的幅度达到5倍以上。
10K43发布于 2017-10-19
来自专栏微信终端开发团队的专栏
微信全文搜索优化之路
FTS5发布于2015年中。存储架构 ---- 微信全文搜索在2014 年底上线，最初主要服务于联系人和聊天记录的业务搜索。搜索速度快微信全文搜索使用SQLite FTS4 Extension，通过倒排索引提高搜索速度。 2. 业务独立性微信的核心业务是联系人和消息，而微信全文搜索无论是在建立索引、更新索引或者删除索引时，都需要处理大量数据，为了使得全文搜索不影响微信的核心业务，采用如下的存储架构：独立DB、读写分离：微信全文搜索在整体架构上独立于主业务我们统计过，从微信5.4版本到6.5.7版本，微信全文搜索各个任务的平均搜索时间增长超过10倍，给微信全文搜索带来巨大挑战。最后 ---- 经过优化后，微信全文搜索全体用户各个任务平均耗时都在50ms以下，而重度用户各个任务的平均搜索耗时都在200ms以下，平均时间优化的幅度达到5倍以上。
2.7K20编辑于 2023-02-20
来自专栏前端导学
Sphinx 全文搜索引擎
Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。 ?
1.7K10发布于 2019-05-26
来自专栏大数据与微服务架构
全文搜索引擎 ElasticSearch
CPU：cpu的时钟频率对es的性能影响并不太大，但是文档的插入和文档搜索的性能取决于并发线程数，而并发线程数取决于CPU核心的个数。
90610发布于 2020-04-11
来自专栏MongoDB中文社区
纯 MongoDB 实现中文全文搜索
本文首先描述遇到的业务需求和困难，介绍了MongoDB和Atlas Search对全文搜索的支持现状，然后从全文搜索原理讲起，结合MongoDB全文搜索实现，挂接中文分词程序，达到纯MongoDB社区版实现中文全文搜索的目标那么能否仅仅基于MongoDB社区版实现中文全文搜索呢？倒排索引是所有支持全文搜索的数据库的基础，无论是PostgreSQL还是MySQL都是用它来实现全文搜索的，MongoDB也不例外，这也是我们最终解决问题的基础底座。以牛仔裤为例，使用结巴分词后查询时间由10秒以上降到约400ms，而直接复制商品名进行长词查询，也基本上能够在5秒钟之内完成查询，可用性和用户体验都得到了巨大提升。期待用上内建中文全文搜索支持的那一天。
6.3K20编辑于 2022-01-26
来自专栏技术路漫漫
全文搜索实战1-简单网页抓取及搜索
本文基于jsoup和elasticsearch，实现了从指定网页抓取内容，并存储到es中，进而通过es的搜索功能实现全文检索基础环境搭建 es是基于docker安装，鉴于当前springboot对应的是
1.1K00发布于 2020-07-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【全文搜索】全文搜索 PostgreSQL 或 ElasticSearch

简单全文搜索

seafile配置全文搜索

Solr实现全文搜索

lucene(全文搜索)_建立索引_根据关键字全文搜索_源码下载

Elasticsearch全文搜索与TFIDF

ElasticSearch构建全文搜索系统

02.全文搜索ES

python全文搜索库Whoosh

带你认识 flask 全文搜索

lucene(全文搜索)_删除索引

lucene(全文搜索)_luceneweb例子

pycharm全文搜索_python搜索关键词

DSL查询之全文搜索详解

微信全文搜索优化之路

微信全文搜索优化之路

Sphinx 全文搜索引擎

全文搜索引擎 ElasticSearch

纯 MongoDB 实现中文全文搜索

全文搜索实战1-简单网页抓取及搜索

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐