首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏该溜子的专栏

    【从0做项目】Java搜索引擎5

    ,保证每2~3行代码都有详细的注解 2:通过文字+画图的方式,对项目进行整个复盘,更好的理解以及优化项目 3:总结自己的优缺点,扎实java相关技术栈,增强文档编写能力 零:项目结果展示 简述:在我的搜索引擎网站 { return o2.getWeight() - o1.getWeight();//降序排列 } }); //5:

    56110编辑于 2025-02-18
  • 来自专栏其它

    5 分钟让你了解什么是搜索引擎

    搜索引擎概述搜索引擎是一种用于在互联网上查找和获取信息的工具或服务。 本地搜索引擎本地搜索引擎主要关注于提供特定地理位置或区域范围内的搜索结果。它们为用户提供与特定地点、商家、服务或活动相关的信息和结果。 基于关键词的搜索引擎(Keyword-based Search Engine)基于关键词的搜索引擎是最常见的搜索引擎类型。它们根据用户提供的关键词或查询词来搜索相关的内容。 大多数通用搜索引擎都采用基于关键词的搜索方法。语义搜索引擎(Semantic Search Engine)语义搜索引擎采用更高级的搜索技术,以理解用户查询的意义和上下文,并提供更准确和相关的搜索结果。 搜索引擎的组成搜索引擎从下至上可以大致分为4个组成部分:网络爬虫(Web Crawler)网络爬虫是搜索引擎的重要组成部分,用于遍历互联网并抓取网页内容。

    1.9K21编辑于 2024-02-05
  • 来自专栏渗透测试专栏

    渗透测试信息收集技巧(5)——网络空间搜索引擎

    网络空间搜索引擎介绍 网络空间搜索引擎不同于搜索普通网页,而是直接搜索网络中存在主机,将主机信息汇聚成数据库,然后显示出主机的IP、端口、中间件摄像头,工控设备banner等其他网络设备信息。 按照普通搜索引擎规则来搜索网络设备,如 : ip:"192.168.1.0" 国外 shodan 国内 zoomeye fofa 360quake 奇安信hunter shodan Shodan是国外人员开发的网络空间搜索引擎

    1.3K20编辑于 2024-09-26
  • 来自专栏自然语言处理(NLP)论文速递

    OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎

    Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」 OpenAI 员工程博文(Bowen Cheng)跟了个帖,「比 gpt-5 更酷」,不过又迅速删帖。 OpenAI 的葫芦里到底卖的什么药? OpenAI 可能会在今年年底发布 GPT-5 其实,利用 AI 开发强大的助手,谷歌早有此想法。 除了即将发布的具有音频和视觉功能的模型外,OpenAI 一直计划推出 AI 搜索引擎,旨在与谷歌竞争。 更重要的是,GPT-5 也在马不停蹄地研发中。据一位与 OpenAI 领导层讨论过此事的人士表示,OpenAI 可能会在今年年底完成 GPT-5 并公开发布。

    33210编辑于 2024-05-17
  • 来自专栏吉林乌拉

    搜索引擎

    它们都称之为搜索引擎。虽然听起来比较高大上。但实际上他们就是搜索数据用的。但站在数据方面考虑,实际上数据会分为两种:结构化数据和非结构化数据。 结构化数据:简单来说,就是有固定格式固定长度的的数据。 所以谷歌和百度搜索引擎的基本原理就是:网络机器人或者网络蜘蛛通过扫描网页中的内容,提取出相应的关键词,然后为提取出的关键词建⽴索引,并记录该关键词在文章中位置,当用户搜索时,如果命中该关键词,搜索引擎就根据按照之前的索引进查找 它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch也是用Java语言开发的。 那为什么还会出现类似Elasticsearch这样的搜索引擎技术呢?答案就像我上面介绍的那样。搜索引擎并不会将所有的数据全部按照结构化存储,而是按照相应的关键字存储。 所以,正是因为数据库有种种这样的原因,才会出现全文搜索引擎存在的必要。 ---- 下面我们介绍一下全文搜索引擎比较适合的应用场景都有哪些: 搜索数据比较大的非结构化数据。 支持文本数据量达百万级别。

    1.7K11发布于 2020-11-13
  • 来自专栏漫流砂

    其他搜索引擎

    Shodan的介绍可以说是很详细了,对于其他的空间搜索引擎,我就不再详细的去研究了,因为都是差不多的。 Censys 之前对这款搜索引擎的了解并不是很多,曾经在Freebuf上看到过介绍,当然仅仅是介绍而已,可能是因为Censys提供了官方文档(https://censys.io/overview) Censys 好像最后也没有看完这本书就放弃了 之前在培训中也有介绍过GoogleHacking,网络上的文章也是不计其数,我就借着Exploit-DB上的进行一下介绍 我们都知道,Google是一个基于关键字搜索的内容型的搜索引擎 返回的是网站的内容 首先我们明确一下基本规则吧 1. +- + 表示包含 - 表示不包含 2. "" 同时含有两个或以上字符 3. intitle 在标题中包含 4. intext 在文章内容中包含 5. ---- 对于搜索引擎,我只是对于Shodan详细介绍了,其他几个并没有进行深入探讨,甚至没有进行深入介绍,大概就是因为Shodan做的确实很好吧!

    1.4K20发布于 2020-08-19
  • 来自专栏Web_xy

    AI搜索引擎

    ,当时也有过猜想,会不会用于搜索引擎,而且也安装过chatgpt谷歌拓展插件,感觉还可以~),但转念一想,也正常,因为我们所处的时代发展速度不同以往了。 更重要的是我们将重新创造搜索引擎,会有很多美好的事发生,这是一个重要时刻,」微软CEO纳德拉表示。 我本来也想试试,但是现在公测版还未发行,且内测版被各大头条垄断,只能先看看谍照了hh ---- 基于AI的搜索引擎 新模式的搜索引擎 ---- 我们能看到,新必应搜索的其中一种模式将传统搜索结果与 因为人们正在使用搜索引擎来做它最初没有设计的功能。搜索引擎非常适合查找网站,但对于更复杂的问题或任务来说,它往往不够用。 例如它可以帮助你编写电子邮件、为你期待已久的夏威夷梦幻假期创建 5 天的行程、预订旅行和住宿的链接、准备工作面试等。必应还引用了信息所有来源,你可以看到它引用网络内容的链接。

    1.7K20编辑于 2023-02-23
  • 来自专栏java,python,数据结构,算法

    【云+社区年度征文】5分钟让你知道什么是搜索引擎

    目录 1.搜索引擎 -1.1-什么是搜索引擎 -1.2-搜索引擎为什么这么快 ------1.2.1-正排索引 ------1.2.2-倒排索引 -1.3-主流的搜索引擎技术有哪些 2.ElasticSearch 网络搜索引擎是最常见、公开的一种搜索引擎,其功能为 搜索万维网上储存的信息。 其实维基百科的解释比较到位的,说白了搜索引擎就是一个帮助我们 快速检索信息 的工具. 大家看到选项之后就能知道搜索引擎具体有哪些了.这里谷歌为我们提供了好几个选项,像我们常用得 百度,360 这些都是属于搜索引擎.当然了像 阿里的夸克,搜狗,UC 等等都是搜索引擎. 1.2-搜索引擎为什么这么快 ,大公司使用之后发现ElasticSearch存在安全漏洞,因为在5版本的ElasticSearch中,ElasticSearch运行都是通过root用户进行的,所以有些黑客就通过这个特性直接获取到root 所以在5版本之后,ElasticSearch都开始采用这种方案,即所有的操作不能再是root用户,必须单独创建一个用户来操作elasticSearch.

    1.4K70发布于 2020-12-07
  • 来自专栏JetpropelledSnake

    搜索引擎语法

    0x00 前言 搜索引擎语法是一个本该经常使用但是却一直被我忽略工具。它可以在很大程度上满足一些特殊需求,比如:渗透时查找网站后台或者上传文件页面等。 目前主要常用的搜索引擎主要baidu、google、bing,每个搜索引擎的语法有细微的差别,但是很多地都非常类似,由于google在国内经常无法访问(比如我现在用了Chromebook,在家里面整笔记时候还没弄好 0x01 常用搜索引擎语法 1.site 把搜索范围规定在特定的站点中 。但是有时候你需要找一些特殊的文档,特别是针对于专业性比较强的网站合理使用site可以让你取得事半功倍的效果。 5.filetype 搜索指定扩展名的文件 举例: # 查找百度的pdf格式的文件 # site:baidu.com filetype:pdf 渗透 6.index of index of可以检索到哪些允许目录遍历的服务器的内容

    1.7K100发布于 2018-05-03
  • 来自专栏网络信息安全

    搜索引擎 Hacking

    利用Google搜索我们想要的信息,需要配合谷歌搜索引擎的一些语法: 基本语法 逻辑与:and 逻辑或: or 逻辑非: - 完整匹配:"关键词" 通配符:* ?

    71910编辑于 2024-03-12
  • 来自专栏凌中的锋雨-博客

    Algolia搜索引擎

    (而且也很多人跟我说过,一直咕咕咕罢了QAQ) 搭建的时候呢我试过两个插件,一个是“本地搜索”,而另外一个就是我现在用的“Algolia”搜索引擎。 搭建 搭建成品图 image.png 介绍 本篇目说的是 Algolia 搜索引擎的搭建。 hexo clean && hexo g -d && hexo algolia 此代码,清除缓存,上传,上传搜索引擎直接一步到位啦~ 好了,完了。给我点个赞呗(点锤子)

    1.8K41编辑于 2022-03-16
  • 来自专栏轩辕镜像

    5 分钟用 Docker 搭建你的私人搜索引擎 - SearXNG

    今天就教大家用Docker,5分钟搭建一个完全属于你自己的私人搜索引擎,从此告别广告和追踪。什么是SearXNG?SearXNG是一个开源的元搜索引擎(MetasearchEngine)。 你已经拥有一个属于自己的私人搜索引擎了!界面非常简洁,没有任何广告,搜索结果干净清爽。你可以试试搜索任何内容,对比一下和你平时用的搜索引擎有什么不同。 和max_request_timeout,防止被搜索引擎封IP修改完配置后,重启容器生效:展开代码语言:BashAI代码解释dockerrestartsearxng进阶玩法如果你想把这个搜索引擎对外提供服务 因为SearXNG是用你的服务器IP去请求Google、Bing等搜索引擎,如果请求量比较大,很容易被封IP。解决方法是配置代理池或者SOCKS5代理,让请求通过不同的IP出去。 在settings.yml中添加代理配置:展开代码语言:YAMLAI代码解释outgoing:proxies:http:"socks5://127.0.0.1:1080"https:"socks5://

    59410编辑于 2026-04-28
  • 来自专栏Java经验之谈

    深入拆解搜索引擎实现原理一:初识 搜索引擎

    '搜索引擎'对于很多大厂来说已经不是什么新鲜技术了, 百度、淘宝等大型网站的搜索功能通常使用'搜索引擎'技术实现。 '搜索引擎'到底做了什么? 它和普通的数据库搜索有什么区别? 什么情况下才需要使用'搜索引擎'? 带着这些疑问,我们开始【对'搜索引擎'的探索】 '搜索'的本质其实是对'数据'的处理,所以我们先从'数据'讲起 数据类型 以搜索的角度划分,数据分为两种:结构化数据、非结构化数据(全文数据 这种将非结构化数据拆分、结构化,建立索引并对索引进行搜索的搜索方式就叫做全文检索,即'搜索引擎'的设计思想。 以上就是本篇的内容,通过今天的内容我们了解了'搜索引擎'到底做了什么、它和普通的数据库搜索有什么区别、什么情况下才需要使用'搜索引擎'。

    1.2K10发布于 2021-09-10
  • 来自专栏IT技术精选文摘

    搜索引擎架构概述

    需求 架构为应付需求而产生,对搜索引擎来讲,它主要的需求来自两个方面: 效果(effectiveness):搜索的结果质量如何. 所以 链接分析对搜索结果意义重大. 5.信息提取 (information extraction) 考虑这样一句话,”搜索引擎是一个技术成熟但实现成本高的应用“,其中“搜索引擎”显然比“搜”、“索”、“ 4.分布索引 (Index Distrubition) 通常搜索引擎处理的文档集合非常大 ,那么就必须考虑索引的分布式问题。 评分组件是搜索引擎的核心. 一般的评分可描述为: ∑iqidi 其中qi和di分别是第i个查询词项和文档词项的权重. 2.优化性能 (Performance optimization) 排序的效率对于搜索引擎的表现至关重要,所以需要进行性能优化。

    2.1K101发布于 2018-01-30
  • 来自专栏后端技术漫谈

    搜索引擎】Elasticsearch入门

    引擎一般指的是搜索引擎,现在用得比较多的就是Elasticsearch。 这篇文章主要是对Elasticsearch一个简单的入门,没有高深的知识和使用。 每隔5s中,translog 从buffer flush到磁盘中 定期/定量从FileSystemCache中,结合translog内容flush index到磁盘中。 ? 所以:Elasticsearch写入的数据需要1s才能查询到 为了防止节点宕机,内存中的数据丢失,Elasticsearch会另写一份数据到日志文件上,但最开始的还是写到内存缓冲区,每隔5s才会将缓冲区的刷到磁盘中 所以:Elasticsearch某个节点如果挂了,可能会造成有5s的数据丢失。

    81330发布于 2020-02-19
  • 来自专栏Felix的技术分享

    《自制搜索引擎》笔记

    第1章 搜索引擎是如何工作的 搜索引擎的基础是应用于信息检索、数据库等领域的信息技术。 例如,虽然下面的文档也同样 包含了 search 和 engine,但却与搜索引擎(search engine)无关。 1-5 实现倒排索引 实现词典 为了能够快速地获取到对应着单词的倒排列表,通常 都会使用哈希表、树等数据结构。 第2章 准备全文搜索引擎的检索样本 2-1 全文搜索引擎wiser 2-2 安装wiser 2-3 运行wiser 先来看下使用说明: $ ./wiser usage: . 第5章 压缩倒排索引 5-1 压缩的基础知识 压缩倒排索引的好处 在使用倒排索引进行检索的过程中,总检索时间中的大部分时间往 往花费在了从二级存储读取倒排索引上。

    3.1K30发布于 2018-07-02
  • 来自专栏字根中文校对软件

    搜索引擎的未来

    现在用msn的 highlightviewer更方便 看下面的图片  : 搜索 机器人 小叮咚 “微软的搜索引擎很快就可以做得和Google一样好,我对此深信不疑,”他说,“问题是,谁关心呢?” 然而,搜索引擎已发展得太快,以致于历史不可能重演。Google取得的巨大经济效益令人瞠目,更别提它的500亿股票市值了。 Gartner市场调查总监艾伦•维纳(Allen Weiner)表示,搜索引擎扮演的传统角色是为网页汇总出一个泛泛的索引,然后应用数学公式,设法使各网页按照相关性排列,但这只是一个起点而已。 相反,他们专门研究显示形式,从其它搜索引擎中获得搜索结果,然后以一种更易接受的形式呈现给用户。 如果你想比较各个搜索引擎如何处理同一种查询,并想了解它们生成的搜索结果经常重叠的程度有多小,请登陆 http://clusty.com/

    2.1K30发布于 2019-02-14
  • 来自专栏西里网CSDN博客

    拦截搜索引擎爬虫

    拦截搜索引擎爬虫 如何设置动态Token头进行防爬虫? 如何设置HTTP响应头进行防爬虫? 列举的这些HTTP响应头中,哪些最有效? 如何设置防爬虫 防爬虫策略构 哪些HTTP响应头可以用于防爬虫? 拦截搜索引擎爬虫操作示例 通过robots.txt文件 User-agent: * Disallow: /private/ Disallow: /temp/ Disallow: /admin/ User-agent

    29510编辑于 2025-07-10
  • 来自专栏公爵书房

    搜索引擎使用技巧

    搜索引擎相信大家经常在使用,但是有时候想搜某个信息时却搜出来一大堆不相关的(百度:你们都在看我干什么?)。 技巧4:指定文件格式 方式:filetype:文件格式 关键词 示例: filetype:avi 你懂的 常见文件格式有doc、pdf、ppt等 技巧5:指定在标题搜索 方式:intitle:关键词

    1.2K40编辑于 2022-09-28
  • 来自专栏全栈程序员必看

    搜索引擎使用技巧

    5、filetype 用于搜索特定文件格式。Google 和百度都支持filetype 指令。

    1.2K30编辑于 2022-07-22
领券