首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Soul Joy Hub

    文本搜索(C实现)

    } standard[j]='\0'; strcpy(cans,standard); } int main() { char cc[500][501]; //存储 原版文本 char Standard_File[500][501]; //存储标准化后的文本,用于查找字符串 Mystr ans[1000];//存储字符串 char tem[50]; ))==NULL) { printf("cannot open file\n"); return 0; } int fcount=0;//记录文本的行数

    1.2K20发布于 2019-02-13
  • grep 文本搜索工具

    grep 是一个功能强大的文本搜索工具,其名字来源于 "global regular expression print" 的缩写。 基本用法grep 的基本语法格式为:grep pattern filenamepattern:表示要搜索的正则表达式模式或字符串。 它可以是一个简单的单词,如 "apple",也可以是一个复杂的正则表达式,用于匹配特定的文本模式。filename:指定要在其上执行搜索操作的文件名。 -i 选项:忽略大小写当使用 -i 选项时,grep 会在搜索过程中忽略字符的大小写差异。这对于查找不区分大小写的文本内容非常有用。 示例:搜索包含特定字符串 "pattern" 的行,不区分大小写:grep -i "pattern" filename.txt假设 filename.txt 文件中有以下内容:Pattern is found

    1.1K10编辑于 2025-03-12
  • 来自专栏alexqdjay

    搜索文本的匹配算法

    搜索即找到跟搜索词句很相似的文本,例如在百度中搜索"人的名",结果如下 那么怎么评价两个文本之间的相似度呢? 那么怎么把文本转化成向量呢? 文本向量化 使用词袋one-hot的方式,就是形成一个词的字典集,然后将文本中的词投射到词袋中,对应的位置用出现的频次填充,没有的填充零,例如有这么个词袋: 0 苹果 1 手机 2 魅族 3 非常 4 但是,当你搜索B “苹果手机非常好用” 时,你可能更希望看到其他有关 “苹果手机” 的信息,因为这里的关键字是 “苹果”,那么怎么样才能把一些关键字的比重提高呢? 下一篇准备写Lucene是怎么应用这个算法做搜索匹配的

    7.1K70发布于 2018-05-11
  • Linux grep 文本搜索工具

    前言grep 是一个常用的文本搜索工具,通常用于在文本文件中查找特定模式或字符串。它的名字是 "global regular expression print" 的缩写。 可以帮助你在文本文件中查找特定的内容,无论是简单的字符串还是复杂的正则表达式模式。基本用法grep pattern filenamepattern:要搜索的正则表达式模式或字符串。 filename:要在其上执行搜索的文件名。 pattern" filename.txt-r:递归搜索目录中的文件grep -r pattern directory递归搜索目录中的文件:grep -r "pattern" directory/-n: ://[^\s]+" file.txt匹配空白行:匹配空白行:grep "^\s*$" file.txt匹配引号内的文本:匹配双引号内的文本:grep "\"[^\"]*\"" file.txt匹配单引号内的文本

    1.6K21编辑于 2023-12-20
  • 来自专栏玖叁叁

    MongoDB文本搜索聚合函数使用

    $match$match函数用于对文本进行匹配搜索,例如:db.articles.aggregate([ { $match: { $text: { $search: "database" } } } , { $group: { _id: "$author", count: { $sum: 1 } } }])这个命令将在articles集合中搜索包含关键词“database”的文章,然后按照作者进行分组 $sortByCount$sortByCount函数用于按照文本匹配的结果进行排序,例如:db.articles.aggregate([ { $match: { $text: { $search: $text$text函数用于指定需要搜索文本字段和搜索条件,例如:db.articles.aggregate([ { $match: { $text: { $search: "database" “database”的文章,然后按照作者进行分组,并按照文章数量进行排序,最后投影出作者和文章数量字段,然后再在搜索结果中搜索包含关键词“relational”的文章。

    1.4K10编辑于 2023-04-14
  • 来自专栏浩Coding

    Linux命令之Grep——文本搜索

    Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。 grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到标准输出,不影响原文件内容。 grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。 我们利用这些返回值就可进行一些自动化的文本处理工作。 1.命令格式: grep [option] pattern file 2.命令功能: 用于过滤/搜索的特定字符。 -v --revert-match #显示不包含匹配文本的所有行,就是不显示grep这个命令。 -V --version #显示版本信息。

    3.6K30发布于 2019-07-03
  • 来自专栏flutter开发中的点滴积累

    Flutter文本标签TextTagWidget,搜索记录流式布局显示文本标签

    Flutter开发的点滴积累系列文章 *** 1 添加依赖 flutter_tag_layout: ^0.0.3 github源码在这里 pub.flutter-io.cn最新版在这里 2 导包 在使用到文本标签的地方 import 'package:flutter_tag_layout/flutter_tag_layout.dart'; 3 标签创建文本 class TextTagPage extends StatefulWidget Widget build(BuildContext context) { return Scaffold( appBar: AppBar( title: Text("文本标签 margin: EdgeInsets.all(30.0), child: Row(children: [ TextTagWidget("文本标签 (TextTagWidget("$str")); } return Scaffold( appBar: AppBar( title: Text("文本标签

    1.6K11发布于 2020-06-26
  • 来自专栏小鹏的专栏

    基于召回和排序的文本搜索

    :"我在玉龙雪山并且喜欢玉龙雪山", "2":"我在九寨沟", "3":"我在九寨沟,很喜欢", "4":"很喜欢"} query = "我在九寨沟,很喜欢" # 直接搜索

    1.2K30发布于 2020-10-29
  • 来自专栏日常撸知识

    MySQL 组合查询及全文本搜索

    二、全文本搜索:MySQL最常用的两个引擎,MyISAM和InnoDB,其中MyISAM支持全文本搜索,InnoDB不支持全文本搜索。 全文本搜索相对于like和_通配符以及正则匹配有三大优势:性能,明确控制,智能化结果。 全文本语句表达式如下,使用Match()指定被搜索的列,使用Against()指定要使用的搜索表达式。 全文本搜索一个重要的部分就是对结果进行排序,具有较高等级的先返回。 三、布尔全文本搜索可以提供关于细节:要匹配的词;要排斥的词;排列提示(指定某些词比其他词更重要);表达式分组等。 操作符如图: ? 仅在MyISAM数据库引擎中支持全文本搜索

    1.6K30发布于 2019-07-03
  • 来自专栏运维技术知识

    grep命令 – 强大的文本搜索工具

    grep是“global search regular expression and print out the line”的简称,意思是全面搜索正则表达式,并将其打印出来。 grep命令的选项用于对搜索过程的补充,而其命令的模式十分灵活,可以是变量、字符串、正则表达式。需要注意的是:一当模式中包含了空格,务必要用双引号将其引起来。 -s 不显示不存在、没有匹配文本的错误信息 -v 显示不包含匹配文本的所有行 -w 匹配整词 -x 匹配整行 -r 递归搜索 -q 禁止输出任何结果,已退出状态表示搜索是否成功 -b 打印匹配行距文件头部的偏移量 zwxedkfgj 只列出符合匹配的文件名,不列出具体匹配的行: [root@linux ~]# grep -l zwx file_* file_1 file_2 file_4 不显示不存在或无匹配的文本信息 ,不仅搜索当前目录,还搜索子目录: [root@linux ~]# grep -r zwx file_2 * file_2:zwx anaconda-ks.cfg:user --name=zwx -

    1K10编辑于 2021-11-29
  • 来自专栏NebulaGraph 技术文章

    Nebula 基于 ElasticSearch 的全文搜索引擎的文本搜索

    [Nebula 基于全文搜索引擎的文本搜索] 1 背景 Nebula 2.0 中已经支持了基于外部全文搜索引擎的文本查询功能。 经过一番调研和讨论,所谓术业有专攻,文本搜索的工作还是交给外部的第三方全文搜索引擎来做,在保证查询性能的基础上,同时也降低了 Nebula 内核的开发成本。 2 目标 2.1 功能 2.0 版本我们只对 LOOKUP 支持了文本搜索功能。也就是说基于 Nebula 的内部索引,借助第三方全文搜索引擎来完成 LOOKUP 的文本搜索功能。 数据查询性能:刚刚我们提到了,如果不借助第三方全文搜索引擎,Nebula 的文本搜索将是一场噩梦。 4.3 查询逻辑 [Nebula 基于全文搜索引擎的文本搜索] 由上图可知,其文本搜索的关键步骤是 “Send Fulltext Scan Request” → "Fulltext Cluster" →

    1.6K00发布于 2021-06-17
  • 来自专栏站长技术

    DEDECMS织梦搜索怎样使搜索结果页 搜索文本框去除(或保留)搜索的内容

    怎样使搜索结果页 搜索文本框去除(或保留)搜索的内容 如下图 第一步:找到对应的搜索模板的代码 我们都知道,dede有自带的搜索功能,我们只要找到对应的模板,然后把我们想要的代码拿出来就行了。 </form> 实际上也就是去掉了value="{dede:global name='keyword' function='RemoveXSS(@me)'/}"的值,这个value=""空值就是去掉了搜索文本框的内容 ,相反就是保留文本框的内容,相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识。

    3.1K00编辑于 2022-06-19
  • 来自专栏爬蜥的学习之旅

    文本获取和搜索引擎简介

    根据句法本身去推断为什么这样做,理解为什么有人这样描述,比如可能是想让某人把狗唤回来,以免男孩被狗伤着 Bag of words:保留所有的单词,重复的也会保留,但是不关心单词在生个句子中出现的顺序 文本获取的分类 类似搜索引擎的Pull模型:用户拥有主动权,它具有Ad hoc属性,就是说暂时性的需要,后续不再使用,比如搜索到某个关键字的文档后,这个关键字就不再被使用 查询和浏览的区别:查询是用户知道搜索什么, 浏览是将内容放置供人查看,而不是查询 类似推荐系统的Push模型:系统拥有主动权,一个良好的推荐系统能够给用户推送它真正需要的信息 文本获取的方式 用户给定查询关键字在既有的数据集里头搜索出想要的结果以供浏览 文本获取的方式一般有两种: 第一是 document selection,即根据某种函数f给查询q和文件d作用后的结果来分类,[f(q,d)=1 / 0],明确把文档分隔开,要么完全相关,要么完全不相关 ; 第二是 Ranking,它是计算相关性,并依次排列顺序,关键在于如何说明某个文件的相关性比另一个的相关性更大,当相关性大于某个阈值的时候就返回匹配的文件[ f(q,d)>THETA] 文本获取(Text

    88330发布于 2019-07-09
  • 来自专栏网站教程

    linux强大的文本搜索工具grep命令

    grep是“global search regular expression and print out the line”的简称,意思是全面搜索正则表达式,并将其打印出来。 grep命令的选项用于对搜索过程的补充,而其命令的模式十分灵活,可以是变量、字符串、正则表达式。需要注意的是:一当模式中包含了空格,务必要用双引号将其引起来。 -s 不显示不存在、没有匹配文本的错误信息 -v 显示不包含匹配文本的所有行 -w 匹配整词 -x 匹配整行 -r 递归搜索 -q 禁止输出任何结果,已退出状态表示搜索是否成功 -b 打印匹配行距文件头部的偏移量 zwxedkfgj 只列出符合匹配的文件名,不列出具体匹配的行: [root@linuxcool ~]# grep -l zwx file_* file_1 file_2 file_4 不显示不存在或无匹配的文本信息 ,不仅搜索当前目录,还搜索子目录: [root@linuxcool ~]# grep -r zwx file_2 * file_2:zwx anaconda-ks.cfg:user --name=zwx

    1.7K00发布于 2021-07-24
  • 来自专栏网络技术联盟站

    Linux强大的文本搜索命令:egrep

    egrep 是 Linux 系统中的一个强大的文本搜索工具,用于在文件中查找匹配指定模式的行。它支持使用正则表达式进行高级模式匹配,提供了灵活和强大的文本搜索功能。 例如:egrep -n 'Hello' example.txt2.5 递归搜索目录要在目录及其子目录下的所有文件中递归搜索匹配的行,可以使用 -r 选项。 匹配前一个字符的 n 到 m 个副本 这只是一小部分正则表达式模式的示例,正则表达式具有很高的灵活性和强大的功能,您可以根据需要使用更复杂的模式进行文本匹配和搜索 总结egrep 是 Linux 系统中一个强大的文本搜索工具,它支持使用正则表达式进行高级模式匹配。通过结合不同的选项和正则表达式模式,您可以根据需要精确地搜索和匹配文件中的文本内容。 这些示例可以帮助您理解和应用 egrep 命令进行文本搜索和匹配。

    1.5K30编辑于 2023-06-09
  • 来自专栏allsmallpi博客

    MySQL(十)操纵表及全文本搜索

    支持事务和外键,和MyISAM各有优劣; 与全文本搜索功能类似的有通配符和正则表达式匹配,但性能较低,通常会匹配表的所有行,而且这些搜索极少使用表索引,不能做到明确控制,且返回的结果不智能化; 在使用全文本搜索时 like子句具有和全文本搜索相同的功能,但区别在于:全文本搜索的特点是对结果进行排序,具有较高等级的行先返回(如果排序多个搜索项,则包含多数匹配词的行将具有更高的优先级)。 检索过程: ①进行一个基本的全文本搜索,找出与搜索条件匹配的所有行; ②MySQL检查这些匹配行并选择所有有用的词(将会简要的解释MySQL如何断定什么有用什么无用); ③MySQL再次进行全文本搜索, 5、全文本搜索使用说明 ①在索引全文本数据时,短词被忽略且从索引中删除(短词定义为3个或3个以下字符的词:如果需要可以更改); ②MySQL带有一个内建的非用词(stopword)列表,这些词在索引全文本搜索时总被忽略 ; ⑤忽略词中的单引号,例如don't索引为dont; ⑥不具有词分隔符的语言不能恰当的返回全文本搜索结果; ⑦仅在MyISAM数据库引擎中支持全文本搜索

    2.8K30发布于 2021-02-25
  • 来自专栏Linux代码

    ack - 比grep好用的文本搜索工具

    ack是一个专为程序员设计的文本搜索工具,在很多场景下被认为比传统的grep更方便实用,以下为你详细介绍:基本概念ack由 Andy Lester 开发,它的设计初衷是为了在代码库中更高效地进行文本搜索 常用命令参数及示例基本搜索:ack "pattern"这会在当前目录及其子目录下搜索包含pattern的文本行。例如,ack "function"会查找所有包含function这个单词的行。 指定搜索目录:ack "pattern" /path/to/directory在指定的目录/path/to/directory及其子目录下搜索包含pattern的文本行。 只搜索特定类型的文件:ack --python "pattern"只在 Python 文件(.py扩展名)中搜索包含pattern的文本行。 文档搜索:在大型文档项目中,使用ack可以方便地搜索特定的文本内容,节省查找时间。局限性依赖安装:ack不是所有系统默认安装的工具,需要手动安装。

    2.2K10编辑于 2025-02-02
  • 来自专栏android framework开发

    rg 如何搜索以横杠 `-` 开头的文本

    这段文本是ripgrep(rg)工具帮助文档的一部分,虽然复制得有点乱序,但它的核心内容是在解释“位置参数”(PositionalArguments)以及“如何搜索以横杠-开头的文本”。 简单来说,这段话是在教你解决一个命令行工具常见的痛点:当你想搜索的内容看起来像是一个命令选项时,该怎么办?以下是详细的通俗解释:1.什么是<PATTERN>(搜索模式)? 如果你直接输rg-foo,工具会以为你在启用-f、-o这些功能,而不是在搜索文字,从而导致报错。2.如何解决这个问题? 电脑看到--后,就会把后面所有的内容(即使是-开头的)都当作普通的文件名或搜索内容处理,而不再当作命令去执行。3.关于<PATH>(路径)含义:告诉工具去哪个文件或文件夹里搜索。 规则:如果你指定了文件路径,它就会覆盖默认的忽略规则(比如.gitignore),强行搜索你指定的文件。

    10110编辑于 2026-02-10
  • 来自专栏追不上乌龟的兔子

    文本嵌入,语义搜索与sentence-transformers库

    如果要用向量数据库处理文本数据,就需要将文本转换为向量表示,机器学习术语叫做文本嵌入(Text Embedding)。 传统的文本嵌入方法是基于统计的,比如 TF-IDF,Word2Vec 等。 我们还可以使用中文文本进行测试。 使用 sentence-transformers 进行语义搜索 通过比较不同向量间的余弦相似度,我们可以找到最相似的向量,这就是语义搜索的基本原理。 事实上,sentence-transformers 还提供了 utils.semantic_search 函数,简化了语义搜索的过程。可以使用一些中文文本来测试一下。 总结 sentence-transformers 是一个非常好用的文本嵌入工具包,可以用于生成句子的向量表示,也可以用于语义搜索

    2.6K10编辑于 2023-12-24
  • 来自专栏Reinvent Data Science

    Milvus 实战 | Milvus 与 BERT 搭建文本搜索

    本文的项目是将 Milvus 与 BERT 模型结合搭建文本搜索引擎,使用 BERT 模型将文本数据转成向量,结合 Milvus 特征向量相似度搜索引擎可以快速搜索相似文本。 Milvus 对特征向量进行相似度检索,得到相似的新闻标题的 ID ,在 PostgreSQL 中找出 ID 对应的新闻标题和文本返回。在后续界面展示中可以看到新闻文本搜索的一个例子。 启动查询服务 在项目中启动查询服务,然后在浏览器中进行文本搜索,得到最终的文本搜索结果。 首先进入搜索页面,输入“中国股市”,点击 Search 进行搜索。 ? 可以得到与“中国股市”相关的新闻文本。比如图中所示的文本“中国股市吸引外资......”等。 ? 本文利用 Milvus 搭建的文本搜索引擎也只是其中一个场景,展示了 Milvus 在非结构化数据处理中的应用。欢迎大家导入自己的数据建立自己的文本搜索引擎。

    3.3K20发布于 2020-08-05
领券