首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏人人都是架构师

    Rapidfuzz:快速而准确的字符串匹配

    基本功能 在涉足 Rapidfuzz 的世界之前,让我们先来熟悉几个它的杀手锏功能,这些是它真正崭露头角的地方。 字符串相似度计算 Rapidfuzz 最基本的功能就是计算两个字符串之间的相似度。 from rapidfuzz import fuzz similarity = fuzz.ratio("Rapidfuzz", "Rapidfuzz is amazing!") print(similarity) # 输出两个字符串的匹配百分比 模糊搜索 如果你有一堆候选字符串,你可以使用 Rapidfuzz 来找出其中与给定查询字符串匹配度最高的那个: from rapidfuzz Rapidfuzz 允许你设置这样的条件,进而控制搜索的精细度。 更多详细说明和用法,请参考项目文档:https://rapidfuzz.github.io/RapidFuzz/

    97410编辑于 2025-01-18
  • 来自专栏算法之名

    MMOCR使用指南

    mmdet -i https://pypi.tuna.tsinghua.edu.cn/simple pip install lmdb pip install shapely pip install rapidfuzz

    1.3K41编辑于 2022-09-16
  • 来自专栏未闻Code

    一日一技:怎么中文也属于字母?

    摄影:产品经理 佛跳墙 我最近在使用一个第三方库,叫做RapidFuzz

    30610编辑于 2024-03-13
  • 来自专栏PowerBI x Python

    模糊匹配工具2.0

    作为对比,使用以C++为底层加速的python库,rapidfuzz,2天2夜还没计算完。 02 领取工具的读者不少,但给出反馈的寥寥无几。

    2K20发布于 2021-08-31
  • 来自专栏tencent cloud

    【DEBUG MCP SERVER】

    首先我们通过一个简单的相似度代码去召回向量,观察向量 from rapidfuzz import fuzz scored = [] for i, it in enumerate(hits sites, limit) key = " ".join([ln.strip() for ln in query.splitlines() if ln.strip()][:3]) from rapidfuzz

    52722编辑于 2025-10-31
  • | 信息抽取 | BERT-CRF、DocRE | 辅助编码、病案质控 | 多模态(文本+影像) | | 标准化 | UMLS-CN、SBERT | 医保结算

    from rapidfuzz import process, fuzzdef normalize(term:str, vocab:set, topk=5): cand = process.extract

    40000编辑于 2025-07-22
  • 来自专栏Datawhale专栏

    世界人工智能大赛OCR赛题方案!

    conda/envs/python35-paddle120-env/lib/python3.7/site-packages (0.16.0) Requirement already satisfied: rapidfuzz

    1K30发布于 2021-11-16
  • 来自专栏along的开发之旅

    Ascend 910b上 paddle安装及运行报错排查

    stable/npu/可能还有一些第三方依赖, 后面执行的时候, 会报错, 一起装了pip install scikit-image albumentations pyclipper shapely lmdb rapidfuzz

    1.3K10编辑于 2025-04-25
  • AI健身体能测试之基于paddlehub实现引体向上计数个数统计

    python-docx==1.1.0 python-multipart==0.0.6 pytz==2023.3.post1 PyWavelets==1.4.1 PyYAML==6.0.1 pyzmq==25.1.2 rapidfuzz

    24200编辑于 2025-07-16
  • 来自专栏繁依Fanyi 的专栏

    问题随记 —— Python3.8 安装 nemo_toolkit 报错

    42 kB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 42.3/42.3 kB 401.0 kB/s eta 0:00:00 Collecting rapidfuzz pypi.tuna.tsinghua.edu.cn/packages/a5/e0/d41005d189da74d6d914c0723e74b75a88372123cec86aebb8c42f858ddf/rapidfuzz terminado, stack-data, soundfile, scikit-learn, sacremoses, sacrebleu, ruamel.yaml, requests-oauthlib, rapidfuzz

    1.7K00编辑于 2023-05-07
  • 来自专栏信数据得永生

    Marker 源码解析(一)

    \marker\marker\benchmark\scoring.py # 导入 math 模块 import math # 从 rapidfuzz 模块中导入 fuzz 和 distance 函数 from rapidfuzz import fuzz, distance # 导入 re 模块 import re # 定义最小分块字符数 CHUNK_MIN_CHARS = 25 def tokenize

    74310编辑于 2024-03-09
领券