首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。 1. /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 3. ErnieCSC Ernie参阅:https://blog.csdn.net/u011239443/article/details/121820752? spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。

    3.3K20编辑于 2022-11-30
  • 来自专栏Soul Joy Hub

    中文文本纠错模型

    中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。 1. 得到各个字符错误的概率G = (g1,g2,…,gn),其中g在0-1之间,越靠近1表示该字符错误的概率越大,其损失函数为: soft-masked 作者认为只hard-mask了15%字符的Bert不完全具备纠错的能力 /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 3. ErnieCSC Ernie参阅:https://blog.csdn.net/u011239443/article/details/121820752? spm=1001.2014.3001.5502 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型

    1.9K40编辑于 2022-05-10
  • 来自专栏API百科

    基于机器学习的纠错系统技术 - 智能文本纠错 API

    引言在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化 本文将介绍一款新的基于机器学习的纠错技术,并详细列出实际的可应用场景。工作原理今天介绍的智能文本纠错 API 是基于机器学习的纠错系统通过分析大量的文本数据来学习语言模型,从而识别和纠正文本中的错误。 基于机器学习的文本纠错系统通常分为两个主要部分:语言模型和纠错算法。 纠错能力智能文本纠错技术是针对字词错误、标点、地名、专有名词、敏感信息、意识形态等进行智能校对,具体的纠错能力如下:图片应用场景当前的基于机器学习的智能文本纠错 API 已经非常成熟,并且广泛应用于各种领域 ,例如写作工具、手机输入法和翻译软件等,下面是一些常见的应用场景:图片快速接入智能文本纠错 API1.注册并获取智能文本纠错 API 密钥进入 【智能文本纠错】详情页,点击【免费试用】,即可唤起注册按钮

    1.5K30编辑于 2023-04-28
  • 来自专栏自然语言处理

    中文文本纠错任务简介

    任务简介 中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作,中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等,例如: 写作辅助:在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况 语音识别对话纠错文本纠错嵌入对话系统中,可自动修正语音识别转文本过程中的错别字,向对话理解系统传递纠错后的正确query,能明显提高语音识别准确率,使产品整体体验更佳 图片来源 但考虑到端到端任务,我们评价完整的纠错过程: 应该纠错的,即有错文本记为 P,不该纠错的,即无错文本记为 N 对于该纠错的,纠错对了,记为 TP,纠错了或未纠,记为 FP 对于不该纠错的,未纠错,记为 支持中文音似、形似、语法错误纠正,python3开发。 (Chinese Spelling Correct)最新技术方案总结 中文文本纠错算法--错别字纠正的二三事 中文文本纠错算法走到多远了?

    3.1K21编辑于 2022-10-28
  • 来自专栏机器学习AI算法工程

    中文文本纠错算法实现

    文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。 1.拼写错误 第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”, 2.少字多字 中文文本纠错比较难,不多说。 3.加载 数据库.txt 和 编辑距离.txt 4 输入一个错误单词(句子分词得到的单词,或者单独一个错误单词),计算编辑距离,生成编辑距离词集。 本文代码 获取: 关注微信公众号 datayx 然后回复 纠错 即可获取。 AI项目体验地址 https://loveai.tech 代码: 1导入包 和标点符号 ? #得到的是各单词词频,如:{‘老师上课’: ‘3’, ‘老师傅’: ‘62’, ‘老师宿儒’: ‘老师上课’: ‘3’, ‘老师傅’: ‘62’, } ? 3.读取编辑距离.txt ? 4.

    3.2K20发布于 2020-07-03
  • 来自专栏自然语言处理

    中文文本纠错工具推荐:pycorrector

    pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 PS:网友源码解读 深度模型的解决思路 端到端的深度模型可以避免人工提取特征,减少人工工作量,RNN序列模型对文本任务拟合能力强,rnn_attention在英文文本纠错比赛中取得第一名成绩,证明应用效果不错 ,抛砖引玉的作用,如果对大家在文本纠错任务上有一点小小的启发就是我莫大的荣幸了。 MacBert模型 基于MacBert预训练模型的纠错 示例macbert_demo.py,详细教程参考README 模型下载 下载fine-tune后的预训练MacBert MLM模型-密码QKz3, ,提升基于mask的纠错效果 新增基于electra模型的纠错逻辑,参数更小,预测更快 新增专用于纠错任务深度模型,使用bert/ernie预训练模型,加入文本音似、形似特征。

    3.5K20编辑于 2023-08-25
  • 来自专栏JadePeng的技术博客

    从编辑距离、BK树到文本纠错

    搜索引擎里有一个很重要的话题,就是文本纠错,主要有两种做法,一是从词典纠错,一是分析用户搜索日志,今天我们探讨使用基于词典的方式纠错,核心思想就是基于编辑距离,使用BK树。 rightLength]; } } BK树 编辑距离的经典应用就是用于拼写检错,如果用户输入的词语不在词典中,自动从词典中找出编辑距离小于某个数n的单词,让用户选择正确的那一个,n通常取到2或者3。 Collections.sort(searchResults); return Collections.unmodifiableList(searchResults); } 使用BK树做文本纠错

    2.5K60发布于 2018-03-12
  • 来自专栏素质云笔记

    中文文本纠错算法走到多远了?

    百度纠错的整体框架: ? 其中核心的关键步骤为: 1 错误检测 2 候选召回 3 纠错排序 1 错误检测: 先定位,一句话中哪些可能是错误的! ? 2 候选召回 ? 步骤为,输入句子,然后检测句子中可能的错误点,根据两者在亿级别的数据上进行文本召回,候选对齐 3 纠错排序 召回了一堆,应该怎么选,W&D模型 ? 三大核心技术 ? 语言知识、模型 ? 基于知识图谱的纠错,基于关联 知识计算 - 文本理解 ? 从一个月的query logs中,随机抽取3w条query,分别抓取baidu网页搜索纠错结果和自身纠错结果, 取两个纠错结果的并集共3.1k,进行人工标注,其中有200条存在关联纠错,作为实验的数据集合 小明NLP 提供中文分词, 词性标注, 拼写检查,文本转拼音,情感分析,文本摘要,偏旁部首 https://github.com/SeanLee97/xmnlp 单词、短句效果:3/13 效果差 速度:

    7.3K31发布于 2019-05-26
  • 来自专栏世玉的专栏

    文本纠错、图片变小、生成二维码

    文本纠错这个东西需要海量数据支持,所以对接了百度这个大平台的文本纠错API。这样一方面保证了数据会一直更新下去,另一方面提高了正确率。对于网文编辑人员来说是非常好的一个东西。 如下是软件界面: 1.png 2.png 3.png 4.png 软件下载地址:http://spider.mozile.cn:8081/upload/网编助手v2.zip 如果您觉得软件对您有所帮助

    89110发布于 2020-01-16
  • 来自专栏朴素人工智能

    Soft-Masked BERT:文本纠错与BERT的最新结合

    本文将通过以下几个章节简要介绍文本纠错相关知识。 1. 文本纠错示例与难点 2. 文本纠错常用技术 3. 如何将 BERT 应用于文本纠错 4. 文本纠错最优模型:Soft-Masked BERT(2020-ACL) 5. 立马上手的纠错工具推荐 一.文本纠错示例与难点 生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。 2018年之后,预训练语言模型开始流行,研究人员很快把BERT类的模型迁移到了文本纠错中,并取得了新的最优效果。 三、将BERT应用于文本纠错 ? Spelling Error Correction with Soft-Masked BERT: https://arxiv.org/pdf/2005.07421.pdf 3. pycorrector:

    2.6K50发布于 2020-06-05
  • 来自专栏机器学习AI算法工程

    文本纠错与BERT的最新结合,Soft-Masked BERT

    eg:是根据probability 这个词被切分成”pro”、”#babi”和”#lity”3 个 WordPiece。 本文将通过以下几个章节简要介绍文本纠错相关知识。 ? 2018年之后,预训练语言模型开始流行,研究人员很快把BERT类的模型迁移到了文本纠错中,并取得了新的最优效果。 三、将BERT应用于文本纠错 ? 五、立马上手的纠错工具推荐 笔者简单调研发现,文本纠错网上已经有不少的开源工具包供大家使用了。 结合具体领域的微调和少量规则修正,应该可以满足大部分场景中的文本纠错需求了。 ? Demo中笔者使用了经人民日报语料微调过的BERT模型,通过pycorrect加载来做基于MLM的文本纠错

    2K31发布于 2020-07-14
  • 来自专栏API 分享

    智能文本纠错API的应用与工作原理解析

    智能文本纠错API的应用领域智能文本纠错API在各个领域都有广泛的应用。 智能文本纠错API可以帮助用户发布更具吸引力和可读性的内容。在线写作平台:在线写作平台可以集成智能文本纠错API,为用户提供实时的纠错建议,有助于提高写作质量和效率。 智能文本纠错API可以协助研究人员提高论文质量。智能文本纠错API的工作原理智能文本纠错API的工作原理依赖于大规模的语料库和机器学习算法,这些算法能够识别文本中的模式和错误,并提供准确的修复建议。 智能文本纠错API的工作原理涉及以下步骤:快速接入智能文本纠错 API 1.申请接口登录 APISpace 进入 【智能文本纠错】详情页,申请接口。 "data": data, "crossDomain": true}) .done(function(response){}) .fail(function(jqXHR){})3.

    65830编辑于 2023-09-15
  • 来自专栏HyperAI超神经

    错字修改 | 布署1个中文文文本拼蟹纠错模型

    By 超神经 内容一览:中文文本错误的种类之一为拼写错误,本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。 关键词:BART 中文拼写纠错 NLP 中文文本错误3大障碍:拼写、语法、语义 中文文本纠错是当前自然语言处理领域的一个重要分支,旨在针对中文文本错误等进行检测与纠正。 3. 语义错误: 由于对某些知识不了解,或语言组织能力欠缺导致的知识及逻辑错误,如「一年有 3 个季度--一年有 4 个季度」。 本文中,我们将以最常见的拼写错误为例,演示如何借助 BART 模型,进行中文文本纠错模型部署。 部署完成后输入 JSON 数据进行在线测试 更多模型部署相关信息可参考: https://openbayes.com/docs/serving/ 至此,一个支持在线测试的中文文本纠错模型就训练+部署完成啦

    1.2K20编辑于 2022-11-29
  • 来自专栏烟草的香味

    纠错码简介

    这个时候, 纠错码出现了. 简单介绍一下, 其中所有有关数学的内容的去掉了, 毕竟太高深, 咱也不懂. 思考 因为计算机传输中只存在0和1, 所以可以简单将其类比为数字. 但是, 如果只是通信间传输几k的数据还好, 如果下载一个1G的电影, 为了纠错, 需要你耗费10G的流量下载10遍, 你能接受么? 方案二 方案一被pass了. 既然多次传输不行, 又该如何是好呢? 至此, 其实纠错的任务已经接近完成了. 通过数据的冗余, 已经可以将出错的概率降低到很小了. 方案三 能否使用更少的数据来进行纠错呢? 下面介绍的就是了, 一种称为校验和的手段. 计算第三列校验和: 3+5+3+3=14, 个位为4. 将5-2, 得到预测的原始数字3. 然后在计算第二行的校验和是否为0. 完成纠错. 最后将纠正后的正确的数字从中取出来. 这种纠错方式被称为: 二维奇偶校验码. ---- 计算机硬盘, 网络通信等都有着纠错码的身影, 它保证了数据的传输可靠. 在TCP的每个包中都存在校验和内容, 若校验出错, 则包会被直接丢弃.

    1.1K30发布于 2020-05-14
  • 来自专栏龙首琴剑庐

    ECC(指令纠错) 内存

    什么是ECC内存 对于大多数企业来说,消除数据损坏是一项关键任务——这正是 ECC(纠错码)内存的目的。 ECC 是一种指令纠错技术,能够检测并纠正常见的各种内存数据损坏情况,即Error Checking and Correcting。 是什么导致错误? 内存错误是电脑内部的电磁干扰造成的。 在将数据写入到内存时,ECC 内存使用附加位来存储加密代码,同时存储纠错码(Error Correcting Code)。 读取数据时,会将存储的纠错码与读取数据时生成的纠错码进行比较。

    5.8K10发布于 2019-12-16
  • 来自专栏生信喵实验柴

    组装结果纠错

    常用纠错工具:medaka,pilon,racon,nanopolish,nextpolish 等,可以利用三代测序进行纠错,也可以加入二代数据进行纠错。 数据结果为纠错后的 contig 序列。一般 racon 纠错也可以进行多轮,一般3纠错。 mkdir racon #连接原始拼接结果 DRAFT=.. minimap2 -t 4 racon_round2.fasta ${READ} > round_3.paf racon -t 4 ${READ} round_3.paf racon_round2 .fasta> racon_round3.fasta #将最终结果修改为样品名 mv racon_round3.fasta MGH78578.fasta 五、如何对一个物种做全基因组鉴定或者对植物做全基因组测序 第一步背景调研:查资料该物种是否测过序,若测过,技术上有无突破; 第二步基因组大小:查资料、近源参考序列等;(2G) 第三步测序方案:至少要测(2x30倍=60G或者200倍=400G);3代测序

    2.8K20编辑于 2022-10-25
  • 来自专栏NLP/KG

    一键式文本纠错工具,整合了BERT、ERNIE等多种模型,让您立即享受纠错的便利和效果

    pycorrector一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果 pycorrector: 中文文本纠错工具。 支持中文音似、形似、语法错误纠正,python3开发。 模型用于中文文本纠错,效果一般 思考 规则的方法,在词粒度的错误召回还不错,但错误纠正的准确率还有待提高,更多优质的纠错集及纠错词库会有提升,我更希望算法模型上有更大的突破。 ;打印详细纠错信息;纠错结果以\t间隔 本项目的初衷之一是比对、共享各种文本纠错方法,抛砖引玉的作用,如果对大家在文本纠错任务上有一点小小的启发就是我莫大的荣幸了。 ,提升基于mask的纠错效果 新增基于electra模型的纠错逻辑,参数更小,预测更快 新增专用于纠错任务深度模型,使用bert/ernie预训练模型,加入文本音似、形似特征。

    7K42编辑于 2023-08-13
  • 来自专栏图像处理与模式识别研究所

    超神奇的AI搜索引擎Magi,自主阅读文本纠错

    1、点击[magi] 2、点击[问题/关键词/表达式] 3、按<Enter>键 4、点击[magi搜索] 5、点击[magi搜索]

    58920编辑于 2022-05-28
  • 来自专栏ShowMeAI研究中心

    文本语法纠错模型实战,搭建你的贴身语法修改小助手 ⛵

    图片本文详细介绍 GECToR 这一优秀的文本纠错模型,使用 Transformer 编码器的序列标注器,以保证文本数据的质量,进而提升NLP模型的效果。 情感分析(Sentiment Analysis),接收文本数据,判定文本是正面的、负面的还是中性的等。文本摘要(Text Summarization),接收文本输入并将它们总结为更精炼的文本语言输出。 图片Omelianchuk, et al., 2020 中提出的 GECToR 模型,是非常优秀的文本纠错模型。 语法纠错代码全实现整个语法纠错代码实现包含3个核心步骤板块:准备工作:此步骤包括工具库设定、下载预训练模型、环境配置。模型实践:实现并测试语法纠错模型。 我们使用公开可用的 GECToR 库来实现一个预训练的语法纠错模型,在一些错误的句子上对其进行测试,发现该模型的适用场景和局限性(需要提高的地方),最后我们构建了一个可视化界面把文本纠错产品化。

    1.7K102编辑于 2022-12-02
  • 来自专栏通用文字识别信息技术白皮书

    ​合合信息对于文本纠错:提升OCR任务准确率的方法理解

    合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。 在计算最优路径概率时,以t=3时刻,规整字符串为“a”为例,如图2所示。 图片 2.基于深度模型的文本纠错 针对文本纠错,除了在解码时引入Beam Search和LM先验知识来降低错字率外,还可以通过深度学习的方法,使用经过训练的纠错模型来识别和纠正文本中出现的错误。 后者则是针对解码后的文本进行纠错,经历了从基于Seq2Seq模型使用生成方式进行文本纠错,到使用预训练模型进行文本纠错的转变,纠错能力也有了很大的提升,显示了出巨大的发展潜力。 IEEE, 2016. 3 Scheidl H , Fiel S , Sablatnig R .

    1.2K40编辑于 2022-08-26
领券