首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。 1. /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。 解码器除了利用编码器的输出之外,还会基于长度预测器的结果,调整输入文本的长度,使之和输出文本长度一致。将长度调整一致后,解码器可以并行地同时解码出所有单词。

    3.3K20编辑于 2022-11-30
  • 来自专栏Soul Joy Hub

    中文文本纠错模型

    中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。 1. 得到各个字符错误的概率G = (g1,g2,…,gn),其中g在0-1之间,越靠近1表示该字符错误的概率越大,其损失函数为: soft-masked 作者认为只hard-mask了15%字符的Bert不完全具备纠错的能力 /github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型

    1.9K40编辑于 2022-05-10
  • 来自专栏API百科

    基于机器学习的纠错系统技术 - 智能文本纠错 API

    引言在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化 本文将介绍一款新的基于机器学习的纠错技术,并详细列出实际的可应用场景。工作原理今天介绍的智能文本纠错 API 是基于机器学习的纠错系统通过分析大量的文本数据来学习语言模型,从而识别和纠正文本中的错误。 基于机器学习的文本纠错系统通常分为两个主要部分:语言模型和纠错算法。 纠错能力智能文本纠错技术是针对字词错误、标点、地名、专有名词、敏感信息、意识形态等进行智能校对,具体的纠错能力如下:图片应用场景当前的基于机器学习的智能文本纠错 API 已经非常成熟,并且广泛应用于各种领域 ,例如写作工具、手机输入法和翻译软件等,下面是一些常见的应用场景:图片快速接入智能文本纠错 API1.注册并获取智能文本纠错 API 密钥进入 【智能文本纠错】详情页,点击【免费试用】,即可唤起注册按钮

    1.5K30编辑于 2023-04-28
  • 来自专栏自然语言处理

    中文文本纠错任务简介

    任务简介 中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作,中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等,例如: 写作辅助:在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况 语音识别对话纠错文本纠错嵌入对话系统中,可自动修正语音识别转文本过程中的错别字,向对话理解系统传递纠错后的正确query,能明显提高语音识别准确率,使产品整体体验更佳 图片来源 但考虑到端到端任务,我们评价完整的纠错过程: 应该纠错的,即有错文本记为 P,不该纠错的,即无错文本记为 N 对于该纠错的,纠错对了,记为 TP,纠错了或未纠,记为 FP 对于不该纠错的,未纠错,记为 (Chinese Spelling Correct)最新技术方案总结 中文文本纠错算法--错别字纠正的二三事 中文文本纠错算法走到多远了? 中文输入纠错任务整理 nlp 中文文本纠错_百度中文纠错技术 中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单 中文(语音结果)的文本纠错综述 Chinese

    3.1K21编辑于 2022-10-28
  • 来自专栏机器学习AI算法工程

    中文文本纠错算法实现

    文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。 1.拼写错误 第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”, 2.少字多字 中文文本纠错比较难,不多说。 最后生成编辑距离词集 5 生成的编辑距离词集 肯定含有一些错误单词,找出同时在编辑距离词集和数据库.txt 的单词 ,即为我们候选正确词集 6. 对候选正确词进行分级。 本文代码 获取: 关注微信公众号 datayx 然后回复 纠错 即可获取。 AI项目体验地址 https://loveai.tech 代码: 1导入包 和标点符号 ? 6.计算拼音,得到一级数组,二级数组,三级数据。对候选正确词进行分级 ? 7.找到正确单词 ? 8.测试 对一个句子进行分词 ,然后每个单词 拿去寻找正确单词 ,最后将这些词拼接为正确句子 ?

    3.2K20发布于 2020-07-03
  • 来自专栏自然语言处理

    中文文本纠错工具推荐:pycorrector

    pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 PS:网友源码解读 深度模型的解决思路 端到端的深度模型可以避免人工提取特征,减少人工工作量,RNN序列模型对文本任务拟合能力强,rnn_attention在英文文本纠错比赛中取得第一名成绩,证明应用效果不错 2014英文文本纠错比赛并取得第一名的方法 Seq2Seq模型:在Seq2Seq模型加上attention机制,对于长文本效果更好,模型更容易收敛,但容易过拟合 ConvSeq2Seq模型:基于Facebook ,抛砖引玉的作用,如果对大家在文本纠错任务上有一点小小的启发就是我莫大的荣幸了。 ,提升基于mask的纠错效果 新增基于electra模型的纠错逻辑,参数更小,预测更快 新增专用于纠错任务深度模型,使用bert/ernie预训练模型,加入文本音似、形似特征。

    3.5K20编辑于 2023-08-25
  • 来自专栏JadePeng的技术博客

    从编辑距离、BK树到文本纠错

    搜索引擎里有一个很重要的话题,就是文本纠错,主要有两种做法,一是从词典纠错,一是分析用户搜索日志,今天我们探讨使用基于词典的方式纠错,核心思想就是基于编辑距离,使用BK树。 Collections.sort(searchResults); return Collections.unmodifiableList(searchResults); } 使用BK树做文本纠错

    2.5K60发布于 2018-03-12
  • 来自专栏素质云笔记

    中文文本纠错算法走到多远了?

    深度模型的解决思路 端到端的深度模型可以避免人工提取特征,减少人工工作量,RNN序列模型对文本任务拟合能力强,rnn_attention在英文文本纠错比赛中取得第一名成绩,证明应用效果不错; CRF会计算全局最优输出节点的条件概率 基于知识图谱的纠错,基于关联 知识计算 - 文本理解 ? 文献研究传统文本纠错包含两种类型: 一种是“单词”错误的纠错类型 另外一种是“词条搭配”的错误类型 早期的纠错一般是第一种,使用编辑距离进行相近查找; 第二种错误类型,通过探测query中词条的上下文搭配来判定是否存在错误 / 本项目的初衷之一是比对、共享各种文本纠错方法,抛砖引玉的作用,如果对大家在文件纠错任务上有一点小小的启发就是我莫大的荣幸了。 ---- 参考文献: 基于语义关联的中文查询纠错框架 https://cloud.tencent.com/developer/article/1030059 中文文本纠错算法–错别字纠正的二三事 https

    7.3K31发布于 2019-05-26
  • 来自专栏世玉的专栏

    文本纠错、图片变小、生成二维码

    文本纠错这个东西需要海量数据支持,所以对接了百度这个大平台的文本纠错API。这样一方面保证了数据会一直更新下去,另一方面提高了正确率。对于网文编辑人员来说是非常好的一个东西。

    89110发布于 2020-01-16
  • 来自专栏朴素人工智能

    Soft-Masked BERT:文本纠错与BERT的最新结合

    本文将通过以下几个章节简要介绍文本纠错相关知识。 1. 文本纠错示例与难点 2. 文本纠错常用技术 3. 如何将 BERT 应用于文本纠错 4. 文本纠错最优模型:Soft-Masked BERT(2020-ACL) 5. 立马上手的纠错工具推荐 一.文本纠错示例与难点 生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。 2018年之后,预训练语言模型开始流行,研究人员很快把BERT类的模型迁移到了文本纠错中,并取得了新的最优效果。 三、将BERT应用于文本纠错 ? 结合具体领域的微调和少量规则修正,应该可以满足大部分场景中的文本纠错需求了。 ? 使用测试 Demo中笔者使用了经人民日报语料微调过的BERT模型,通过pycorrect加载来做基于MLM的文本纠错

    2.6K50发布于 2020-06-05
  • 来自专栏机器学习AI算法工程

    文本纠错与BERT的最新结合,Soft-Masked BERT

    http://blog.csdn.net/jccg3030/article/details/54909290 6.NLP自然语言处理相关技术说明及样例(附源码) https://segmentfault.com 本文将通过以下几个章节简要介绍文本纠错相关知识。 ? 2018年之后,预训练语言模型开始流行,研究人员很快把BERT类的模型迁移到了文本纠错中,并取得了新的最优效果。 三、将BERT应用于文本纠错 ? 五、立马上手的纠错工具推荐 笔者简单调研发现,文本纠错网上已经有不少的开源工具包供大家使用了。 结合具体领域的微调和少量规则修正,应该可以满足大部分场景中的文本纠错需求了。 ? Demo中笔者使用了经人民日报语料微调过的BERT模型,通过pycorrect加载来做基于MLM的文本纠错

    2K31发布于 2020-07-14
  • 来自专栏API 分享

    智能文本纠错API的应用与工作原理解析

    然而,文字错误、标点符号错误、语法问题和不当的表达常常会削弱文本的质量,降低信息传达的效果。为了解决这个问题,智能文本纠错API 应运而生,它们是一类基于人工智能的工具,旨在提高文本的准确性和清晰度。 智能文本纠错API的应用领域智能文本纠错API在各个领域都有广泛的应用。 智能文本纠错API可以帮助用户发布更具吸引力和可读性的内容。在线写作平台:在线写作平台可以集成智能文本纠错API,为用户提供实时的纠错建议,有助于提高写作质量和效率。 智能文本纠错API可以协助研究人员提高论文质量。智能文本纠错API的工作原理智能文本纠错API的工作原理依赖于大规模的语料库和机器学习算法,这些算法能够识别文本中的模式和错误,并提供准确的修复建议。 智能文本纠错API的工作原理涉及以下步骤:快速接入智能文本纠错 API 1.申请接口登录 APISpace 进入 【智能文本纠错】详情页,申请接口。

    65830编辑于 2023-09-15
  • 来自专栏HyperAI超神经

    错字修改 | 布署1个中文文文本拼蟹纠错模型

    By 超神经 内容一览:中文文本错误的种类之一为拼写错误,本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。 关键词:BART 中文拼写纠错 NLP 中文文本错误3大障碍:拼写、语法、语义 中文文本纠错是当前自然语言处理领域的一个重要分支,旨在针对中文文本错误等进行检测与纠正。 本文中,我们将以最常见的拼写错误为例,演示如何借助 BART 模型,进行中文文本纠错模型部署。 更多信息可访问: https://modelscope.cn/models/damo/nlp_bart_text-error-correction_chinese/summary 教程详解:创建一个在线文本纠错 部署完成后输入 JSON 数据进行在线测试 更多模型部署相关信息可参考: https://openbayes.com/docs/serving/ 至此,一个支持在线测试的中文文本纠错模型就训练+部署完成啦

    1.2K20编辑于 2022-11-29
  • 来自专栏烟草的香味

    纠错码简介

    这个时候, 纠错码出现了. 简单介绍一下, 其中所有有关数学的内容的去掉了, 毕竟太高深, 咱也不懂. 思考 因为计算机传输中只存在0和1, 所以可以简单将其类比为数字. 至此, 其实纠错的任务已经接近完成了. 通过数据的冗余, 已经可以将出错的概率降低到很小了. 方案三 能否使用更少的数据来进行纠错呢? 下面介绍的就是了, 一种称为校验和的手段. 即: 4+5+6+7=22, 校验数字为 2. 当接到45672 这个数字时, 只需要进行简单的计算, 就可以知道数据是否正确. 其中任何一个数字出错, 结果都不会是2. 完成纠错. 最后将纠正后的正确的数字从中取出来. 得到原始的数据: 1234123412341234. 这种纠错方式被称为: 二维奇偶校验码. ---- 计算机硬盘, 网络通信等都有着纠错码的身影, 它保证了数据的传输可靠. 在TCP的每个包中都存在校验和内容, 若校验出错, 则包会被直接丢弃.

    1.1K30发布于 2020-05-14
  • 来自专栏龙首琴剑庐

    ECC(指令纠错) 内存

    什么是ECC内存 对于大多数企业来说,消除数据损坏是一项关键任务——这正是 ECC(纠错码)内存的目的。 ECC 是一种指令纠错技术,能够检测并纠正常见的各种内存数据损坏情况,即Error Checking and Correcting。 是什么导致错误? 内存错误是电脑内部的电磁干扰造成的。 在将数据写入到内存时,ECC 内存使用附加位来存储加密代码,同时存储纠错码(Error Correcting Code)。 读取数据时,会将存储的纠错码与读取数据时生成的纠错码进行比较。

    5.8K10发布于 2019-12-16
  • 来自专栏生信喵实验柴

    组装结果纠错

    常用纠错工具:medaka,pilon,racon,nanopolish,nextpolish 等,可以利用三代测序进行纠错,也可以加入二代数据进行纠错。 三、 pilon 组装结果纠错 pilon 是由 broadinstitute 研究所开发的纠错工具,输入原始拼接结果以及原始测序数据比对到拼接结果的 bam 文件即可。 四、racon 组装结果纠错 Racon 是一个基于 minimap 和 miniasm 的,构建一致性序列(consensus)的一款软件,也可以用于纠错。 既可以用于三代数据也可以用于二代数据的纠错。 数据结果为纠错后的 contig 序列。一般 racon 纠错也可以进行多轮,一般3轮纠错。 mkdir racon #连接原始拼接结果 DRAFT=..

    2.8K20编辑于 2022-10-25
  • 来自专栏NLP/KG

    一键式文本纠错工具,整合了BERT、ERNIE等多种模型,让您立即享受纠错的便利和效果

    pycorrector一键式文本纠错工具,整合了BERT、MacBERT、ELECTRA、ERNIE等多种模型,让您立即享受纠错的便利和效果 pycorrector: 中文文本纠错工具。 模型用于中文文本纠错,效果一般 思考 规则的方法,在词粒度的错误召回还不错,但错误纠正的准确率还有待提高,更多优质的纠错集及纠错词库会有提升,我更希望算法模型上有更大的突破。 ,已经在SIGHAN 2015取得接近SOTA的效果 基于ChatGLM-6B的纠错微调模型效果也不错,模型名称是shibing624/chatglm-6b-csc-zh-lora,huggingface 使用示例: 图片 kenlm安装 pip install kenlm 安装kenlm-wiki 其他库包安装 pip install -r requirements.txt 6.应用场景 6.1 文本纠错 ;打印详细纠错信息;纠错结果以\t间隔 本项目的初衷之一是比对、共享各种文本纠错方法,抛砖引玉的作用,如果对大家在文本纠错任务上有一点小小的启发就是我莫大的荣幸了。

    7K42编辑于 2023-08-13
  • 来自专栏图像处理与模式识别研究所

    超神奇的AI搜索引擎Magi,自主阅读文本纠错

    1、点击[magi] 2、点击[问题/关键词/表达式] 3、按<Enter>键 4、点击[magi搜索] 5、点击[magi搜索]

    58920编辑于 2022-05-28
  • 来自专栏ShowMeAI研究中心

    文本语法纠错模型实战,搭建你的贴身语法修改小助手 ⛵

    图片本文详细介绍 GECToR 这一优秀的文本纠错模型,使用 Transformer 编码器的序列标注器,以保证文本数据的质量,进而提升NLP模型的效果。 情感分析(Sentiment Analysis),接收文本数据,判定文本是正面的、负面的还是中性的等。文本摘要(Text Summarization),接收文本输入并将它们总结为更精炼的文本语言输出。 输入文本的质量会很大程度影响这些业务场景的模型效果。因此,在这些文本数据到达机器翻译、情感分析、文本摘要等下游任务之前,我们要尽量保证输入文本数据的语法正确性。 图片Omelianchuk, et al., 2020 中提出的 GECToR 模型,是非常优秀的文本纠错模型。 我们使用公开可用的 GECToR 库来实现一个预训练的语法纠错模型,在一些错误的句子上对其进行测试,发现该模型的适用场景和局限性(需要提高的地方),最后我们构建了一个可视化界面把文本纠错产品化。

    1.7K102编辑于 2022-12-02
  • 来自专栏Android知识点总结

    Flutter 文本解读 6 | RichText 富文本的使用 (中)

    今天我们继续完善这个富文本显示的功能,比如文本链接解析、文本标题、指定文字加粗、斜体 等。本文会用到一些正则表达式的知识,本系列重点不是正则,不会做过多解释。如果看不懂,可以自己去补补。 ? 以下是 Flutter 文本解读 系列的其他文章: 《Flutter 文本解读 1 | 从源码认识 Text 组件》 《Flutter 文本解读 2 | Text 是如何画出来的》 《Flutter 文本解读 3 | Text 组件使用介绍 》 《Flutter 文本解读 4 | TextStyle 文字样式解读 》 《Flutter 文本解读 5 | RichText 富文本的使用 (上)》 ---- 一 、文本链接的处理 1.链接匹配的正则 通过 \[.*? 本文就到这里,下一篇来看一下,在 Flutter 中如何实现一个代码高亮显示的富文本

    3.6K30发布于 2021-01-26
领券