首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Soul Joy Hub

    中文文本纠错模型

    中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。 1. Spelling Error Correction with Soft-Masked BERT》https://arxiv.org/abs/2005.07421 Detection 首先,模型的输入是n个中文字符 得到各个字符错误的概率G = (g1,g2,…,gn),其中g在0-1之间,越靠近1表示该字符错误的概率越大,其损失函数为: soft-masked 作者认为只hard-mask了15%字符的Bert不完全具备纠错的能力 ://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型

    1.9K40编辑于 2022-05-10
  • 来自专栏自然语言处理

    中文文本纠错任务简介

    任务简介 中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作,中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等,例如: 写作辅助:在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况 主流技术 中文纠错的 paper 很多,整体来看,可以统一在一个框架下,即三大步: 错误识别 该阶段主要目的在于,判断文本是否存在错误需要纠正,如果存在则传递到后面两层。 pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 ,检查其中是否存在保留短语,如果不存在,那么它是拼写错误的短语 参考资料 中文纠错(Chinese Spelling Correct)最新技术方案总结 中文文本纠错算法--错别字纠正的二三事 中文文本纠错算法走到多远了 中文输入纠错任务整理 nlp 中文文本纠错_百度中文纠错技术 中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单 中文(语音结果)的文本纠错综述 Chinese

    3.1K21编辑于 2022-10-28
  • 来自专栏机器学习AI算法工程

    中文文本纠错算法实现

    文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。 1.拼写错误 第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”, 2.少字多字 中文文本纠错比较难,不多说。 本文代码 获取: 关注微信公众号 datayx 然后回复 纠错 即可获取。 AI项目体验地址 https://loveai.tech 代码: 1导入包 和标点符号 ?

    3.1K20发布于 2020-07-03
  • 来自专栏智能文本处理

    中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错

    但由于中文具有的文法和句法规则比较复杂,基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点,因此中文文本纠错任务还具有非常大的研究空间。 达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了冠军,赛道二中文语法纠错(Chinese Grammatical Error 本文基于赛道二中文语法纠错任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道一中文拼写检查的冠军方案会在后续的文章分享。 这些错误类型具有差异性和多样性,利用单个模型难以覆盖所有的错误类型;因此,比赛中采用串行的多阶段中文语法纠错方法来解决中文文本中存在的各种错误。 图4  达观智能校对系统总结展望对比本次比赛和实际纠错工作中的技术落地点可知中文语法纠错的相关研究距离工程落地还有一定的差距。

    1.5K12编辑于 2022-12-22
  • 来自专栏自然语言处理

    中文文本纠错工具推荐:pycorrector

    pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 本项目重点解决其中的谐音、混淆音、形似字错误、中文拼音全拼、语法错误带来的纠错任务。 Solution 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误 出品的fairseq,北京语言大学团队改进ConvS2S模型用于中文纠错,在NLPCC-2018的中文语法纠错比赛中,是唯一使用单模型并取得第三名的成绩 transformer模型:全attention Todo 优化形似字字典,提高形似字纠错准确率 整理中文纠错训练数据,使用seq2seq做深度中文纠错模型 添加中文语法错误检测及纠正能力 规则方法添加用户自定义纠错集,并将其纠错优先度调为最高

    3.4K20编辑于 2023-08-25
  • 来自专栏深度学习自然语言处理

    CCL2022 中文语法纠错评测

    ---- 中文语法纠错任务(Chinese Grammatical Error Correction,CGEC)旨在自动检测并修改中文文本中的标点、拼写、语法、语义等错误,从而获得符合原意的正确句子。 近年来,中文语法纠错任务越来越受到关注,也出现了一些有潜在商业价值的应用。 同时,由于中文语法纠错任务相对复杂、各评测任务以及各数据集之间存在差异,在一定程度上限制了语法纠错的发展。 我们依托第二十一届中国计算语言学大会(CCL 2022),组织中文语法纠错评测。 数据来源为汉语学习者文本多维标注数据集YACLC[9]和中文语法纠错数据集MuCGEC[10]。YACLC[9]是一个大规模、高质量、篇章级别、多维度、多参考的中文语法纠错数据集。

    3.9K20编辑于 2022-05-18
  • 来自专栏素质云笔记

    中文文本纠错算法走到多远了?

    -高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 目前来看,纠错算法分为两个方向:基于规则、深度模型 规则的解决思路 中文纠错分为两步走,第一步是错误检测 意图理解之后,槽位填满了,根据槽来填错的POI ---- 腾讯:基于语义关联的中文查询纠错框架 一个好的纠错系统能够将用户输入查询词进行纠错提示, 或者将正确结果直接展示给用户,提高了搜索引擎的智能化。 抓取baidu网页搜索的纠错结果,主要是为了对比垂直纠错框架和网页搜索纠错效果进行对比,而baidu是中文网页搜索中最权威的。 京东:简易的中文纠错和消歧 https://github.com/taozhijiang/chinese_correct_wsd 京东客服机器人语料做的中文纠错–更接近我们的应用场景,主要解决同音自动纠错问题 ---- 参考文献: 基于语义关联的中文查询纠错框架 https://cloud.tencent.com/developer/article/1030059 中文文本纠错算法–错别字纠正的二三事 https

    7.3K31发布于 2019-05-26
  • 来自专栏腾讯技术工程官方号的专栏

    基于语义关联的中文查询纠错框架

    搜索引擎中, 一个好的纠错系统能够将用户输入查询词进行纠错提示, 或者将正确结果直接展示给用户,提高了搜索引擎的智能化。和传统文本纠错相比, 搜索引擎的纠错具有几个难点. 和英文纠错相比,中文纠错面临的问题更为严峻. 首先,中文term之间没有分隔符,不能使用term本身进行错误识别,必须依赖于上下文。 其次,中文的输入法类型较多,除了拼音还有五笔等字形输入法,再加上无线设备屏幕和键盘都很小,手写设备和语音输入都很频繁,使得错误类型更多。 数据集合我们选取一个垂直app——QQ music来验证我们的算法,qq music是腾讯公司推出的中文最大的网络音乐平台,每天约6000w左右的搜索量。 抓取baidu网页搜索的纠错结果,主要是为了对比垂直纠错框架和网页搜索纠错效果进行对比,而baidu是中文网页搜索中最权威的。

    5K102发布于 2018-01-26
  • 来自专栏智能文本处理

    全国中文纠错大赛达观冠军方案分享:多模型结合的等长拼写纠错

    达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了全国冠军,赛道二中文语法纠错(Chinese Grammatical Error 本文基于赛道一中文拼写检查任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道二中文语法纠错的获奖方案已经分享在达观数据官方公众号中。 本次中文拼写检查的任务是检测并纠正中文文本中的拼写错误(Spelling Errors)。拼写任务包括:音近,形近,音形兼近。 多轮纠错系统 图5 多轮纠错方案模型结构在中文拼写检查领域,解决同一句话存在多个错误的问题一直是一项重要的挑战。其原因是存在错误的上下文会对预测产生影响。 总结 文本提出了一种针对于中文拼写检查任务的纠错系统,并对其主要包含的五个部分进行了详细描述。并给出了该系统所进行的实验。

    2.9K41编辑于 2022-12-22
  • 来自专栏深度学习自然语言处理

    【论文解读】基于Transformer增强架构的中文语法纠错

    论文介绍 论文名称:基于Transformer增强架构的中文语法纠错 论文作者:王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘 发表于:第十八届中国计算语言学大会(CCL 2019) -ONE- 简介 语法纠错 由于中文语法纠错的训练语料过少,无法充分训练序列生成模型,我们提出了一种腐化语料的单语数据增强方法,能够有效的扩大训练集的规模,并进一步提升模型的纠错效果。 -THREE- 基于腐化语料的单语数据增强方法 互联网中存在着大量的中文单语数据,即完全正确的中文语句。在这些容易获取且完全正确的单语语料中,合理地添加错误,即可得到大量的语法纠错并行语料。 同时,我们与NLPCC2018中文语法纠错共享任务的前三名团队进行了结果的比较。'4 ens.'表示 4 个模型集成的结果,'LM'表示利用了额外的语言模型。 通过实验进一步验证了我们提出的模型增强与数据增强方法的有效性,在NLPCC 2018中文语法纠错共享评测任务上达到了最优的性能。

    2.2K30发布于 2020-04-17
  • 来自专栏大鹅专栏:大数据到机器学习

    NLP任务之中文拼写 语法纠错 介绍与综述

    中文文本纠错任务包括两部分,一方面是检测任务,一方面是纠正任务,必须同时正确检测到错误的位置并且完成纠正才能算完整的纠错。 2.2 端到端构建中文纠错系统的第二种方法是构建端到端的系统。 这种设置也比较合理,中文的错别字多是在形状或者发音上有一定相似之处,通过混淆集可以进一步约束纠错的结果,防止纠错的不可控。但是由于生成的结果一定来源于混淆集,所以混淆集的质量也影响了最终纠错的效果。 因为汉语中常见的错误大部分在字形或者发音有一定相似之处,但是Bert生成的候选字并没有考虑到中文纠错的背景,所以Bert提供的候选结果很多都是纠错任务不相关的。 b) 中文纠错方法基本都是以字为基本单位,很大程度是因为以词为单位的话会引入分词模块的错误,但是可以用分词的结构来作为字的特征增强。    c) 目前中文纠错任务有两种类型的错误还没有很好的解决。

    5K144编辑于 2022-07-20
  • 来自专栏字根中文校对软件

    在线中文文字纠错错别字检测云服务

    在线中文文字纠错错别字检测云服务 JCJC人工智能错别字检测系统( cuobiezi.net )上线已经15个月了。 2018年,我们几位小伙伴准备推出:在线中文文字纠错云服务 , 主打功能是: 错别字检测 。 希望在2018年里,能不负所托,用更低的价格,服务更广大的用户。 2018年,我们会努力做的更好!

    9.4K30发布于 2019-02-14
  • 来自专栏HyperAI超神经

    错字修改 | 布署1个中文文文本拼蟹纠错模型

    By 超神经 内容一览:中文文本错误的种类之一为拼写错误,本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。 关键词:BART 中文拼写纠错 NLP 中文文本错误3大障碍:拼写、语法、语义 中文文本纠错是当前自然语言处理领域的一个重要分支,旨在针对中文文本错误等进行检测与纠正。 中文拼写纠错示例 该任务通常不涉及添/删字词,只涉及替换 输出的句子一般是等长的 2. 本文中,我们将以最常见的拼写错误为例,演示如何借助 BART 模型,进行中文文本纠错模型部署。 部署完成后输入 JSON 数据进行在线测试 更多模型部署相关信息可参考: https://openbayes.com/docs/serving/ 至此,一个支持在线测试的中文文本纠错模型就训练+部署完成啦

    1.2K20编辑于 2022-11-29
  • 来自专栏烟草的香味

    纠错码简介

    这个时候, 纠错码出现了. 简单介绍一下, 其中所有有关数学的内容的去掉了, 毕竟太高深, 咱也不懂. 思考 因为计算机传输中只存在0和1, 所以可以简单将其类比为数字. 但是, 如果只是通信间传输几k的数据还好, 如果下载一个1G的电影, 为了纠错, 需要你耗费10G的流量下载10遍, 你能接受么? 方案二 方案一被pass了. 既然多次传输不行, 又该如何是好呢? 至此, 其实纠错的任务已经接近完成了. 通过数据的冗余, 已经可以将出错的概率降低到很小了. 方案三 能否使用更少的数据来进行纠错呢? 下面介绍的就是了, 一种称为校验和的手段. 完成纠错. 最后将纠正后的正确的数字从中取出来. 得到原始的数据: 1234123412341234. 这种纠错方式被称为: 二维奇偶校验码. ---- 计算机硬盘, 网络通信等都有着纠错码的身影, 它保证了数据的传输可靠. 在TCP的每个包中都存在校验和内容, 若校验出错, 则包会被直接丢弃.

    1.1K30发布于 2020-05-14
  • 来自专栏龙首琴剑庐

    ECC(指令纠错) 内存

    什么是ECC内存 对于大多数企业来说,消除数据损坏是一项关键任务——这正是 ECC(纠错码)内存的目的。 ECC 是一种指令纠错技术,能够检测并纠正常见的各种内存数据损坏情况,即Error Checking and Correcting。 是什么导致错误? 内存错误是电脑内部的电磁干扰造成的。 在将数据写入到内存时,ECC 内存使用附加位来存储加密代码,同时存储纠错码(Error Correcting Code)。 读取数据时,会将存储的纠错码与读取数据时生成的纠错码进行比较。

    5.8K10发布于 2019-12-16
  • 来自专栏生信喵实验柴

    组装结果纠错

    常用纠错工具:medaka,pilon,racon,nanopolish,nextpolish 等,可以利用三代测序进行纠错,也可以加入二代数据进行纠错。 三、 pilon 组装结果纠错 pilon 是由 broadinstitute 研究所开发的纠错工具,输入原始拼接结果以及原始测序数据比对到拼接结果的 bam 文件即可。 四、racon 组装结果纠错 Racon 是一个基于 minimap 和 miniasm 的,构建一致性序列(consensus)的一款软件,也可以用于纠错。 既可以用于三代数据也可以用于二代数据的纠错。 数据结果为纠错后的 contig 序列。一般 racon 纠错也可以进行多轮,一般3轮纠错。 mkdir racon #连接原始拼接结果 DRAFT=..

    2.7K20编辑于 2022-10-25
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。 1. ://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型,模型结构如下: PyTorch实现版本 FastCorrect 上述模型都是在自编码模型上进行检错与纠错。也就是说,文本的输入输出序列长度是不变的,且输出纠错结果的token位置必须是与输入位置对齐的。

    3.3K20编辑于 2022-11-30
  • 来自专栏API百科

    基于机器学习的纠错系统技术 - 智能文本纠错 API

    引言在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化 本文将介绍一款新的基于机器学习的纠错技术,并详细列出实际的可应用场景。工作原理今天介绍的智能文本纠错 API 是基于机器学习的纠错系统通过分析大量的文本数据来学习语言模型,从而识别和纠正文本中的错误。 基于机器学习的文本纠错系统通常分为两个主要部分:语言模型和纠错算法。 纠错能力智能文本纠错技术是针对字词错误、标点、地名、专有名词、敏感信息、意识形态等进行智能校对,具体的纠错能力如下:图片应用场景当前的基于机器学习的智能文本纠错 API 已经非常成熟,并且广泛应用于各种领域 ,例如写作工具、手机输入法和翻译软件等,下面是一些常见的应用场景:图片快速接入智能文本纠错 API1.注册并获取智能文本纠错 API 密钥进入 【智能文本纠错】详情页,点击【免费试用】,即可唤起注册按钮

    1.5K30编辑于 2023-04-28
  • 来自专栏MatheMagician

    纠错码与魔术(三)——汉明纠错码魔术初步

    本系列前面两篇已经介绍了纠错码的基本原理和在魔术中的应用和一些魔术例子,相关内容请戳: 纠错码与魔术(二)——魔术《矩阵感应》等 纠错码与魔术(一)——纠错码与汉明码简介 在mathematical card magic书中,还有很多基于纠错编码中重要的一类——hamming编码的设计精良的效果,在此和大家分享。 也就是说,无论观众选出来的牌到底有几个表示1的红色,都存在一个排列,使得上面纠错编码的暗含等式成立,当数量是1,2,5时,那就让黑色代表1就好了,而告诉魔术师到底谁代表谁,这1bit的信息,岂不是易如反掌 我们会继续围绕汉明码的魔术应用给大家讲解,魔术内容先睹为快: 视频3 Multiple Persenality 视频4 A Small Ternary Linear Code 我们是谁: MatheMagician,中文 扫描二维码 关注更多精彩 纠错码与魔术(二)——魔术《矩阵感应》等 破解魔术的秘密(四)——前移原理介绍和案例分享 你真的分得清“前后左右”和“东西南北”吗?

    79520编辑于 2023-01-30
  • 来自专栏女程序员的日常

    ECC检验与纠错

    本文介绍了ECC检验与纠错技术,以及其在NAND闪存中的应用。ECC能够检测和纠正NAND闪存中的数据错误,从而提高数据存储的可靠性。ECC技术的工作原理包括生成ECC签名、检测数据错误和纠正数据错误等步骤。在NAND闪存中,ECC技术可以提高数据存储的可靠性,减少数据错误的发生。

    4.1K10发布于 2017-12-25
领券