首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Soul Joy Hub

    中文文本纠错模型

    中文文本纠错任务是一项NLP基础任务,其输入是一个可能含有语法错误的中文句子,输出是一个正确的中文句子。语法错误类型很多,有多字、少字、错别字等,目前最常见的错误类型是错别字。 1. SoftMaskedBert4CSC 论文 【ACL 2020】《Spelling Error Correction with Soft-Masked BERT》https://arxiv.org/abs MacBert4CSC MacBert 可以参阅 :https://blog.csdn.net/u011239443/article/details/121820752? /macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型,可支持 BERT 类模型为 backbone。 spm=1001.2014.3001.5502 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型

    1.9K40编辑于 2022-05-10
  • 来自专栏自然语言处理

    中文文本纠错任务简介

    任务简介 中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作,中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等,例如: 写作辅助:在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况 pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 使用到了同义词词林 Autochecker4Chinese https://github.com/beyondacm/Autochecker4Chinese 方法: 构造一个词典来检测中文短语的拼写错误 ,检查其中是否存在保留短语,如果不存在,那么它是拼写错误的短语 参考资料 中文纠错(Chinese Spelling Correct)最新技术方案总结 中文文本纠错算法--错别字纠正的二三事 中文文本纠错算法走到多远了 中文输入纠错任务整理 nlp 中文文本纠错_百度中文纠错技术 中文拼写检测(Chinese Spelling Checking)相关方法、评测任务、榜单 中文(语音结果)的文本纠错综述 Chinese

    3.1K21编辑于 2022-10-28
  • 来自专栏机器学习AI算法工程

    中文文本纠错算法实现

    文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。 1.拼写错误 第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”, 2.少字多字 中文文本纠错比较难,不多说。 3.加载 数据库.txt 和 编辑距离.txt 4 输入一个错误单词(句子分词得到的单词,或者单独一个错误单词),计算编辑距离,生成编辑距离词集。 本文代码 获取: 关注微信公众号 datayx 然后回复 纠错 即可获取。 AI项目体验地址 https://loveai.tech 代码: 1导入包 和标点符号 ? 4. 计算错误单词与数据库.txt里的单词的编辑距离 ? 5.找到候选正确词集 。即编辑距离生成的词同时又在数据库.txt里的词 ? 6.计算拼音,得到一级数组,二级数组,三级数据。

    3.2K20发布于 2020-07-03
  • 来自专栏智能文本处理

    中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错

    但由于中文具有的文法和句法规则比较复杂,基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点,因此中文文本纠错任务还具有非常大的研究空间。 达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了冠军,赛道二中文语法纠错(Chinese Grammatical Error 这些错误类型具有差异性和多样性,利用单个模型难以覆盖所有的错误类型;因此,比赛中采用串行的多阶段中文语法纠错方法来解决中文文本中存在的各种错误。 达观智能校对系统的如图4所示,其核心模块主要是文档解析和智能纠错。其中智能纠错模块基于预训练模型、序列标注、语言模型和知识蒸馏等技术不断提升中文文本纠错的精度和速度。 图4  达观智能校对系统总结展望对比本次比赛和实际纠错工作中的技术落地点可知中文语法纠错的相关研究距离工程落地还有一定的差距。

    1.5K12编辑于 2022-12-22
  • 来自专栏自然语言处理

    中文文本纠错工具推荐:pycorrector

    pycorrector https://github.com/shibing624/pycorrector 中文文本纠错工具。 本项目重点解决其中的谐音、混淆音、形似字错误、中文拼音全拼、语法错误带来的纠错任务。 Solution 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误 出品的fairseq,北京语言大学团队改进ConvS2S模型用于中文纠错,在NLPCC-2018的中文语法纠错比赛中,是唯一使用单模型并取得第三名的成绩 transformer模型:全attention Todo 优化形似字字典,提高形似字纠错准确率 整理中文纠错训练数据,使用seq2seq做深度中文纠错模型 添加中文语法错误检测及纠正能力 规则方法添加用户自定义纠错集,并将其纠错优先度调为最高

    3.5K20编辑于 2023-08-25
  • 来自专栏深度学习自然语言处理

    CCL2022 中文语法纠错评测

    近年来,中文语法纠错任务越来越受到关注,也出现了一些有潜在商业价值的应用。 同时,由于中文语法纠错任务相对复杂、各评测任务以及各数据集之间存在差异,在一定程度上限制了语法纠错的发展。 如表4所示,该方法通过预测每一个语法纠错结果的质量评估分数(QE Score)来对语法纠错的结果进行质量评估,以期望对冗余修改、错误修改以及欠修改情况进行评估。 数据来源为汉语学习者文本多维标注数据集YACLC[9]和中文语法纠错数据集MuCGEC[10]。YACLC[9]是一个大规模、高质量、篇章级别、多维度、多参考的中文语法纠错数据集。 3)  赛道四要求语法纠错结果重排序过程中只能对所提供的语法纠错候选进行重排序,不得混合其他语法纠错模型所提供的语法纠错结果。 4)  不允许将开发集加入到训练数据中。

    4K20编辑于 2022-05-18
  • 来自专栏素质云笔记

    中文文本纠错算法走到多远了?

    -高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 目前来看,纠错算法分为两个方向:基于规则、深度模型 规则的解决思路 中文纠错分为两步走,第一步是错误检测 主要使用了4种深度模型应用于文本纠错任务,分别是前面模型小节介绍的rnn_attention、rnn_crf、seq2seq、seq2seq_attention,每种方法单独放在文件夹中, 都可以独立运行 京东:简易的中文纠错和消歧 https://github.com/taozhijiang/chinese_correct_wsd 京东客服机器人语料做的中文纠错–更接近我们的应用场景,主要解决同音自动纠错问题 Autochecker & autocorrecter for chinese https://github.com/beyondacm/Autochecker4Chinese 单词、短句效果:5/13 ---- 参考文献: 基于语义关联的中文查询纠错框架 https://cloud.tencent.com/developer/article/1030059 中文文本纠错算法–错别字纠正的二三事 https

    7.3K31发布于 2019-05-26
  • 来自专栏腾讯技术工程官方号的专栏

    基于语义关联的中文查询纠错框架

    和英文纠错相比,中文纠错面临的问题更为严峻. 首先,中文term之间没有分隔符,不能使用term本身进行错误识别,必须依赖于上下文。 其次,中文的输入法类型较多,除了拼音还有五笔等字形输入法,再加上无线设备屏幕和键盘都很小,手写设备和语音输入都很频繁,使得错误类型更多。 数据集合我们选取一个垂直app——QQ music来验证我们的算法,qq music是腾讯公司推出的中文最大的网络音乐平台,每天约6000w左右的搜索量。 抓取baidu网页搜索的纠错结果,主要是为了对比垂直纠错框架和网页搜索纠错效果进行对比,而baidu是中文网页搜索中最权威的。 ACM Computing Surveys,24(4):377-439.Kernighan, M. D., Church, K. W., and Gale, W. A.1990.

    5K102发布于 2018-01-26
  • 来自专栏智能文本处理

    全国中文纠错大赛达观冠军方案分享:多模型结合的等长拼写纠错

    达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了全国冠军,赛道二中文语法纠错(Chinese Grammatical Error 本文基于赛道一中文拼写检查任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道二中文语法纠错的获奖方案已经分享在达观数据官方公众号中。 图3 拼写纠错方案流程图拼音编码基础模型 图4 拼音编码模型结构不同于常规的BERT模型,这次工作中,我们加强了模型对属于文本拼音的识别,这样可以针对性地面对近音字问题。 如图4所示,除了常规的Embedding Layer,也就是字符的编码外,我们还加入了拼音输入。 P(W4|W1W2W3)表示前面三个词是W1W2W3的情况下第四个词是W4的概率。

    2.9K41编辑于 2022-12-22
  • 来自专栏深度学习自然语言处理

    【论文解读】基于Transformer增强架构的中文语法纠错

    论文介绍 论文名称:基于Transformer增强架构的中文语法纠错 论文作者:王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘 发表于:第十八届中国计算语言学大会(CCL 2019) -ONE- 简介 语法纠错 由于中文语法纠错的训练语料过少,无法充分训练序列生成模型,我们提出了一种腐化语料的单语数据增强方法,能够有效的扩大训练集的规模,并进一步提升模型的纠错效果。 -THREE- 基于腐化语料的单语数据增强方法 互联网中存在着大量的中文单语数据,即完全正确的中文语句。在这些容易获取且完全正确的单语语料中,合理地添加错误,即可得到大量的语法纠错并行语料。 同时,我们与NLPCC2018中文语法纠错共享任务的前三名团队进行了结果的比较。'4 ens.'表示 4 个模型集成的结果,'LM'表示利用了额外的语言模型。 通过实验进一步验证了我们提出的模型增强与数据增强方法的有效性,在NLPCC 2018中文语法纠错共享评测任务上达到了最优的性能。

    2.2K30发布于 2020-04-17
  • 来自专栏大鹅专栏:大数据到机器学习

    NLP任务之中文拼写 语法纠错 介绍与综述

    中文文本纠错任务包括两部分,一方面是检测任务,一方面是纠正任务,必须同时正确检测到错误的位置并且完成纠正才能算完整的纠错。 困惑集:在SIGHAN7 Bake-off 2013中文拼写检查任务中,组织者提供了六种混淆集:4组语音相似的字符(音近字)和2组视觉上相似的字符(形近字)2、 语言模型使用LM预测下一个字(或上一个字 2.2 端到端构建中文纠错系统的第二种方法是构建端到端的系统。 图片2.3.7 SpellGCNhttps://www.jianshu.com/p/7256a37dc4a9图片除此之外,关于中文纠错任务,还有一些需要注意的点。     b) 中文纠错方法基本都是以字为基本单位,很大程度是因为以词为单位的话会引入分词模块的错误,但是可以用分词的结构来作为字的特征增强。    c) 目前中文纠错任务有两种类型的错误还没有很好的解决。

    5K144编辑于 2022-07-20
  • 来自专栏字根中文校对软件

    在线中文文字纠错错别字检测云服务

    在线中文文字纠错错别字检测云服务 JCJC人工智能错别字检测系统( cuobiezi.net )上线已经15个月了。 2018年,我们几位小伙伴准备推出:在线中文文字纠错云服务 , 主打功能是: 错别字检测 。 希望在2018年里,能不负所托,用更低的价格,服务更广大的用户。 2018年,我们会努力做的更好!

    9.4K30发布于 2019-02-14
  • 来自专栏HyperAI超神经

    错字修改 | 布署1个中文文文本拼蟹纠错模型

    By 超神经 内容一览:中文文本错误的种类之一为拼写错误,本篇文章为利用 BART 预训练方法实现中文文本纠错功能的模型部署教程。 关键词:BART 中文拼写纠错 NLP 中文文本错误3大障碍:拼写、语法、语义 中文文本纠错是当前自然语言处理领域的一个重要分支,旨在针对中文文本错误等进行检测与纠正。 中文拼写纠错示例 该任务通常不涉及添/删字词,只涉及替换 输出的句子一般是等长的 2. 语义错误: 由于对某些知识不了解,或语言组织能力欠缺导致的知识及逻辑错误,如「一年有 3 个季度--一年有 4 个季度」。 本文中,我们将以最常见的拼写错误为例,演示如何借助 BART 模型,进行中文文本纠错模型部署。

    1.2K20编辑于 2022-11-29
  • 来自专栏龙首琴剑庐

    ECC(指令纠错) 内存

    什么是ECC内存 对于大多数企业来说,消除数据损坏是一项关键任务——这正是 ECC(纠错码)内存的目的。 ECC 是一种指令纠错技术,能够检测并纠正常见的各种内存数据损坏情况,即Error Checking and Correcting。 是什么导致错误? 内存错误是电脑内部的电磁干扰造成的。 在将数据写入到内存时,ECC 内存使用附加位来存储加密代码,同时存储纠错码(Error Correcting Code)。 读取数据时,会将存储的纠错码与读取数据时生成的纠错码进行比较。

    5.8K10发布于 2019-12-16
  • 来自专栏烟草的香味

    纠错码简介

    将每一个4位都转换为7位. 这种方案存在匹配后的值是一个较接近的错误的值么? 据说不会, 涉及到数学领域, 没太懂. 至此, 其实纠错的任务已经接近完成了. 即: 4+5+6+7=22, 校验数字为 2. 当接到45672 这个数字时, 只需要进行简单的计算, 就可以知道数据是否正确. 其中任何一个数字出错, 结果都不会是2. 假设我们发送的数字是: 12341234123412134 将其每4位分开, 并分别计算其行和列的校验和. 计算第三列校验和: 3+5+3+3=14, 个位为4. 将5-2, 得到预测的原始数字3. 然后在计算第二行的校验和是否为0. 完成纠错. 最后将纠正后的正确的数字从中取出来. 这种纠错方式被称为: 二维奇偶校验码. ---- 计算机硬盘, 网络通信等都有着纠错码的身影, 它保证了数据的传输可靠. 在TCP的每个包中都存在校验和内容, 若校验出错, 则包会被直接丢弃.

    1.1K30发布于 2020-05-14
  • 来自专栏生信喵实验柴

    组装结果纠错

    -R '@RG\tID:foo\tSM:bar:\tPL:ILLUMINA' medaka.fasta $READ1 $READ2 >illumina.sam samtools sort -@ 4 -O pilon.fasta READ=/ifs1/TestDatas/nanopore7/data/MGH78578/clean.filtlong.fq.gz #minimap2比对 minimap2 -t 4 ${DRAFT} ${READ} > round_1.paf #racon进行纠错 racon -t 4 ${READ} round_1.paf ${DRAFT} > racon_round1.fasta #第二轮纠错 minimap2 -t 4 racon_round1.fasta ${READ} > round_2.paf racon -t 4 ${READ} round_2.paf racon_round1 .fasta> racon_round2.fasta #第三轮纠错 minimap2 -t 4 racon_round2.fasta ${READ} > round_3.paf racon -t 4

    2.8K20编辑于 2022-10-25
  • 来自专栏Soul Joy Hub

    ASR文本纠错模型

    文本纠错任务是一项NLP基础任务,其输入是一个可能含有错误字词的句子,输出是一个正确的中文句子。ASR(语音识别)文本的错误类型很多,有多字、少字、错别字、同音近音字等等。 1. /macbert/README.md 本项目是 MacBERT 改变网络结构的中文文本纠错模型,可支持 BERT 类模型为 backbone。 spm=1001.2014.3001.5502 上述模型考虑到了文本错字进行纠错,但在中文ASR的场景下,很多情况是由于中文拼音读音相同或相近导致的识别错误。 ErnieCSC PaddleNLP模型库实现了百度在ACL 2021上提出结合拼音特征的Softmask策略的中文错别字纠错的下游任务网络,并提供预训练模型,模型结构如下: PyTorch实现版本 :https://github.com/orangetwo/ernie-csc 4.

    3.3K20编辑于 2022-11-30
  • 来自专栏API百科

    基于机器学习的纠错系统技术 - 智能文本纠错 API

    引言在过去的几十年里,文本纠错技术已经取得了巨大的进展,从最初的基于规则的纠错系统到现在的基于机器学习的纠错系统,技术的发展已经帮助人们解决了大量的文本纠错问题,随着机器学习技术的发展,文本纠错技术也发生了重大变化 基于机器学习的文本纠错系统通常分为两个主要部分:语言模型和纠错算法。 string 推荐词 1: int 推荐程度 1: 表⽰“低概率错误,⼀般推荐” 2: 表⽰“⾼概率错误,强烈推荐” 3: 系统默认敏感词 4: ”: 默认分类 (没有对应分类) “1-“: 表⽰同⾳错误,建议替换 “2-“: 常⻅谐⾳错误,建议替换 “3-“: 遗漏字词错误,建议补充 “4- “8-x”: 敏感词错误,建议删减 8-1: 未分类(默认分类) 8-2: ⻩赌毒 8-3: 司法、政治 8-4:

    1.5K30编辑于 2023-04-28
  • 来自专栏MatheMagician

    纠错码与魔术(三)——汉明纠错码魔术初步

    本系列前面两篇已经介绍了纠错码的基本原理和在魔术中的应用和一些魔术例子,相关内容请戳: 纠错码与魔术(二)——魔术《矩阵感应》等 纠错码与魔术(一)——纠错码与汉明码简介 在mathematical card magic书中,还有很多基于纠错编码中重要的一类——hamming编码的设计精良的效果,在此和大家分享。 于是当发生转换以后,5vs0的变成4vs1不影响;4vs1的变成5vs0仍然可以判别一个长为4单调序列中插入一张的情况,变成3vs2则二者不一致取长的保持;3vs2的如果变成4vs1则是长为3的单调序列插入一张 ,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。 扫描二维码 关注更多精彩 纠错码与魔术(二)——魔术《矩阵感应》等 破解魔术的秘密(四)——前移原理介绍和案例分享 你真的分得清“前后左右”和“东西南北”吗?

    79820编辑于 2023-01-30
  • 来自专栏女程序员的日常

    ECC检验与纠错

    上图是个4KB页的NAND闪存(SA区64字节) (1)每当一个page写入NAND闪存,数据会通过ECC引擎,创造独特的ECC签名。 (4)此时主控把2个签名对照,如果签名相同,说明数据没有错误,数据就会被送往主机。如果签名不同,数据就会先放在主控里,而不是直接送往主机。        

    4.1K10发布于 2017-12-25
领券