首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习AI算法工程

    albert-chinese-ner使用预训练语言模型ALBERT做中文NER

    这次的albert某种程度上可能比bert本身更具有意义,恰逢中文预训练模型出来,还是按照之前的数据来做NER方面的fine-tune 项目相关代码获取: 关注微信公众号 datayx 然后回复 albert-chinese-ner 下载albert中文模型,这里使用的是base 将模型文件夹重命名为albert_base_zh,放入项目中 运行 python albert_ner.py -- task_name ner --do_train true --do_eval true --data_dir data --vocab_file . max_seq_length 128 --train_batch_size 64 --learning_rate 2e-5 --num_train_epochs 3 --output_dir albert_base_ner_checkpoints

    2.1K10发布于 2020-05-15
  • 来自专栏小七的各种胡思乱想

    中文NER的那些事儿4. 数据增强在NER的尝试

    在第二章我们也尝试通过多目标对抗学习的方式引入额外的NER样本,或者分词边界来提高people daily小样本数据集的效果。 以下我会结合一些业界的案例和新鲜出炉的NLP数据增强综述,聊聊都有哪些数据增强方案,其中哪些适用于NER以及效果提升。 Conceptual Graph Construction for Semantic Search at AlibabaNER数据增强尝试这里主要针对方案一二和任务无关的通用增强方案,Reference[3]在英文NER 换到中文NER任务,我做了些许调整同义词替换:这里我只对非实体部分进行了同义词替换,避免对实体label产生影响。 Low-resource Tagging Taskshttps://zhuanlan.zhihu.com/p/146777068https://alanlee.fun/2021/09/12/data-augment-ner-nlp

    3K20编辑于 2022-08-23
  • 来自专栏磐创AI技术团队的专栏

    医用NER+L

    ---- 磐创AI分享 作者 | Zeljko 编译 | VK 来源 | Towards Data Science 生物医学NER+L致力于从电子健康记录(EHR)中的文本中提取概念,并将其链接到大型生物医学数据库 和数据集 Jupyter笔记本可在MedCAT存储库中找到:https://github.com/CogStack/MedCAT/blob/master/notebooks/BERT%20for%20NER.ipynb 加载.json文件现在非常简单: import os import datasets from medcat.datasets import medcat_ner DATA_PATH = '<path to my .json export from medcattrainer>' dataset=datasets.load_dataset(os.path.abspath(medcat_ner. 原文链接:https://towardsdatascience.com/integrating-transformers-with-medcat-for-biomedical-ner-l-8869c76762a

    1K20发布于 2021-11-12
  • 来自专栏Y-StarryDreamer

    命名实体识别(NER

    NLP中的命名实体识别(NER):解析文本中的实体信息自然语言处理(NLP)领域中的命名实体识别(NER)是一项关键任务,旨在从文本中提取具有特定意义的实体,如人名、地名、组织机构、日期等。 本文将深入探讨NER的定义、工作原理、应用场景,并提供一个基于Python和spaCy库的简单示例代码。什么是命名实体识别(NER)? NER的目标是从自然语言文本中捕获关键信息,有助于更好地理解文本的含义。NER的工作原理NER的工作原理涉及使用机器学习和深度学习技术来训练模型,使其能够识别文本中的实体。 NER的应用场景NER在各种应用场景中发挥着关键作用:信息提取:从大量文本中提取有关特定实体的信息,如公司的创始人、产品的发布日期等。问答系统:帮助机器理解用户提问中涉及的实体,从而更准确地回答问题。 示例代码:使用spaCy进行NER下面是一个使用spaCy库进行NER的简单示例代码。spaCy是一个流行的NLP库,具有高效的实体识别功能。

    3.9K181编辑于 2023-11-10
  • 来自专栏NewBeeNLP

    FLAT——中文NER该怎么做

    来自ACL2020复旦大学邱锡鹏老师团队的NER领域又一力作 ? ? 论文:FLAT: Chinese NER Using Flat-Lattice Transformer 源码:https://github.com/LeeSureman/Flat-Lattice-Transformer Lattice LSTM[2]首次提出使用Lattice结构在NER任务中融入词汇信息,如图(a)所示,一个句子的Lattice结构是一个有向无环图,每个节点是一个字或者一个词。 ? 近几年有不少论文围绕着中文NER中的词汇增强进行了不少工作,一种方式是在字向量中嵌入词级信息(ACL 2020: Simplify the Usage of Lexicon in Chinese NER Lattice LSTM (ACL 2018)[4]: 将词汇信息引入中文NER的开篇之作,作者将词节点编码为向量,并在字节点以注意力的方式融合词向量。

    2K40发布于 2021-03-03
  • 来自专栏小七的各种胡思乱想

    中文NER的那些事儿6. NER新范式!你问我答之MRC详解&代码实现

    这一章让我们来看下如何把NER的序列标注任务转换成阅读理解任务。 论文本身把重点放在新的框架可以更好解决嵌套实体问题,但是实际应用中我碰到Nested NER的情况很少,不过在此之外MRC对小样本场景,以及细粒,层次化实体的识别任务也有一些启发意义,代码详见ChineseNER 因为他们其实是针对不同问题的改良,可以在不同的场景下分开使用 阅读理解:Tag -> Q&A 样本生成 在之前的NER任务中,对不同的实体类型的处理就是在label中使用不同的tag,地点就是LOC,人物就是 [CLS]人名和虚构的人物形象[SEP]这是中国领导人首次在哈佛大学发表演讲 如果NER任务有N个实体,训练样本有M个,按以上QA样本的构建方式会得到N*M个样本。 ': [], 'true_entity_list': ['太阳']} ---- Reference https://github.com/ShannonAI/mrc-for-flat-nested-ner

    2.1K42编辑于 2022-03-22
  • 来自专栏圆圆的算法笔记

    如何用GPT大模型解决NER任务?

    文中指出,造成大模型解决NER问题效果一般的核心原因,是NER任务和GPT训练方式的差异。 GPT本质上是一个生成模型,而NER是序列标注任务,因此将GPT应用到NER中,一个必须解决的问题是如何将NER任务转换成生成任务。 本文针对这个问题,提出了GPT-NER,将NER任务通过prompt转换成生成式任务,用预训练大模型解决NER问题。 2、GPT-NER整体思路 GPT-NER的整体思路为,将NER这种序列标注任务,通过prompt转换成一个生成任务,输入到大模型中,让其生成初步的NER打标结果。 Token的NER向量相似的,说明在NER任务上有相似的上下文,更有可能与待预测样本在NER角度相关。 5、生成结果验证 大模型的幻觉现象是一个常见问题。

    3.5K30编辑于 2023-08-17
  • 来自专栏我还不懂对话

    NER的过去、现在和未来综述-未来

    背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 关于NER的过去、现在可以参考NER的过去、现在和未来综述-现在NER的过去、现在和未来综述-过去本文关于NER未来是在时间点2021以后的一些发展的点Few-show & zero shot。

    2.1K41编辑于 2022-10-08
  • 来自专栏我还不懂对话

    NER的过去、现在和未来综述-过去

    背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 作者利用第t个wordCap对于第k个slotCap的动态路由权重$c_{kt}$作为第t个字的ner预测标签的概率。 使用预测的分割标签作为特征作为NER的输入之一,为NER系统提供更丰富的边界信息。图片分词语料目前是很丰富的。 暂且就以BERT为过去和现在的分界点,关于NER的现在,且听下回分解。 下篇:NER的过去、现在和未来综述-现在图片ReferenceNER的过去、现在和未来综述-过去篇NER的过去、现在和未来综述-现在Conditional Random Fields: Probabilistic

    2.2K70编辑于 2022-10-08
  • 来自专栏NewBeeNLP

    简单有效,来看看这个NER SOTA!

    作者 | Nine 整理 | NewBeeNLP Few shot learning(小样本学习)就是要用很少量标注样本去完成学习任务,前几天有同学在交流群里问关于小样本NER的资源,今天一起来看一篇 简介 这篇文章提出的方法其实很简单,一段话就能描述完: 用双塔模型来解决Few shot NER的问题,他们用了两个BERT Encoder,一个Encoder编码每个token的表征,另一个Encoder 结束了,是不是很简单,但效果很不错,在多个few shot NER的数据集上拿到了SOTA。 训练和推断 相比之前做NER的网络结构,他们的这种方式不需要在遇到新的dataset和没见过的Label name的时候去初始化一个新的顶层分类器,而是直接用BERT_label Encoder生成label 但是,NER任务中,一个句子中可能包含多个实体类型,无法保证每个entity type都正好有K个样本,所以他们采用了如下的方案: target set中的每个label(除了“O”以外)对应的实体都至少在

    1.6K40编辑于 2022-06-06
  • 来自专栏数据派THU

    独家 | ​采用BERT的无监督NER(附代码)

    本文介绍了一种无监督命名实体识别(NER)的方法。 ? 图1. 本文描述了一种无监督NER的方法。NER是使用BERT模型在没有标记句子的情况下无监督地完成的,并且BERT模型仅在屏蔽词模型目标的语料库上进行了无监督训练。 然后,这些集群的标签(可以是一次性手动标记,或在某些用例中使用)聚合后输出NER标签。 传统的监督NER(左侧图)与本文描述的无监督NER(右侧图)对比图 传统的监督NER是有监督的标签映射任务,通过对模型的训练/微调来执行任务(左侧图)。 相反无监督的NER则使用一个预训练/微调模型,训练无监督的屏蔽词模型目标,并将模型的输出作为种子信息,在BERT模型的最底层-单词嵌入上进行算法操作,从而获取句子的NER标签。

    2.7K20发布于 2020-04-17
  • 来自专栏深度学习自然语言处理

    中文小样本NER模型方法总结和实战

    作者:Erinlp(知乎同名) 方向:信息抽取 一、简介 在UIE出来以前,小样本NER主要针对的是英文数据集,目前主流的小样本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定适用 但是随着UIE的出现,中文小样本NER 的效果得到了突破。 二、主流小样本NER方法 2.1、EntLM EntLM该方法核心思想:抛弃模板,把NER作为语言模型任务,实体的位置预测为label word,非实体位置预测为原来的词,该方法速度较快。 输入形同:UIE采用的是前缀prompt的形式,采用的是Schema+Text的形式作为输入,文本是NER任务,所以Schema为实体类别,比如:人名、地名等。 图2-4 UIE抽取模型 三、实验结果 该部分主要采用主流小样本NER模型在中文数据上的实验效果。

    2.2K20编辑于 2022-08-26
  • 来自专栏数据科学(冷冻工厂)

    解码语言:命名实体识别(NER)技术

    引言 探索机器如何识别人名、地点和物体 —— 并学习如何打造你自己的命名实体识别(NER)应用程序! 为什么NER如此出色 想象一下:你正在阅读一篇关于“华盛顿”的文章。 这时,命名实体识别(NER)就派上用场了。 NER[1]就像是赋予人工智能一种超能力:从海量文本中筛选出重要的词汇(称为实体)并识别它们的含义。比如“苹果”是指一家公司还是一种水果? 这一切都得益于NER,而且你知道吗?它并没有你想象的那么复杂。 从规则到机器人 NER并非一开始就这么智能。最初,程序员需要通过严格的规则来教导机器 —— 基本上是一系列“如果这样,那么那样”的指令。 在金融领域:大型银行使用NER筛选数百万的市场更新,并迅速发现提及公司或股票动态的信息。 动手实践NER 好了,理论部分到此为止 —— 让我们来动手实践。有一个非常棒的Python库叫做spaCy,它使得尝试NER变得非常简单。即使你不是编程高手,也能轻松上手。

    67900编辑于 2024-12-30
  • 来自专栏DeepHub IMBA

    使用SpaCy构建自定义 NER 模型

    什么是NER? 命名实体识别(NER)是一种自然语言处理技术,用于在给定的文本内容中提取适当的实体,并将提取的实体分类到预定义的类别下。 简单来说,NER 是一种用于从给定文本中提取诸如人名、地名、公司名称等实体的技术。在信息检索方面,NER 有其自身的重要性。 NER是如何工作的? if 'ner' not in nlp.pipe_names: ner = nlp.create_pipe('ner') nlp.add_pipe(ner, last=True) else : ner = nlp.get_pipe('ner') 训练模型 在开始训练模型之前,我们必须使用ner.add_label()方法将命名实体(标签)的类别添加到' ner ',然后我们必须禁用除 比如人名、地名等,可能会有一些问题 总结 对于从简历中提取实体,我们更喜欢定制的NER而不是预先训练的NER。这是因为预训练的NER模型将只有常见的类别,如PERSON,ORG,GPE等。

    4.2K41发布于 2021-11-23
  • 来自专栏数据派THU

    AAAI 2022 | 基于词对关系建模的统一NER,刷爆14个中英NER数据集

    当前的 NER 的研究重点已经从常规的扁平命名实体识别(Flat NER)逐渐转向了重叠命名实体识别(Nested/Overlapped NER)与非连续命名实体识别(Discontinuous NER 这三类 NER 分别为: Flat NER:抽取连续的实体片段(或者包含对应的实体语义类型); Nested/Overlapped NER:抽取的两个或多个实体片段之间有一部分的文字重叠; Discontinuous NER:所抽取的多个实体间存在多个片段,且片段之间不相连。 ▲ 图2:序列到序列的方法与基于片段的方法 当前 NER 社区尝试采用一种模型框架同时将三种不同类型的 NER 同时建模,即端到端抽取出所有的类型的实体。 根据上述观察,本文将 UNER 任务转化成一种词对的关系分类任务,提出了一种新的 UNER 架构(NER as Word-Word Relation Classification),名为 W²NER

    1.4K20编辑于 2022-05-12
  • 来自专栏产品经理的人工智能学习库

    命名实体识别 – Named-entity recognition | NER

    命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 百度百科详情 | 维基百科详情 命名实体识别的发展历史 NER一直是NLP领域中的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,NER研究进展的大概趋势大致如下图所示 NER 的相关数据集 数据集 简要说明 访问地址 电子病例测评 CCKS2017开放的中文的电子病例测评相关的数据 测评1 | 测评2 音乐领域 CCKS2018开放的音乐领域的实体识别任务 CCKS 开放的任务型对话系统中的口语理解评测 NLPCC 人名、地名、机构、专有名词 一家公司提供的数据集,包含人名、地名、机构名、专有名词 boson 相关工具推荐 工具 简介 访问地址 Stanford NER 文档 | GitHub 地址 本文转载自公众号 AI 小白入门,原文地址 扩展阅读 实践类文章(1) 【实战】NLP命名实体识别开源实战教程(2019-9) 基于 BERT 的中文命名实体识别 – NER

    3.2K00发布于 2019-12-18
  • 来自专栏深度学习自然语言处理

    NER | 商品标题属性识别探索与实践

    NER任务标注数据方法 其实对 NER 任务来说,怎么获取标注数据是比较重要、比较耗时费力的工作。 BertCRF单标签NER模型 这部分主要记录 BertCRF 在做单一标签(品牌)识别任务时踩的一些坑。 先把踩的坑列一下: 怎么轻量化构建 NER 标注数据集。 2.1 轻量化构建标注数据集 上面讲到构建 NER 标注数据的常见 3 种方法,先把第一种就排除,因为没钱打标;对于第三种,我尝试了福报厂的 NER api,分基础版 和 高级版,但评估下来发现不是那么准确 2.2 正确打标label index NER 任务和文本分类任务很像,文本分类任务是句子或整篇粒度,NER 是 token 或者 word 粒度的文本分类。 ▲ 左单任务NER模型;右多任务NER模型 Cascade 的意思是级联。就是把 BERT 的 token 向量过一遍 CRF 之后,再过一遍 Dense 层分类。但这里面有一些细节。

    3K31编辑于 2022-07-27
  • 来自专栏深度学习自然语言处理

    NER | 命名实体识别及相关经验

    ---- 编辑:AI算法小喵 写在前面 之前我们曾分享过几篇 NER 的相关论文,大家应该还有点印象。这次小喵看到一篇比较系统的 NER 相关文章,特别适合小白。 1.6 标签体系的种类与NER的输出 NER 工具会给文本序列中的每一个字(或词)打上一个标签,用来表示这个字(或词)是否为命名实体的一部分。 下表是常见的 NER标签体系 : 下表则展示了 NER 工具的输出结果。 后者逐渐占据了比较大的话语权,因此这里默认是基于字序列来做 NER。 那么NER 工具是如何计算出这些标签的呢? 2. 在NER中,词语的标签就是不可见(因此需要推测)的状态。

    2.3K21编辑于 2022-06-29
  • 来自专栏我还不懂对话

    NER的过去、现在和未来综述-现在

    之前的过去篇:NER的过去、现在和未来综述-过去篇下一篇:NER的过去、现在和未来综述-未来----过去和现在是相对于某个时间节点的,暂且以bert作为这个时间节点,本文就主要寻找NER在BERT之后的一些方法 Trie树匹配结果作为特征这部分比较简单,即将句子通过规则匹配到的词语信息作为先验输入,如果对于垂域的NER可以使用此方式。匹配方式参考这篇:NER的过去中的词典匹配的方法。 文章比较有意思是分析了Transformer的注意力机制,发现其在方向性、相对位置、稀疏性方面不太适合NER任务。 本文ner框架使用了前面介绍的片段排列分类的框架,即每个片段都会有一个实体类型进行分类,也更适合负采样。 对于下游任务,包括NER也有提升,就不展开了,见图:图片图片ReferenceNER的过去、现在和未来综述-过去篇NER的过去、现在和未来综述-现在SpanNER: Named EntityRe-/Recognition

    3.2K101编辑于 2022-10-08
  • 来自专栏用户2133719的专栏

    FLAT:基于 Flat-Lattice Transformer 的中文 NER 模型

    本文是 「FLAT: Chinese NER Using Flat-Lattice Transformer」 一文的学习笔记。 1 背景 「命名实体识别」(Named entity recognition,NER)在很多 NLP 下游任务中扮演着重要角色,与英文 NER 相比,中文 NER 往往更加困难,因为其涉及到词语的切分( 由于图结构并不能完全消除 NER 对序列结构的依赖性,这些方法需要使用 LSTM 作为底层编码器,从而增加了模型的复杂性。 本论文针对当前相关模型的局限性,提出了面向中文 NER 的 「FLAT」 模型。 4 总结 本文提出了一种包含词汇信息的 Flat-lattice Transformer 模型,用于中文 NER 任务。

    2.9K20编辑于 2021-12-17
领券