首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习AI算法工程

    chatgpt实现NLP基本任务(实体识别、关系抽取、属性抽取、事件抽取文本分类)

    向AI转型的程序员都关注了这个号 基础函数 一、实体识别 抽取文本: 驻港部队从1993年初开始组建,1996年1月28日组建完毕,1997年7月1日0时进驻香港,取代驻港英军接管香港防务,驻港军费均由中央人民政府负担 抽取文本: 糖尿病是一种常见的慢性疾病,主要症状包括多饮、多尿、乏力、体重下降等。 抽取文本: 该款智能手机搭载高通骁龙处理器,内置5000mAh电池,支持快充功能,采用6.5英寸全高清显示屏,照方面具备6400万像素后置摄像头和1600万素前置摄像头。 抽取文本: 当地时间7月5日,俄罗斯铁路公司发布消息表示,俄罗斯铁路网站和移动应用程序遭受大规模黑客攻击。 代码: 结果: 事件类型:黑客攻击 事件论元: 时间-当地时间7月5日 地点-俄罗斯 事件主体-俄罗斯铁路公司 事件客体-俄罗斯铁路网站和移动应用程序 造成影响-大规模黑客攻击 五、文本分类 抽取文本

    57910编辑于 2024-04-25
  • 来自专栏进步集

    【一起从0开始学习人工智能0x02】字典特征抽取文本特征抽取、中文文本特征抽取

    1.特征提取 特征值化: 特征提取API 字典特征提取---向量化---类别--》one-hot编码 哑变量 one-hot-------直接1234会产生歧义,不公平 应用场景 文本特征提取 实例 中文文本特征抽取 pandas------数据清洗、数据处理 sklearn------对特征处理提供了强大的接口 1.特征提取 比如文章分类 机器学习算法-------统计方法------数学公式 文本类型—》数值 类型-------》数值 任意数据-----------》用于机器学习的数字特征 特征值化: 字典特征提取---------特征离散化 文本特征提取 图像特征提取---------深度学习 特征提取 会产生歧义,不公平 所以用onehot 应用场景 pclass sex 数据集类别特征较多的情况 将数据集的特征转换为字典类型, DictVectorizer转换 本身拿到的数据就是字典类型 文本特征提取 exit code 0 countVectorizer统计每个样本特征词出现的个数 中文无法用此方法划分,会把一句话当作一个词,可以手动分词解决 借助工具:jieba分词---------结巴 中文文本特征抽取

    60720编辑于 2023-01-01
  • 来自专栏量子位

    如何用Python从海量文本抽取主题?

    有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。 本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。 讲到这里,你大概弄明白了主题抽取的目标了。可是面对浩如烟海的文章,我们怎么能够把相似的文章聚合起来,并且提取描述聚合后主题的重要关键词呢? 主题抽取有若干方法。 我们此次需要处理的,不是单一文本数据,而是1000多条文本数据,因此我们需要把这项工作并行化。这就需要首先编写一个函数,处理单一文本的分词。 ? 执行完毕之后,我们需要查看一下,文本是否已经被正确分词。 ? 结果如下: ? 单词之间都已经被空格区分开了。下面我们需要做一项重要工作,叫做文本的向量化。 不要被这个名称吓跑。 处理的文本都是微信公众号文章,里面可能会有大量的词汇。我们不希望处理所有词汇。因为一来处理时间太长,二来那些很不常用的词汇对我们的主题抽取意义不大。

    2.2K70发布于 2018-03-29
  • 来自专栏玉树芝兰

    如何用Python从海量文本抽取主题?

    有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。 讲到这里,你大概弄明白了主题抽取的目标了。可是面对浩如烟海的文章,我们怎么能够把相似的文章聚合起来,并且提取描述聚合后主题的重要关键词呢? 主题抽取有若干方法。 import jieba 我们此次需要处理的,不是单一文本数据,而是1000多条文本数据,因此我们需要把这项工作并行化。这就需要首先编写一个函数,处理单一文本的分词。 执行完毕之后,我们需要查看一下,文本是否已经被正确分词。 因为一来处理时间太长,二来那些很不常用的词汇对我们的主题抽取意义不大。所以这里做了个限定,只从文本中提取1000个最重要的特征关键词,然后停止。

    2.7K20发布于 2018-08-22
  • 来自专栏有三AI

    文本信息抽取与结构化】详聊如何用BERT实现关系抽取

    这一点在知识图谱、信息抽取文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难度、处理方式存在差异。 这个系列文章【文本信息抽取与结构化】,在自然语言处理中是非常有用和有难度的技术,是文本处理与知识提取不可或缺的技术。 利用BERT强大的编码能力,预期能够同时抽取文本中的两种特征。事实上也正是如此,目前效果最好的关系抽取模型正是基于BERT的工作,本片介绍几个利用BERT来做关系抽取的工作。 实体识别模块 实体抽取模块和我们前面介绍的实体抽取模块基本相同,感兴趣的同学可以看如下的文章: 【NLP-NER】如何使用BERT来做命名实体识别 该模型中差异仅仅在于,文本经过BERT进行特征抽取之后 这个模型的特点是端到端的实现了实体抽取和关系抽取,同时也能够预测多个关系类别。 总结 文本信息抽取与结构化是目前NLP中最为实际且效益最大的任务,熟悉这个任务是一个NLP算法工程师必需要做的事情。

    3.7K10发布于 2020-03-17
  • 来自专栏文武兼修ing——机器学习与IC设计

    基于sklearn的文本特征抽取理论代码实现

    理论 机器学习的样本一般都是特征向量,但是除了特征向量以外经常有非特征化的数据,最常见的就是文本 结构化数据 当某个特征为有限的几个字符串时,可以看成一种结构化数据,处理这种特征的方法一般是将其转为独热码的几个特征

    95770发布于 2018-04-27
  • 来自专栏流川疯编写程序的艺术

    《自然语言处理实战入门》文本检索与信息抽取 ---- 关键词抽取

    文章大纲 章节目录 参考文档 ---- 章节目录 《自然语言处理实战入门》 文本检索---- 初探 ---- 常用的检索算法有根据余弦相似度进行检索,Jaccard系数,海灵格-巴塔恰亚距离和BM25相关性评分

    1K20发布于 2020-08-17
  • 来自专栏share ai happiness

    SPERT:一种从文本抽取关系方法

    Pre-trainin 论文链接:https://arxiv.org/abs/1909.07755 论文代码:https://github.com/markus-eberts/spert ---- 任务目标:关系抽取 comedians") 或者 ("comedians",Director,"xiao ming") 下面是这个模型整体的架构图: span classification(span分类) 红色方块表示实体 黄色方块表示文本内容

    1.7K30发布于 2021-07-23
  • 来自专栏TEL18600524535

    文本抽取技术:从信息海洋中精准打捞“宝藏”

    在信息爆炸的时代,海量的文本数据蕴藏着巨大的价值,但如何从中快速、准确地定位并提取出所需的关键信息?文本抽取技术正是解决这一难题的核心利器。 工作原理:从规则到智能的进化文本抽取的核心目标是从文本中识别并提取预定义类别的信息片段(如人名、地名、机构名、日期、金额、产品名、事件、特定关系等)。 微调后,成为当前文本抽取(特别是 NER 和关系抽取)的 SOTA 方法。它们能有效处理歧义、长距离依赖和复杂语义。 非结构化文本复杂性: 文本可能包含拼写错误、语法错误、缩写、网络用语、特殊符号等噪声。关系抽取的复杂性: 识别实体间的关系需要理解文本语义,涉及逻辑推理(如因果、时序、条件等)。 随着模型能力的持续进化(如大语言模型在零样本/小样本抽取上的突破)以及多模态信息抽取的发展,文本抽取技术将变得更加精准、鲁棒和易用,继续深刻地改变我们获取、理解和利用文本信息的方式,在数字化转型的浪潮中扮演愈发关键的角色

    52010编辑于 2025-07-31
  • 来自专栏柒八九技术收纳盒

    Rust 赋能前端:PDF 分页关键词标注转图片抽取文本抽取图片翻转...

    一个专注于前端开发技术/Rust及AI应用知识分享的Coder ❝此篇文章所涉及到的技术有 WebAssembly Mupdf Pdf操作(分页展示/文本抽离/文本标注/获取超链接/Pdf转图片/翻转 例如: '获取元数据' '页数' '结构化文本' '抽取图片' '获取标注信息' '文本查询' '获取文档中超链接' '获取文档大小' 'pdf转图片' '添加文本' '翻转' '截取' '文档分割' 效果展示 结构化文本 我们可以通过toStructuredText来抽离指定页面的文本内容。 (walk/search等) 效果展示 抽取图片 在pdf.ts中定义如下代码 type imagesType = { bbox: [number, number, number, number]; image }); }, }); res(result); }); } 然后在页面中的指定函数中,处理getImages返回的数据信息 if (ability === '抽取图片

    60500编辑于 2025-01-03
  • 来自专栏mathor

    英文文本关系抽取(fine-tune Huggingface XLNet)

    本文主要是基于英文文本关系抽取比赛,讲解如何fine-tune Huggingface的预训练模型,同时可以看作是关系抽取的一个简单案例 数据预览 训练数据包含两列。 第一列是文本,其中<e1></e1>包起来的是第一个实体,<e2></e2>包起来的是第二个实体。 sentence_list是个一维的list,里面存了每一行文本。label_list是个一维的list,里面的值是int类型的,就是将原本str类型的label标签转为对应的index。 len(sentences)): encoded_dict = tokenizer.encode_plus( sentences[i], # 输入文本 len(sentences)): encoded_dict = tokenizer.encode_plus( sentences[i], # 输入文本

    1.6K20发布于 2020-08-31
  • 来自专栏有三AI

    文本信息抽取与结构化】详聊文本的结构化【下】

    这个系列文章【文本信息抽取与结构化】,在自然语言处理中是非常有用和有难度的技术,是文本处理与知识提取不可或缺的技术。 本篇介绍如何从非结构的文档中,提取想要的信息,进而结构化文本。 在【文本信息抽取与结构化】详聊文本的结构化【上】中,笔者介绍了文本结构化的意义,并开始介绍了如何进行文本的结构化,介绍了如何定义文本结构化的具体需求以及进行文本的预处理。 信息抽取模型大概有一下几种 1.实体识别模型: 通过序列标注将需要的字段在语料中标出,训练模型后,可以抽取文本中的字段及类别 2.关系抽取模型: 根据需求,定义实体之间的关系,在语料中标出,训练模型后 ,可以抽取文本中的实体及关系 3.阅读理解模型: 根据需求,将需要抽取的字段,整理成问答的形式,在语料中标出,训练模型之后,可以抽取文本中感兴趣的内容。 下次文章,详细介绍关系及实体抽取技术和模型,以完善这个系列的内容。 总结 文本信息抽取与结构化是目前NLP中最为实际且效益最大的任务,熟悉这个任务是一个NLP算法工程师必需要做的事情。

    4K10发布于 2020-02-26
  • 来自专栏有三AI

    文本信息抽取与结构化】详聊文本的结构化【上】

    这一点在知识图谱、信息抽取文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难度、处理方式存在差异。 这个系列文章【文本信息抽取与结构化】,在自然语言处理中是非常有用和有难度的技术,是文本处理与知识提取不可或缺的技术。 本篇介绍如何从非结构的文档中,提取想要的信息,进而结构化文本。 将简历结构化的信息抽取之后,后续的简历筛选,简历优化以及岗位匹配运用NLP技术或者甚至一些简单的判断就能有不错的效果了。 文本的预处理过程,是一个复杂且重要的步骤,预处理的效果直接影响后续信息抽取模型的效果。 总结 文本信息抽取与结构化是目前NLP中最为实际且效益最大的任务,熟悉这个任务是一个NLP算法工程师必需要做的事情。

    3.9K10发布于 2020-02-19
  • 来自专栏有三AI

    文本信息抽取与结构化】深入了解关系抽取你需要知道的东西

    这一点在知识图谱、信息抽取文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难度、处理方式存在差异。 这个系列文章【文本信息抽取与结构化】,在自然语言处理中是非常有用和有难度的技术,是文本处理与知识提取不可或缺的技术。 本篇介绍如何从文本抽取出两个或者多个实体之间的关系,即关系抽取。 作者&编辑 | 小Dream哥 关系抽取概述 在前面的文章中,我们介绍了将文本结构化的大致过程以及信息抽取的、涉及到的技术,却没有介绍具体的技术细节。 接下来我们来全面而细致的介绍相应的技术,今天我们关注关系抽取。 所谓关系抽取,就是抽取文本中两个或者多个实体之间的关系。 例如: 中国的首都是北京 关系抽取即是从上述文本中,抽取出如下的实体关系的任务: <中国,首都,北京> 关系抽取的方法大概有以下几类: 1.基于模板的方法 基于规则 基于依存句法

    1.6K20发布于 2020-02-27
  • 来自专栏NLP/KG

    1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

    文本抽取任务Label Studio使用指南 图片 1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等 2.基于Label studio的训练数据标注指南:(智能文档 )文档抽取任务、PDF、表格、图片抽取标注等 3.基于Label studio的训练数据标注指南:文本分类任务 4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取 目录 文本抽取任务标注 2.1 项目创建 2.2 数据上传 2.3 标签构建 2.4 任务标注 2.5 数据导出 2.6 数据转换 2.7 更多配置 1. 文本抽取任务标注 2.1 项目创建 点击创建(Create)开始创建一个新的项目,填写项目名称、描述,然后选择Object Detection with Bounding Boxes。 图片 文本分类、句子级情感倾向分类任务选择Text Classification。

    3.1K30编辑于 2023-03-03
  • 来自专栏机器学习与统计学

    大炮打蚊子,Gemini从PDF抽取结构化文本

    所有模型支持至少 100 万输入标记,并支持文本、图像和音频以及函数调用/结构化输出。 这为许多应用场景打开了新的大门,尤其是对于 PDF 文件。 将 PDF 转换为结构化或机器可读的文本一直是一个大问题。如果我们能够将 PDF 文档转换为结构化数据会怎样?这就是 Gemini 2.0 发挥作用的地方。 一个 Pydantic BaseModel[10] genai.types.Schema[11] / Pydantic BaseModel[12] 的字典等价物 让我们来看一个简单的文本示例。

    48510编辑于 2025-07-12
  • 来自专栏机器学习AI算法工程

    用Python开始机器学习:文本特征抽取与向量化

    这类问题处理的第一步,就是将文本转换为特征。 因此,这章我们只学习第一步,如何从文本抽取特征,并将其向量化。 1、数据准备 Python的sklearn.datasets支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。 比如本文使用的数据集共有2个标签,一个为“net”,一个为“pos”,每个目录下面有6个文本文件。 2、文本特征 如何从这些英文中抽取情感态度而进行分类呢? 最直观的做法就是抽取单词。通常认为,很多关键词能够反映说话者的态度。 这样,求出每个文档中,每个单词的TF-IDF,就是我们提取得到的文本特征值。 3、向量化 有了上述基础,就能够将文档向量化了。

    3.2K140发布于 2018-03-13
  • 来自专栏NLP/KG

    1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

    文本抽取任务Label Studio使用指南 1. 文本抽取任务标注 2.1 项目创建 点击创建(Create)开始创建一个新的项目,填写项目名称、描述,然后选择Object Detection with Bounding Boxes。 填写项目名称、描述 命名实体识别、关系抽取、事件抽取、实体/评价维度分类任务选择Relation Extraction`。 文本分类、句子级情感倾向分类任务选择Text Classification。 该标注示例对应的schema为: schema = { '评价维度': [ '观点词', '情感倾向[正向,负向]' ] } 2.5 数据导出 勾选已标注文本

    3K31编辑于 2023-03-07
  • 拯救重复劳动:无代码实现 Markdown文本抽取与切分

    其主要技术思想是,将文件中的数据抽取并合理切分后,转换为向量存储在拥有向量检索能力的数据库中。当有使用者提出问题时,将问题转换为向量并从向量库中检索出与问题相关的文档块信息。 故建议将所有其它类型的结构文件都统一转为Markdown结构后再进行文本抽取和切分。下面,我们就介绍下如何使用HuggingFists系统无代码实现Markdown中数据的抽取与切分。 Markdown章节拆分算子的属性含义如下:块大小:缺省值为-1,表示按照章节标题进行自然的拆分抽取。若该值不等于-1,表示按照设置的块大小和自然章节一起拆分文本块。 以便拆分文本块时可以保留上下两个文本块可能存在的语义连贯性。下面我们看一下流程的执行结果。 在只按章节拆分的结果中,我们可以看到每个章节被抽到了1个文本块中。而在按章节+分块的结果中,我们可以看到,文本块比较大的章节按照块大小的设置,被拆分为了多个小的文本块。

    42110编辑于 2025-07-29
  • 来自专栏857-Bigdata

    【建议收藏】|信息抽取与经济学文本量化分析

    本文实现的核心问题 通过信息抽取技术实现实体、关系抽取任务。通过光学字符识别能力扩大企业公告 pdf 的识别来源。 年报数据原始格式为 pdf,通过年报 pdf 数据处理流程转换为 txt 格式文本数据 前置安装 pip install ray pdfmner3k import importlib import os 考虑长度在 10-128 范围内长度的文本。去除包含页眉页脚内容。 关系抽取数据集读取代码 duie 百度构建娱乐关系抽取数据集 在基于 bert4keras 的 gplinker 关系抽取框架下数据读取部分代码实现。 def normalize(text): """简单的文本格式化函数 """ return ' '.join(text.split()) def load_data(filename

    54340编辑于 2023-05-23
领券