首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏自然语言处理

    RAG论文】RAG中半结构化数据的解析和向量化方法

    /2405.03989 代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/main 这篇论文提出了一种新方法,用于解析和向量化半结构化数据 ,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。 docx格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为处理和提取结构化数据的首选格式。 这样配置的数据库能够进行相似性搜索,并且在数据存储容量上有显著优势。 实验和讨论:通过选取中英文的学术论文和书籍进行测试,展示了所使用方法和RAG技术的有效性。 测试包括文本处理结果、图像处理结果和表格处理结果,以及在RAG环境下进行的零样本问答(Zero-shot Question Answering)结果。

    1.2K10编辑于 2024-05-13
  • 来自专栏大模型应用

    大模型应用:面向结构化表格的 RAG 实践:技术架构与特性解析.26

    一、引言 自RAG处理以来,我们都始终以非结构化文本(文档、PDF、网页)为核心处理对象,但实际企业在运转过程中,很多核心数据沉淀于Excel、CSV等结构化表格中,这些数据承载着财务报表 在此背景下,面向结构化表格的RAG新模式应运而生,其核心突破在于跳出文本适配的传统思维,构建表格原生的检索增强架构,从数据解析、索引构建到检索问答全流程适配表格的结构化特性。二、RAG的新模式1. 传统RAG数据处理痛点传统RAG技术在处理结构化表格时,存在四大核心痛点,使其难以满足企业级应用需求:语义关联丢失:将Excel表格直接转为纯文本时,列头与行数据的对应关系被破坏,如“产品ID:P001 结构化表格的RAG新模式面向结构化表格的RAG新模式,是一套以保留表格结构化特征为核心目标的检索增强生成架构:通过“结构化解析-元数据增强-向量索引优化-精细化检索-结构化问答”的全流程设计,实现对Excel 参考数据:五、总结 面向结构化表格的 RAG 新模式,是针对传统 RAG 处理表格数据时语义丢失、多表融合难、版本适配差的革新。

    56233编辑于 2026-02-23
  • 医疗认知引擎的结构化重塑:基于实体对齐与 GEO 架构的 RAG 深度实践

    传统的RAG(检索增强生成)架构在处理非结构化医疗数据时,常因Token注意力发散和知识切片(Chunking)缺乏医学逻辑,导致模型在生成阶段产生严重的幻觉。 作为深耕医疗行业的GEO(生成式引擎优化)服务商,爱搜光年在长期的工程实践中发现,单纯增加Embedding维度或扩大上下文窗口并不能根治医疗信息的置信度问题。 真正的技术奇点在于如何通过底层数据工程,将非规范的临床描述转化为具象的、可被生成式搜索引擎高度识别的结构化资产,从而在根源上收敛模型的输出熵值。 四、医疗实体的结构化封装:JSON-LD与语义Schema的工程实现为了实现上述“解释权转移”,爱搜光年将医院的合规资质、医生专长及临床案例进行了高精度的结构化处理。 该节点承载了超过50,000条包含临床案例、合规资质及患者随访的数据分片。

    20710编辑于 2026-02-26
  • 来自专栏Hadoop数据仓库

    ShardingSphere实践7)——数据加密

    中间件加密服务优势 7. 加密算法解析 三、用例测试 1. 准备测试用例环境 2. 执行数据加密 (1)创建逻辑库 (2)添加资源 (3)原表增加加密字段 (4)创建加密规则 3. 测试 4. 针对已上线业务,可实现明文数据与密文数据同步存储,并通过配置决定使用明文列还是密文列进行查询。可实现在不改变业务查询 SQL 前提下,已上线系统对加密前后数据进行安全、透明化迁移。 7. = | |  2 | fRV$wtz5FMV8bwH9 | NULL                     | 2xPXaMMndGl7I8CfQRVVwjLWHCA31RdEiQCtSK1KgqQ= 94oDpoqt2OjLWHCA31RdEiQCtSK1KgqQ= | |  4 | 123              | DZEHT99l6UjthceKuCCKIw== | LR3Zm3Bn6ANef7HMwBY5VQ --------------------------+ 6 rows in set (0.00 sec)         原因是MySQL默认使用的128位,加密方法为"ECB",填充方法为"PKCS7"

    2.4K11编辑于 2022-06-14
  • Langchain 和 RAG 最佳实践

    你可以在rag101仓库中查看完整代码。本文翻译自我的英文博客,最新修订内容可随时参考:LangChain 与 RAG 最佳实践。 LangChain与RAG最佳实践 简介 LangChain LangChain是用于构建大语言模型(LLM)应用的开源开发框架,其组件如下: 提示(Prompt) 提示模板(Prompt Templates 加载器(Loaders) 可以使用加载器处理不同种类和格式的数据。有些是公开的,有些是专有的;有些是结构化的,有些是非结构化的。 实践 嵌入 完整代码可在这里查看。 首先安装库: chromadb是一个轻量级向量数据库。 pip install chromadb 我们需要一个好的嵌入模型,你可以选择你喜欢的。参考文档。 # 自动关联历史对话 print(result['answer']) 最佳实践总结 数据预处理 使用RecursiveCharacterTextSplitter保留语义,避免硬性切割。

    95200编辑于 2025-06-06
  • 来自专栏深度学习与python

    解码RAG:智谱 RAG 技术的探索与实践

    本文整理自 2024 年 5 月 AICon 北京站 【RAG 检索与生成落地实践】专题的同名主题分享。 另外,即将于 8 月 18-19 日举办的 AICon 上海站同样设置了【RAG 落地应用与探索】专题,我们将深入探讨 RAG 的最新进展、成果和实践案例,详细分析面向 RAG 的信息检索创新方法,包括知识抽取 智谱 - RAG 在智能客服的实践 下面我以「公共事务客服问答场景」为例,介绍我们在 RAG 上的实践。 这个场景其实大家都比较熟悉。例如 12329 公积金便民热线。 我们有四种不同的构造数据的方案,在实践中都有不错的表现: Query vs Original:简单高效,数据结构是直接使用用户 query 召回知识库片段; Query vs Query:便于维护,即使用用户的 智谱 AI 将继续致力于 RAG 技术的探索与实践,为企业在更多的领域落地大模型应用,提供更加智能、高效的服务体验。

    1.2K22编辑于 2024-06-27
  • 来自专栏用九智汇分享

    数据分类分级-结构化数据识别与分类的算法实践

    背景 数据分类是数据安全和数据合规体系建设的基石。无论是数据安全策略制定、数据合规性评估,还是事件响应处置和员工数据安全意识引导,都离不开对数据进行有效的标记和分类。 数据分类则几乎只有通过元数据一种手段:基于企业的数据模型,以及表名、列名中出现的一些关键词等,判断数据来自于什么业务系统。为了增加分类的准确率,同一张表是其他列的数据识别结果,也是一个有用的信息。 我们的实践1、统一的数据识别框架 如上文所说,已有的数据识别方案需要根据数据的情况,在三种方法选择其一,这在设计上就不够优雅,而且我们很难融合不同信息以提高准确率和召回率。 做出这些调整的主要观察在于,我们是针对数据库某列进行数据识别,而非单条数据,一列数据意味着可以抽样很多条样本,这些样本中不少都是属于同一标识的数据,因此我们没必要对每一条数据都做出非常准确的判断,而是更多考虑性能的问题 特别声明:本文中介绍的结构化敏感数据识别、数据库命名方式理解方法均已申请专利保护,分类分级平台已经申请软著。

    1.4K21编辑于 2023-11-01
  • 来自专栏全栈程序员必看

    什么叫结构化数据结构化数据和非结构化数据(xml是非结构化数据)

    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据结构化数据 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。 非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据更难让计算机理解。 半结构化数据结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。

    4.2K20编辑于 2022-08-01
  • 来自专栏大数据文摘

    处理非结构化数据7个实例(附链接)

    本文是作为数据科学博客松的一部分发表的。 介绍 我敢肯定,从事数据工作的人,不管数据量大小与否,都遇到过如下问题:数据不好,数据不一致,数据不干净,诸如此类。 帮工作中鲜与数据打交道的人科普一下,根据《福布斯》的报告,数据专家60%的时间都花费在清理和整理非结构化数据上。是的,这花费了很多时间,但我认为这是得出结论的基础。 sh=4b394cc86f63 这里根据我近三年来处理非结构化数据的个人经验整理了7个实例。希望能为相关读者带来些许收获。 不同的命名法 在使用非结构化地理数据时,我遇到了同一个地理辖区不同拼写的问题。 尾声 总之,我相信清理和整理非结构化数据对于交付高质量的结果是至关重要的。希望我提供的这些实例能为现实世界中的实际问题提供参考。

    3.3K30发布于 2021-01-11
  • 来自专栏大语言模型

    RAG到DeepResearch技术路线实践

    同时也能明显感受到仅仅靠RAG技术已经完全满足不了用户的需求了,本文就介绍 从RAG到DeepResearch,我们的技术实践之旅。 话不多说,先上技术路线图: 1. 每一次版本发布、每一次用户反馈,都是完善数据与算法的契机。 RAG 技术的接入,不仅是让企业“用上 AI”,更是让企业开始数据统一化治理、知识结构化重塑的起点。 同时,RAG 本身也在实践中不断迭代优化——在更多场景下变得更稳、更聪明,也能更灵活地支撑不同业务需求。 2. (2)自研 Query 扩展模型,提升研究维度的全面性 针对多轮指代、问题改写、问题扩写等真实业务中出现的 Query 理解难题,已经通用数据集,我们构建了高质量多维度训练数据集,并基于 7B 模型进行 7.

    67096编辑于 2025-12-05
  • 来自专栏腾讯社交用户体验设计

    设计结构化实践手册(一)

    有一定基础的同学,可能会觉得很显浅,那么恭喜你可以带着课程里一些新的视角开始迭代和新建自己的实践模型了。 二、为什么要结构化实践? 听起来结构化实践好像挺香的,那是不是马上落地搞起。 图5-结构化实践案例 -设计组件化 看完这两个例子是不是觉得结构化有手就会呢? 这里也插入一个冷知识哈,大家在拆解因素或步骤时尽可能不要超过7个,是因为人脑看起来很厉害,但我们的意识能记忆和处理的信息数量并不多,平均为7±2个,有的人多些,有的人少些,7个以下也能让我们更好的聚焦。 接下来的两篇连载文章,我们将会重点从「设计学习」和「设计输出」两个方向来看看结构化实践具体可以如何应用到设计师的实际场景当中。 1. 设计师为什么需要结构化思维:有脑就懂的结构化思维和实践原理。

    94320编辑于 2023-05-10
  • 来自专栏大数据和云计算技术

    数据时代的结构化存储-HBase的应用实践

    概述 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 HBase的能力特点,可以简单概括为下表,基于这些能力,其被广泛应用于海量结构化数据在线访问、大数据实时计算、大对象存储等领域 ? 面对如此规模的业务体量,阿里巴巴团队对于如何基于HBase打造稳定、高效、易用的存储服务,形成了一套完善的产品体系与实践经验,其整体大图如下: ? 在过去实践的一些场景,发现这种环状链路不得不存在,所以系统层面,我们也对Replication做了相关优化,以去除这种写入放大。 此时需要解决数据去重的问题:HExporter在收到数据包时,会检查数据包的标记,这个标记表示了数据是否来自于最源端(客户端写入的集群),如果不是则直接抛弃这个数据包。

    1.7K21发布于 2019-09-24
  • 来自专栏自然语言处理

    RAG最新研究】优化RAG系统的最佳实践与深度解析

    实验设置: 论文详细描述了实验的设置,包括使用的数据集(TruthfulQA和MMLU)、知识库(Wikipedia Vital Articles)、评估指标(如ROUGE、余弦相似度、MAUVE、FActScore 实验和结果分析: 论文在两个数据集上进行了广泛的实验,评估了不同RAG变体的性能,并进行了相关性评估、事实性评估和定性分析。 评估了九个研究问题对RAG系统性能的影响。 事实性评估: 使用FActScore指标评估了RAG变体在TruthfulQA和MMLU数据集上的事实性表现。 对比了有无RAG模块的模型(w/o_RAG)与包含RAG模块的模型之间的事实性表现。 定性分析: 提供了在TruthfulQA和MMLU数据集上由模型变体生成的示例。 展示了所提出的模块如何通过专门的检索技术显著提高RAG系统的性能。 具体实验设置: 数据集:使用了TruthfulQA和MMLU两个公开数据集。

    1K10编辑于 2025-01-16
  • 来自专栏海天一树

    结构化、半结构化和非结构化数据

    一、结构化数据 结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。 二、半结构化数据结构化数据结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。 所以,半结构化数据的扩展性是很好的。 三、非结构化数据结构化数据数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。 基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。 非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。

    24.3K44发布于 2018-10-08
  • 来自专栏腾讯云TVP

    RAG 到 KAG :结构化思考范式下的复杂推理

    KAG 模型框架 KAG知识索引:自动化知识构建 在实际应用中,借助大模型的能力,我们可以实现知识的自动化构建,这一过程不仅包括开放信息抽取,还涵盖从业务系统中获取的结构化数据。 关键在于实现双向校验与互补:一方面,数据库或大数据体系中的结构化知识虽然较为精准,但往往缺乏上下文信息;另一方面,非结构化文本虽然富含上下文,但容易产生噪声。 这样一来,我们就能够通过结构化的节点,类似于传统的倒排索引,将知识转换为具有关联关系的图结构。在此基础上,我们将通过 schema 注入来实现与传统图数据库中 key-value 形式的对接。 是否在结构化数据上进行图遍历与子图匹配? 是否在扩展后的文本内容上进行阅读理解与“思考”操作? 这是因为,在生成包含特殊标记(special token)和长思维链的结构化推理路径时,SFT 能够通过大量合成数据并根据行业需求灵活调整模型行为,确保推理过程的准确性和可靠性。

    99010编辑于 2025-08-12
  • 来自专栏掘金安东尼

    RAG+内容推荐,应该如何实践

    最近业务有需求:结合RAG+内容推荐,针对实践部分,做一点探究。 话不多说,直接开冲! 背景 首先回顾一下 RAG 技术定义,它可以结合信息检索和生成模型的混合。 简单来说,RAG = 预训练的语言模型 + 信息检索系统,使模型能够在生成自然语言时引入外部知识,从而提高生成内容的准确性和多样性。 检索模型用于从一个大规模知识库中检索相关文档。 基于这样的背景,这种技术在内容推荐、问答系统和自动摘要等领域有着广泛的应用,它能克服纯生成模型对训练数据依赖过大的缺点。 本文将介绍RAG的基本原理,并结合内容推荐机制进行实践演示,包括代码示例。 实践示例 首先就是安装必要的库: pip install transformers faiss-cpu 这里,假设我们有一个包含文档的知识库,以及用户的历史行为记录: documents = [ recommendations = recommend_content(user_history) for rec in recommendations: print(rec) 小结 本文提供了一个简单的实践示例

    85810编辑于 2024-07-18
  • 来自专栏小徐学爬虫

    结构化文本到结构化数据

    将非结构化文本转换为结构化数据是一项常见且重要的任务,特别是在数据分析、自然语言处理和机器学习领域。以下是一些方法和工具,可以帮助大家从非结构化文本中提取有用的结构化数据。 1、问题背景文本数据在我们的日常生活中无处不在,如何将这些文本数据转换为结构化数据是非常有用的,它可以帮助我们更好地管理和利用这些数据。 然而,将非结构化文本转换为结构化数据是一项具有挑战性的任务,因为非结构化文本通常是杂乱无章且不规则的。2、解决方案将非结构化文本转换为结构化数据的解决方案之一是使用自然语言处理(NLP)技术。 NLP技术可以帮助我们理解文本的含义,并将其转换为计算机能够理解的结构化数据。 不同的方法适用于不同类型的非结构化文本和不同的需求,我们可以根据具体的需求和数据选择合适的方法或组合多种方法来实现从非结构化文本到结构化数据的转换。

    1.2K10编辑于 2024-07-11
  • 来自专栏大数据技术博文

    Python最佳实践指南-结构化工程

    这里说的简单,指的是结构化过程没有太多约束限制而且模块导入功能容易掌握。 因而您只剩下架构性的工作,包括设计、实现项目各个模块,并整理清他们之间 的交互关系。 容易结构化的项目同样意味着它的结构化容易做得糟糕。 抽象层允许将代码分为 不同部分,每个部分包含相关的数据与功能。 例如在项目中,一层控制用户操作相关接口,另一层处理底层数据操作。 如 果函数保存或删除全局变量或持久层中数据,这种行为称为副作用。 纯函数更容易做单元测试:很少需要复杂的上下文配置和之后的数据清除工作。 纯函数更容易操作、修饰和分发。 总之,对于某些架构而言,纯函数比类和对象在构建模块时更有效率,因为他们没有任何 上下文和副作用。

    96741编辑于 2022-04-18
  • 来自专栏自然语言处理

    RAG数据集综述

    分类图部分,虽然文本中无法直接插入图片,但可以用结构化的列表或mermaid代码来描述,让用户可以自行生成图表。例如,使用mermaid的tree语法,展示7个大类及其子类和数据集。 )、判别式(分类/排序)、结构化(三元组/表格) 2.2 分类树(文本可视化) 图1 RAG数据集分类体系 3. 表7展示主流检索基准: 表7 信息检索数据数据集名称 任务类型 领域 规模 评估指标 性能 来源 BEIR 零样本检索 多领域 8个子集 nDCG@10, Recall@100 GAR-RAG: 6 提供了详尽的数据集分析:我们通过结构化的表格,对超过60个代表性RAG数据集进行了深入分析,涵盖其任务特点、评估方法和核心挑战。 知识源的质量、覆盖范围和组织形式(如纯文本、半结构化数据)直接影响RAG系统的性能上限。

    95610编辑于 2025-06-14
  • 来自专栏python学习指南

    Python爬虫(九)_非结构化数据结构化数据

    爬虫的一个重要步骤就是页面解析与数据提取。 更多内容请参考:Python学习指南 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全部爬下来) 取(分析数据,去掉对我们没用处的数据 ) 存(按照我们想要的方式存储和使用) 表(可以根据数据的类型通过一些图标展示) 以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。 数据,可分为非结构化数据结构化数据结构化数据:先有数据,再有结构 结构化数据:先有结构,再有数据 不同类型的数据,我们需要采用不同的方式来处理 非结构化数据处理 文本、电话号码、邮箱地址 正则表达式 Python正则表达式 HTML文件 正则表达式 XPath CSS选择器 结构化数据处理 JSON文件 JSON Path 转化为Python类型进行操作(json类) XML文件 转化为Python

    2.3K60发布于 2018-01-17
领券