首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏自然语言处理

    RAG论文】RAG中半结构化数据的解析和向量化方法

    /2405.03989 代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/main 这篇论文提出了一种新方法,用于解析和向量化半结构化数据 ,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。 docx格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为处理和提取结构化数据的首选格式。 这样配置的数据库能够进行相似性搜索,并且在数据存储容量上有显著优势。 实验和讨论:通过选取中英文的学术论文和书籍进行测试,展示了所使用方法和RAG技术的有效性。 测试包括文本处理结果、图像处理结果和表格处理结果,以及在RAG环境下进行的零样本问答(Zero-shot Question Answering)结果。

    1.2K10编辑于 2024-05-13
  • 来自专栏大模型应用

    大模型应用:面向结构化表格的 RAG 实践:技术架构与特性解析.26

    一、引言 自RAG处理以来,我们都始终以非结构化文本(文档、PDF、网页)为核心处理对象,但实际企业在运转过程中,很多核心数据沉淀于Excel、CSV等结构化表格中,这些数据承载着财务报表 在此背景下,面向结构化表格的RAG新模式应运而生,其核心突破在于跳出文本适配的传统思维,构建表格原生的检索增强架构,从数据解析、索引构建到检索问答全流程适配表格的结构化特性。二、RAG的新模式1. 结构化表格的RAG新模式面向结构化表格的RAG新模式,是一套以保留表格结构化特征为核心目标的检索增强生成架构:通过“结构化解析-元数据增强-向量索引优化-精细化检索-结构化问答”的全流程设计,实现对Excel 向量索引构建与持久化:将解析后的结构化文本构建向量索引,通过StorageContext实现索引本地持久化存储,避免重复解析表格数据,提升二次查询效率;5. 参考数据:五、总结 面向结构化表格的 RAG 新模式,是针对传统 RAG 处理表格数据时语义丢失、多表融合难、版本适配差的革新。

    56233编辑于 2026-02-23
  • 医疗认知引擎的结构化重塑:基于实体对齐与 GEO 架构的 RAG 深度实践

    传统的RAG(检索增强生成)架构在处理非结构化医疗数据时,常因Token注意力发散和知识切片(Chunking)缺乏医学逻辑,导致模型在生成阶段产生严重的幻觉。 作为深耕医疗行业的GEO(生成式引擎优化)服务商,爱搜光年在长期的工程实践中发现,单纯增加Embedding维度或扩大上下文窗口并不能根治医疗信息的置信度问题。 真正的技术奇点在于如何通过底层数据工程,将非规范的临床描述转化为具象的、可被生成式搜索引擎高度识别的结构化资产,从而在根源上收敛模型的输出熵值。 四、医疗实体的结构化封装:JSON-LD与语义Schema的工程实现为了实现上述“解释权转移”,爱搜光年将医院的合规资质、医生专长及临床案例进行了高精度的结构化处理。 该节点承载了超过50,000条包含临床案例、合规资质及患者随访的数据分片。

    20710编辑于 2026-02-26
  • Langchain 和 RAG 最佳实践

    你可以在rag101仓库中查看完整代码。本文翻译自我的英文博客,最新修订内容可随时参考:LangChain 与 RAG 最佳实践。 LangChain与RAG最佳实践 简介 LangChain LangChain是用于构建大语言模型(LLM)应用的开源开发框架,其组件如下: 提示(Prompt) 提示模板(Prompt Templates 代理(Agents) 支持5种代理帮助语言模型使用外部工具。 代理工具包(Agent Toolkits):提供超过10种实现,代理通过特定工具执行任务。 加载器(Loaders) 可以使用加载器处理不同种类和格式的数据。有些是公开的,有些是专有的;有些是结构化的,有些是非结构化的。 实践 嵌入 完整代码可在这里查看。 首先安装库: chromadb是一个轻量级向量数据库。 pip install chromadb 我们需要一个好的嵌入模型,你可以选择你喜欢的。参考文档。

    95200编辑于 2025-06-06
  • 来自专栏深度学习与python

    解码RAG:智谱 RAG 技术的探索与实践

    本文整理自 2024 年 5 月 AICon 北京站 【RAG 检索与生成落地实践】专题的同名主题分享。 另外,即将于 8 月 18-19 日举办的 AICon 上海站同样设置了【RAG 落地应用与探索】专题,我们将深入探讨 RAG 的最新进展、成果和实践案例,详细分析面向 RAG 的信息检索创新方法,包括知识抽取 智谱 - RAG 在智能客服的实践 下面我以「公共事务客服问答场景」为例,介绍我们在 RAG 上的实践。 这个场景其实大家都比较熟悉。例如 12329 公积金便民热线。 我们有四种不同的构造数据的方案,在实践中都有不错的表现: Query vs Original:简单高效,数据结构是直接使用用户 query 召回知识库片段; Query vs Query:便于维护,即使用用户的 智谱 AI 将继续致力于 RAG 技术的探索与实践,为企业在更多的领域落地大模型应用,提供更加智能、高效的服务体验。

    1.2K22编辑于 2024-06-27
  • 来自专栏用九智汇分享

    数据分类分级-结构化数据识别与分类的算法实践

    背景 数据分类是数据安全和数据合规体系建设的基石。无论是数据安全策略制定、数据合规性评估,还是事件响应处置和员工数据安全意识引导,都离不开对数据进行有效的标记和分类。 数据分类则几乎只有通过元数据一种手段:基于企业的数据模型,以及表名、列名中出现的一些关键词等,判断数据来自于什么业务系统。为了增加分类的准确率,同一张表是其他列的数据识别结果,也是一个有用的信息。 我们的实践1、统一的数据识别框架 如上文所说,已有的数据识别方案需要根据数据的情况,在三种方法选择其一,这在设计上就不够优雅,而且我们很难融合不同信息以提高准确率和召回率。 做出这些调整的主要观察在于,我们是针对数据库某列进行数据识别,而非单条数据,一列数据意味着可以抽样很多条样本,这些样本中不少都是属于同一标识的数据,因此我们没必要对每一条数据都做出非常准确的判断,而是更多考虑性能的问题 特别声明:本文中介绍的结构化敏感数据识别、数据库命名方式理解方法均已申请专利保护,分类分级平台已经申请软著。

    1.4K21编辑于 2023-11-01
  • 来自专栏全栈程序员必看

    什么叫结构化数据结构化数据和非结构化数据(xml是非结构化数据)

    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据结构化数据 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。 非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据更难让计算机理解。 半结构化数据结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。

    4.2K20编辑于 2022-08-01
  • 来自专栏大语言模型

    RAG到DeepResearch技术路线实践

    同时也能明显感受到仅仅靠RAG技术已经完全满足不了用户的需求了,本文就介绍 从RAG到DeepResearch,我们的技术实践之旅。 话不多说,先上技术路线图: 1. 每一次版本发布、每一次用户反馈,都是完善数据与算法的契机。 RAG 技术的接入,不仅是让企业“用上 AI”,更是让企业开始数据统一化治理、知识结构化重塑的起点。 同时,RAG 本身也在实践中不断迭代优化——在更多场景下变得更稳、更聪明,也能更灵活地支撑不同业务需求。 2. 5. 多模态 在多模态方向,我们的技术探索主要聚焦在三个核心能力:理解、生成、推理加速。 从实践经验来看,并不存在绝对正确的方案。不同业务的数据分布、延迟要求、算力预算都不同,需要按场景选择最优架构。 在完成版面分析后,下一步是对文档中的图片进行理解与处理。

    67096编辑于 2025-12-05
  • 来自专栏腾讯社交用户体验设计

    设计结构化实践手册(一)

    听起来结构化实践好像挺香的,那是不是马上落地搞起。 人脑在处理信息的过程大概可以简化为5个步骤: 1. 输入:首先我们会从外界吸收各类数据。 2. 降噪-归纳:然后大脑对其进行降噪和归纳,将这些数据分辨成有用或没有用的信息。 3. 5. 输出:最后我们根据决策对信息进行多次或多元重组,激发出了创造的可能性,并推动了新事物的边界,而这也是设计师非常关键的高光能力。 图4-信息处理过程简述 结构化思维是什么? 图5-结构化实践案例 -设计组件化 看完这两个例子是不是觉得结构化有手就会呢? STEP 4+5 验证因素真伪及优先级 第四、五步,一般情况下是结合着处理的,也就是验证因素是否成立和明确它们的优先级,验证成立性基本上要依赖两种数据,定量数据和定性数据;定量数据可以透过产品埋点、

    94320编辑于 2023-05-10
  • 来自专栏自然语言处理

    RAG5个常见错误

    向量数据库并非硬性规定 几乎互联网上所有关于RAG的教程都使用向量存储。如果你一直在搜索RAG相关内容,你就会明白我们在说什么。 基于向量的检索无疑是RAG成功的重要因素。 RAG可以从互联网、关系型数据集、Neo4J中的知识图谱,或者这三者的组合中检索信息。 在许多情况下,我们注意到混合方法往往能带来更好的性能。 对于客户聊天机器人,你可能需要授予RAG访问部分客户数据库的权限,这可能是一个关系型数据库。 公司的知识管理系统可能会创建知识图谱并从中检索信息,而不是使用向量存储。 从定义上讲,所有这些都是RAG。 然而,确定使用哪些数据源的过程并不是很直接。你需要尝试各种选项,了解每种方法的优缺点。接受或拒绝某个想法的原因可能受到技术和业务考虑的双重影响。 对于初始查询,我们可以从数据源获取信息。然后,基于获取的文档,我们可以获取后续文档。 分块是RAG中最具挑战性和最重要的部分 当上下文中包含不相关信息时,LLM往往会失控。

    27410编辑于 2025-04-26
  • 来自专栏自然语言处理

    5个开源RAG框架对比

    AutoRAG:自动优化,省心省力 核心优势:自动寻找最优RAG流程,告别手动调参! ✨ 特色功能:支持用你的评估数据测试不同RAG模块,找到最适合的方案。 R2R:多模态数据处理,全能选手 核心优势:本地化部署,支持多种数据格式,一站式解决! ✨ 特色功能: 支持文本、PDF、JSON、图片等多种文件格式 结合语义搜索 + 关键词搜索 自动构建知识图谱,提取实体关系 适用场景:适合需要处理多类型数据源的综合性RAG应用。 ✨ 特色功能:提供可定制的数据摄入、处理和检索组件,灵活又高效。 适用场景:适合企业级应用部署,需要稳定可靠的RAG框架。 https://github.com/truefoundry/cognita 5. LLMWare:轻量专业,企业必备 核心优势:小型专业模型,轻量又高效!

    3.7K11编辑于 2024-12-31
  • 来自专栏大数据和云计算技术

    数据时代的结构化存储-HBase的应用实践

    概述 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 HBase最初是以Hadoop子项目的形式进行开发建设,直到2010年5月才正式成为Apache的顶级项目独立发展。 HBase的能力特点,可以简单概括为下表,基于这些能力,其被广泛应用于海量结构化数据在线访问、大数据实时计算、大对象存储等领域 ? 面对如此规模的业务体量,阿里巴巴团队对于如何基于HBase打造稳定、高效、易用的存储服务,形成了一套完善的产品体系与实践经验,其整体大图如下: ? 在过去实践的一些场景,发现这种环状链路不得不存在,所以系统层面,我们也对Replication做了相关优化,以去除这种写入放大。

    1.7K21发布于 2019-09-24
  • 来自专栏自然语言处理

    RAG最新研究】优化RAG系统的最佳实践与深度解析

    实验和结果分析: 论文在两个数据集上进行了广泛的实验,评估了不同RAG变体的性能,并进行了相关性评估、事实性评估和定性分析。 评估了九个研究问题对RAG系统性能的影响。 事实性评估: 使用FActScore指标评估了RAG变体在TruthfulQA和MMLU数据集上的事实性表现。 对比了有无RAG模块的模型(w/o_RAG)与包含RAG模块的模型之间的事实性表现。 定性分析: 提供了在TruthfulQA和MMLU数据集上由模型变体生成的示例。 展示了所提出的模块如何通过专门的检索技术显著提高RAG系统的性能。 具体实验设置: 数据集:使用了TruthfulQA和MMLU两个公开数据集。 RAG方法的具体实现:包括使用T5模型进行查询扩展、FAISS用于向量索引和相似性搜索、Sentence Transformer作为文本编码器等。

    1K10编辑于 2025-01-16
  • 来自专栏海天一树

    结构化、半结构化和非结构化数据

    一、结构化数据 结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。 二、半结构化数据结构化数据结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。 所以,半结构化数据的扩展性是很好的。 三、非结构化数据结构化数据数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。 基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。 非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。

    24.3K44发布于 2018-10-08
  • 来自专栏腾讯云TVP

    RAG 到 KAG :结构化思考范式下的复杂推理

    KAG 模型框架 KAG知识索引:自动化知识构建 在实际应用中,借助大模型的能力,我们可以实现知识的自动化构建,这一过程不仅包括开放信息抽取,还涵盖从业务系统中获取的结构化数据。 关键在于实现双向校验与互补:一方面,数据库或大数据体系中的结构化知识虽然较为精准,但往往缺乏上下文信息;另一方面,非结构化文本虽然富含上下文,但容易产生噪声。 这样一来,我们就能够通过结构化的节点,类似于传统的倒排索引,将知识转换为具有关联关系的图结构。在此基础上,我们将通过 schema 注入来实现与传统图数据库中 key-value 形式的对接。 是否在结构化数据上进行图遍历与子图匹配? 是否在扩展后的文本内容上进行阅读理解与“思考”操作? 这是因为,在生成包含特殊标记(special token)和长思维链的结构化推理路径时,SFT 能够通过大量合成数据并根据行业需求灵活调整模型行为,确保推理过程的准确性和可靠性。

    99010编辑于 2025-08-12
  • 来自专栏掘金安东尼

    RAG+内容推荐,应该如何实践

    最近业务有需求:结合RAG+内容推荐,针对实践部分,做一点探究。 话不多说,直接开冲! 背景 首先回顾一下 RAG 技术定义,它可以结合信息检索和生成模型的混合。 简单来说,RAG = 预训练的语言模型 + 信息检索系统,使模型能够在生成自然语言时引入外部知识,从而提高生成内容的准确性和多样性。 检索模型用于从一个大规模知识库中检索相关文档。 基于这样的背景,这种技术在内容推荐、问答系统和自动摘要等领域有着广泛的应用,它能克服纯生成模型对训练数据依赖过大的缺点。 本文将介绍RAG的基本原理,并结合内容推荐机制进行实践演示,包括代码示例。 实践示例 首先就是安装必要的库: pip install transformers faiss-cpu 这里,假设我们有一个包含文档的知识库,以及用户的历史行为记录: documents = [ recommendations = recommend_content(user_history) for rec in recommendations: print(rec) 小结 本文提供了一个简单的实践示例

    85810编辑于 2024-07-18
  • 来自专栏小徐学爬虫

    结构化文本到结构化数据

    将非结构化文本转换为结构化数据是一项常见且重要的任务,特别是在数据分析、自然语言处理和机器学习领域。以下是一些方法和工具,可以帮助大家从非结构化文本中提取有用的结构化数据。 1、问题背景文本数据在我们的日常生活中无处不在,如何将这些文本数据转换为结构化数据是非常有用的,它可以帮助我们更好地管理和利用这些数据。 然而,将非结构化文本转换为结构化数据是一项具有挑战性的任务,因为非结构化文本通常是杂乱无章且不规则的。2、解决方案将非结构化文本转换为结构化数据的解决方案之一是使用自然语言处理(NLP)技术。 NLP技术可以帮助我们理解文本的含义,并将其转换为计算机能够理解的结构化数据。 不同的方法适用于不同类型的非结构化文本和不同的需求,我们可以根据具体的需求和数据选择合适的方法或组合多种方法来实现从非结构化文本到结构化数据的转换。

    1.2K10编辑于 2024-07-11
  • 来自专栏大数据技术博文

    Python最佳实践指南-结构化工程

    这里说的简单,指的是结构化过程没有太多约束限制而且模块导入功能容易掌握。 因而您只剩下架构性的工作,包括设计、实现项目各个模块,并整理清他们之间 的交互关系。 容易结构化的项目同样意味着它的结构化容易做得糟糕。 抽象层允许将代码分为 不同部分,每个部分包含相关的数据与功能。 例如在项目中,一层控制用户操作相关接口,另一层处理底层数据操作。 如 果函数保存或删除全局变量或持久层中数据,这种行为称为副作用。 纯函数更容易做单元测试:很少需要复杂的上下文配置和之后的数据清除工作。 纯函数更容易操作、修饰和分发。 总之,对于某些架构而言,纯函数比类和对象在构建模块时更有效率,因为他们没有任何 上下文和副作用。

    96741编辑于 2022-04-18
  • 来自专栏自然语言处理

    RAG数据集综述

    )、判别式(分类/排序)、结构化(三元组/表格) 2.2 分类树(文本可视化) 图1 RAG数据集分类体系 3. 这种转变不仅对RAG模型的领域适应能力提出了挑战,也对知识库的构建和检索策略提出了新的要求,例如,如何处理非结构化的教科书、结构化的攻击框架知识以及实时更新的金融信息。 提供了详尽的数据集分析:我们通过结构化的表格,对超过60个代表性RAG数据集进行了深入分析,涵盖其任务特点、评估方法和核心挑战。 知识源的质量、覆盖范围和组织形式(如纯文本、半结构化数据)直接影响RAG系统的性能上限。 ROUGE, Accuracy 实体识别与关系抽取,生成结构化的分析报告。 RAGTruth 专门用于评估RAG模型在长文本生成中事实一致性的数据集。

    95610编辑于 2025-06-14
  • 来自专栏python学习指南

    Python爬虫(九)_非结构化数据结构化数据

    爬虫的一个重要步骤就是页面解析与数据提取。 更多内容请参考:Python学习指南 页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全部爬下来) 取(分析数据,去掉对我们没用处的数据 ) 存(按照我们想要的方式存储和使用) 表(可以根据数据的类型通过一些图标展示) 以前学的就是如何从网站去爬数据,而爬下来的数据却没做分析,现在,就开始对数据做一些分析。 数据,可分为非结构化数据结构化数据结构化数据:先有数据,再有结构 结构化数据:先有结构,再有数据 不同类型的数据,我们需要采用不同的方式来处理 非结构化数据处理 文本、电话号码、邮箱地址 正则表达式 Python正则表达式 HTML文件 正则表达式 XPath CSS选择器 结构化数据处理 JSON文件 JSON Path 转化为Python类型进行操作(json类) XML文件 转化为Python

    2.3K60发布于 2018-01-17
领券