首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏自然语言处理

    RAG论文】RAG中半结构化数据的解析和向量化方法

    /2405.03989 代码: https://github.com/linancn/TianGong-AI-Unstructure/tree/main 这篇论文提出了一种新方法,用于解析和向量化半结构化数据 ,以增强大型语言模型(LLMs)中的检索增强生成(RAG)功能。 docx格式因其标准化、高质量的文本、易于编辑、广泛的兼容性和丰富的元数据内容而被选为处理和提取结构化数据的首选格式。 这样配置的数据库能够进行相似性搜索,并且在数据存储容量上有显著优势。 实验和讨论:通过选取中英文的学术论文和书籍进行测试,展示了所使用方法和RAG技术的有效性。 测试包括文本处理结果、图像处理结果和表格处理结果,以及在RAG环境下进行的零样本问答(Zero-shot Question Answering)结果。

    1.2K10编辑于 2024-05-13
  • 来自专栏大模型应用

    大模型应用:面向结构化表格的 RAG 实践:技术架构与特性解析.26

    一、引言 自RAG处理以来,我们都始终以非结构化文本(文档、PDF、网页)为核心处理对象,但实际企业在运转过程中,很多核心数据沉淀于Excel、CSV等结构化表格中,这些数据承载着财务报表 在此背景下,面向结构化表格的RAG新模式应运而生,其核心突破在于跳出文本适配的传统思维,构建表格原生的检索增强架构,从数据解析、索引构建到检索问答全流程适配表格的结构化特性。二、RAG的新模式1. 传统RAG数据处理痛点传统RAG技术在处理结构化表格时,存在四大核心痛点,使其难以满足企业级应用需求:语义关联丢失:将Excel表格直接转为纯文本时,列头与行数据的对应关系被破坏,如“产品ID:P001 结构化表格的RAG新模式面向结构化表格的RAG新模式,是一套以保留表格结构化特征为核心目标的检索增强生成架构:通过“结构化解析-元数据增强-向量索引优化-精细化检索-结构化问答”的全流程设计,实现对Excel 参考数据:五、总结 面向结构化表格的 RAG 新模式,是针对传统 RAG 处理表格数据时语义丢失、多表融合难、版本适配差的革新。

    56233编辑于 2026-02-23
  • 来自专栏TopFE

    Python 学习笔记4 字典和结构化数据

    像列表一样,字典也是许多值的集合,但不像列表的下标,字典的索引可以使用不同数据类型,不只是整数, 总是以键值对的形式出现 如 myCat = {'size': 'fat', 'color': 'gray 获取字典中的所有键 数组 {'size': 'fat', 'color': 'gray', disposition: 'loud''}.keys() // dict_keys 使用key()方法返回的数据类型是

    36930编辑于 2022-01-24
  • 医疗认知引擎的结构化重塑:基于实体对齐与 GEO 架构的 RAG 深度实践

    传统的RAG(检索增强生成)架构在处理非结构化医疗数据时,常因Token注意力发散和知识切片(Chunking)缺乏医学逻辑,导致模型在生成阶段产生严重的幻觉。 作为深耕医疗行业的GEO(生成式引擎优化)服务商,爱搜光年在长期的工程实践中发现,单纯增加Embedding维度或扩大上下文窗口并不能根治医疗信息的置信度问题。 真正的技术奇点在于如何通过底层数据工程,将非规范的临床描述转化为具象的、可被生成式搜索引擎高度识别的结构化资产,从而在根源上收敛模型的输出熵值。 },"medicalSpecialty":{"@type":"MedicalSpecialty","name":"DentalImplantology","subSpecialty":"All-on-4_ 该节点承载了超过50,000条包含临床案例、合规资质及患者随访的数据分片。

    20710编辑于 2026-02-26
  • Langchain 和 RAG 最佳实践

    你可以在rag101仓库中查看完整代码。本文翻译自我的英文博客,最新修订内容可随时参考:LangChain 与 RAG 最佳实践。 LangChain与RAG最佳实践 简介 LangChain LangChain是用于构建大语言模型(LLM)应用的开源开发框架,其组件如下: 提示(Prompt) 提示模板(Prompt Templates 加载器(Loaders) 可以使用加载器处理不同种类和格式的数据。有些是公开的,有些是专有的;有些是结构化的,有些是非结构化的。 WebBaseLoader基于beautifulsoup4库。 实践 嵌入 完整代码可在这里查看。 首先安装库: chromadb是一个轻量级向量数据库。 pip install chromadb 我们需要一个好的嵌入模型,你可以选择你喜欢的。参考文档。

    95200编辑于 2025-06-06
  • 来自专栏深度学习与python

    解码RAG:智谱 RAG 技术的探索与实践

    本文整理自 2024 年 5 月 AICon 北京站 【RAG 检索与生成落地实践】专题的同名主题分享。 另外,即将于 8 月 18-19 日举办的 AICon 上海站同样设置了【RAG 落地应用与探索】专题,我们将深入探讨 RAG 的最新进展、成果和实践案例,详细分析面向 RAG 的信息检索创新方法,包括知识抽取 智谱 - RAG 在智能客服的实践 下面我以「公共事务客服问答场景」为例,介绍我们在 RAG 上的实践。 这个场景其实大家都比较熟悉。例如 12329 公积金便民热线。 4、知识晦涩难懂。虽然涉及日常场景,但政策内容复杂,不易为大众理解。 此外,在交互层面,也同样存在问题: FAQ 模式的回答范围有限,无法涵盖所有问题,容易导致用户体验下降。 智谱 AI 将继续致力于 RAG 技术的探索与实践,为企业在更多的领域落地大模型应用,提供更加智能、高效的服务体验。

    1.2K22编辑于 2024-06-27
  • 来自专栏用九智汇分享

    数据分类分级-结构化数据识别与分类的算法实践

    背景 数据分类是数据安全和数据合规体系建设的基石。无论是数据安全策略制定、数据合规性评估,还是事件响应处置和员工数据安全意识引导,都离不开对数据进行有效的标记和分类。 我们的实践1、统一的数据识别框架 如上文所说,已有的数据识别方案需要根据数据的情况,在三种方法选择其一,这在设计上就不够优雅,而且我们很难融合不同信息以提高准确率和召回率。 (需要注意的是,这只是一个方便展示的例子,并非真实的识别逻辑,在落地时,我们还考虑了各种复杂的情况) 例子:识别某列数据中存储了姓名 1)采样的某列数据中,如果2-4个汉字组成的字符串达到了一定比例 我们做到了设置100个标识识别逻辑,只使用一台4核8G的普通机器的情况下,对触发识别逻辑的列,平均在200-300ms 内完成识别。 特别声明:本文中介绍的结构化敏感数据识别、数据库命名方式理解方法均已申请专利保护,分类分级平台已经申请软著。

    1.4K21编辑于 2023-11-01
  • 来自专栏全栈程序员必看

    什么叫结构化数据结构化数据和非结构化数据(xml是非结构化数据)

    计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据结构化数据 结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。 非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据更难让计算机理解。 半结构化数据结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。

    4.2K20编辑于 2022-08-01
  • 来自专栏大语言模型

    RAG到DeepResearch技术路线实践

    同时也能明显感受到仅仅靠RAG技术已经完全满足不了用户的需求了,本文就介绍 从RAG到DeepResearch,我们的技术实践之旅。 话不多说,先上技术路线图: 1. 每一次版本发布、每一次用户反馈,都是完善数据与算法的契机。 RAG 技术的接入,不仅是让企业“用上 AI”,更是让企业开始数据统一化治理、知识结构化重塑的起点。 同时,RAG 本身也在实践中不断迭代优化——在更多场景下变得更稳、更聪明,也能更灵活地支撑不同业务需求。 2. 文档解析的结构化效果,决定了后续的切片,检索和回复质量。 从实践经验来看,并不存在绝对正确的方案。不同业务的数据分布、延迟要求、算力预算都不同,需要按场景选择最优架构。 在完成版面分析后,下一步是对文档中的图片进行理解与处理。

    67096编辑于 2025-12-05
  • 来自专栏NLP/KG

    Prompt进阶系列4:LangGPT(构建高性能Prompt实践指南)--结构化Prompt

    Prompt进阶系列4:LangGPT(构建高性能Prompt实践指南)–结构化Prompt 1.结构化 Prompt简介 结构化的思想很普遍,结构化内容也很普遍,我们日常写作的文章,看到的书籍都在使用标题 尤其是使用 json, yaml 这类成熟的数据结构,对 prompt 进行工程化开发特别友好。 数据接口如何定义呢?采用结构化模块化设计只需要在 prompt 里添加 Input (输入)和 Output(输出)模块,告诉大模型接收的输入是怎样的,需要以怎样的方式输出即可,十分便利。 从实践来看,GPT-4 是最佳选择, Claude 模型能力次之, GPT-3.5 勉强可用。 依据笔者实践和身边朋友使用的反馈来看,在 GPT-4 和 Claude 模型上的表现情况都不错, GPT-3.5 则存在表现不稳定现象。

    1.6K11编辑于 2024-03-23
  • 来自专栏腾讯社交用户体验设计

    设计结构化实践手册(一)

    听起来结构化实践好像挺香的,那是不是马上落地搞起。 图4-信息处理过程简述 结构化思维是什么? 那回过头来看结构化思维,其实就是数据和信息收集充分后,先不去抠他们的细节,反而先以他们之间的结构和逻辑关系作为对象,然后进行归纳和推演的思考方法。 图4-结构化实践案例 “斗地主”卡片分类法 再回归到我们设计当中,虽然抽象派设计师和组件化设计师仍在分庭抗礼,但我们把抽象又凌乱的设计稿重构成组件的过程,其实也是在原稿的信息基础上提取色彩、字体等样式共性 图5-结构化实践案例 -设计组件化 看完这两个例子是不是觉得结构化有手就会呢? STEP 4+5 验证因素真伪及优先级 第四、五步,一般情况下是结合着处理的,也就是验证因素是否成立和明确它们的优先级,验证成立性基本上要依赖两种数据,定量数据和定性数据;定量数据可以透过产品埋点、

    94320编辑于 2023-05-10
  • 来自专栏大数据和云计算技术

    数据时代的结构化存储-HBase的应用实践

    概述 HBase是一个开源的非关系型分布式数据库(NoSQL),基于谷歌的BigTable建模,是一个高可靠性、高性能、高伸缩的分布式存储系统,使用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 HBase的能力特点,可以简单概括为下表,基于这些能力,其被广泛应用于海量结构化数据在线访问、大数据实时计算、大对象存储等领域 ? 面对如此规模的业务体量,阿里巴巴团队对于如何基于HBase打造稳定、高效、易用的存储服务,形成了一套完善的产品体系与实践经验,其整体大图如下: ? 在过去实践的一些场景,发现这种环状链路不得不存在,所以系统层面,我们也对Replication做了相关优化,以去除这种写入放大。 此时需要解决数据去重的问题:HExporter在收到数据包时,会检查数据包的标记,这个标记表示了数据是否来自于最源端(客户端写入的集群),如果不是则直接抛弃这个数据包。

    1.7K21发布于 2019-09-24
  • 来自专栏自然语言处理

    RAG最新研究】优化RAG系统的最佳实践与深度解析

    实验设置: 论文详细描述了实验的设置,包括使用的数据集(TruthfulQA和MMLU)、知识库(Wikipedia Vital Articles)、评估指标(如ROUGE、余弦相似度、MAUVE、FActScore 实验和结果分析: 论文在两个数据集上进行了广泛的实验,评估了不同RAG变体的性能,并进行了相关性评估、事实性评估和定性分析。 评估了九个研究问题对RAG系统性能的影响。 事实性评估: 使用FActScore指标评估了RAG变体在TruthfulQA和MMLU数据集上的事实性表现。 对比了有无RAG模块的模型(w/o_RAG)与包含RAG模块的模型之间的事实性表现。 定性分析: 提供了在TruthfulQA和MMLU数据集上由模型变体生成的示例。 展示了所提出的模块如何通过专门的检索技术显著提高RAG系统的性能。 具体实验设置: 数据集:使用了TruthfulQA和MMLU两个公开数据集。

    1K10编辑于 2025-01-16
  • 来自专栏海天一树

    结构化、半结构化和非结构化数据

    一、结构化数据 结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。 二、半结构化数据结构化数据结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。 所以,半结构化数据的扩展性是很好的。 三、非结构化数据结构化数据数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。 非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。 基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。 非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。

    24.3K44发布于 2018-10-08
  • 来自专栏腾讯云TVP

    RAG 到 KAG :结构化思考范式下的复杂推理

    KAG 模型框架 KAG知识索引:自动化知识构建 在实际应用中,借助大模型的能力,我们可以实现知识的自动化构建,这一过程不仅包括开放信息抽取,还涵盖从业务系统中获取的结构化数据。 关键在于实现双向校验与互补:一方面,数据库或大数据体系中的结构化知识虽然较为精准,但往往缺乏上下文信息;另一方面,非结构化文本虽然富含上下文,但容易产生噪声。 这样一来,我们就能够通过结构化的节点,类似于传统的倒排索引,将知识转换为具有关联关系的图结构。在此基础上,我们将通过 schema 注入来实现与传统图数据库中 key-value 形式的对接。 是否在结构化数据上进行图遍历与子图匹配? 是否在扩展后的文本内容上进行阅读理解与“思考”操作? 这是因为,在生成包含特殊标记(special token)和长思维链的结构化推理路径时,SFT 能够通过大量合成数据并根据行业需求灵活调整模型行为,确保推理过程的准确性和可靠性。

    99010编辑于 2025-08-12
  • 来自专栏AI应用开发实践

    langchain4j 之 Advanced RAG

    langchain4j 中的 Advanced RAG 涉及到诸多策略,今天和大家聊一聊这里涉及到的一些策略。 Retrieval Augmentor 就像 RAG 系统的“中央处理器”,专门负责给用户的问题“加料”——通过调用各种检索渠道(比如数据库、文档库、网络资源),把找到的相关知识片段“贴”到原始问题里, 数据库进行交互。 with LangChain4j?") with LangChain4j?")

    17510编辑于 2026-03-26
  • 来自专栏掘金安东尼

    RAG+内容推荐,应该如何实践

    最近业务有需求:结合RAG+内容推荐,针对实践部分,做一点探究。 话不多说,直接开冲! 背景 首先回顾一下 RAG 技术定义,它可以结合信息检索和生成模型的混合。 简单来说,RAG = 预训练的语言模型 + 信息检索系统,使模型能够在生成自然语言时引入外部知识,从而提高生成内容的准确性和多样性。 检索模型用于从一个大规模知识库中检索相关文档。 基于这样的背景,这种技术在内容推荐、问答系统和自动摘要等领域有着广泛的应用,它能克服纯生成模型对训练数据依赖过大的缺点。 本文将介绍RAG的基本原理,并结合内容推荐机制进行实践演示,包括代码示例。 实践示例 首先就是安装必要的库: pip install transformers faiss-cpu 这里,假设我们有一个包含文档的知识库,以及用户的历史行为记录: documents = [ recommendations = recommend_content(user_history) for rec in recommendations: print(rec) 小结 本文提供了一个简单的实践示例

    85810编辑于 2024-07-18
  • 来自专栏码匠的流水账

    聊聊langchain4j的RAG

    目前langchain4j以向量搜索为主(例如通过Qdrant等向量数据库构建高效检索系统),后续会扩展支持全文搜索及混合搜索(目前Azure AI Search支持,详细见AzureAiSearchContentRetriever 对于向量搜索,通常包括:清理文档:去除噪音数据,统一格式使用额外数据及元数据增强:增加文档来源、时间戳、作者等辅助信息分块:将长文档分割为更小的语义单元,以适配嵌入模型的上下文窗口限制向量化:使用嵌入模型将文本块转换为向量向量存储 :存储到向量数据库索引阶段通常是离线进行的,这意味着不需要终端用户等待其完成。 Advanced RAG通过引入更高级的技术(如语义分块、查询扩展与压缩、元数据过滤等)来提高检索质量和生成答案的相关性。 LangChain4j 提供了三种RAG(Retrieval-Augmented Generation,检索增强生成)的实现方式:Easy RAG、Naive RAG、Advanced RAG

    83510编辑于 2025-03-17
  • 来自专栏小徐学爬虫

    结构化文本到结构化数据

    将非结构化文本转换为结构化数据是一项常见且重要的任务,特别是在数据分析、自然语言处理和机器学习领域。以下是一些方法和工具,可以帮助大家从非结构化文本中提取有用的结构化数据。 1、问题背景文本数据在我们的日常生活中无处不在,如何将这些文本数据转换为结构化数据是非常有用的,它可以帮助我们更好地管理和利用这些数据。 然而,将非结构化文本转换为结构化数据是一项具有挑战性的任务,因为非结构化文本通常是杂乱无章且不规则的。2、解决方案将非结构化文本转换为结构化数据的解决方案之一是使用自然语言处理(NLP)技术。 对词组进行词性标注tagged = nltk.pos_tag(tokens)​# 4. 不同的方法适用于不同类型的非结构化文本和不同的需求,我们可以根据具体的需求和数据选择合适的方法或组合多种方法来实现从非结构化文本到结构化数据的转换。

    1.2K10编辑于 2024-07-11
  • 来自专栏大数据技术博文

    Python最佳实践指南-结构化工程

    这里说的简单,指的是结构化过程没有太多约束限制而且模块导入功能容易掌握。 因而您只剩下架构性的工作,包括设计、实现项目各个模块,并整理清他们之间 的交互关系。 容易结构化的项目同样意味着它的结构化容易做得糟糕。 抽象层允许将代码分为 不同部分,每个部分包含相关的数据与功能。 例如在项目中,一层控制用户操作相关接口,另一层处理底层数据操作。 如 果函数保存或删除全局变量或持久层中数据,这种行为称为副作用。 my_list = [1, 2, 3]my_list[0] = 4print my_list # [4, 2, 3] <- 原列表改变了x = 6x = x + 1 # x 变量是一个新的变量 这种差异导致的一个后果就是

    96741编辑于 2022-04-18
领券