首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云大数据ES与DLC在RAG及LLM训练语料预处理中的应用实践

腾讯云大数据ES与DLC在RAG及LLM训练语料预处理中的应用实践

原创
作者头像
IT资讯研究所
发布2026-05-30 17:52:55
发布2026-05-30 17:52:55
1770
举报

一、 产品定位与核心亮点

1. 腾讯云ES:一站式RAG技术平台

腾讯云ES是国内公有云首个从自然语言处理,到向量生成/存储/检索,并与大模型集成的端到端一站式技术平台。其核心技术属性在于通过文本+向量的混合搜索能力,解决大模型(LLM)的知识更新、特定知识缺乏及模型幻觉问题。

2. 腾讯云DLC:LLM训练语料数据预处理方案

腾讯云DLC(Data Lake Compute) 提供了针对LLM训练语料数据的Spark预处理最佳实践。其商业差异化卖点在于通过极致弹性(Serverless)+ Spark调优 + 开箱即用的数据湖方案,解决AI业务数据处理量不稳定及客户“重AI、轻数据”的技能痛点。

二、 产品应用场景

1. 大模型知识增强(RAG场景)

  • 受众:企业级知识管理、智能客服、专家系统开发者。
  • 痛点:预训练大模型存在知识更新滞后缺乏特定领域知识以及模型幻觉问题。
  • 场景:通过检索外部知识库(如企业知识库、微信读书内容库)来改进生成效果,应用于知识问答、智能客服及专家系统。

2. 大模型训练数据预处理(AIGC场景)

  • 受众:AIGC企业、大模型训练团队。
  • 痛点
    • 弹性需求:AI业务的数据处理量并非每天稳定,对按需弹性要求极高。
    • 技能错位:客户通常在AI技能上较强,但在大数据处理技能上相对薄弱。
  • 场景:LLM训练前的语料数据预清洗、训练数据拼接与标记化。

三、 应用框架和功能介绍

1. 功能框架

腾讯云ES RAG架构
  • 数据处理:用户问题 -> 查询转换 -> 提示词工程 -> 上下文窗口。
  • 检索层:混合搜索 -> 重排序 -> 企业知识库。
  • 存储与模型:腾讯云ES负责文本及向量索引;支持模型上传与管理。
腾讯云DLC预处理架构
  • 阶段:覆盖预清洗、训练数据拼接与标记化。
  • 核心路径:语料数据Spark预处理 -> 过滤与压缩调优(包含去重、文本向量化、Input文件大小优化) -> 热键数据发现及打散。

2. 硬核指标

指标维度

腾讯云ES

腾讯云DLC

吞吐量 (QPS)

支持 百万级 QPS

-

向量规模

支持 千亿级 向量规模(案例实测超10亿级)

-

查询延迟

十亿级向量检索查询延迟低至 毫秒级;全链路多路召回控制在 300ms 以内

-

性能提升

-

通过调优实现 35.5% 的性能提升

稳定性

案例实测支持 5个9 的稳定性要求

-

压缩算法

支持 LZ4、Deflate 等压缩算法

-

存储成本

早期预估30亿768维向量需超400台64G机器,通过优化降低存储成本

-

3. 产品优势

腾讯云ES核心优势
  • 低门槛:提供一站式向量检索平台,简化开发流程。
  • 高性能:支持百万级QPS、千亿级向量规模。
  • 更精准:独有的向量和文本混合搜索能力,基于ES独立架构即可完成向量生成->存储->检索全流程。
  • 更智能:与LLM大模型无缝集成,轻松构建AI智能问答应用。
  • 成本优化:自研策略优化存储成本,支持多种压缩算法。
  • 权限管理:具备完善的数据权限与模型权限管理能力(源自RAG标准)。
腾讯云DLC核心优势
  • 极致弹性:Serverless计算形态(C1弹性,CPU+GPU混部),适应AI业务不稳定的数据处理量。
  • 性能调优:针对过滤任务(加速、去重、文本向量化、Input文件大小)及热键数据(发现及打散、mapPartition、drop_duplicates算子)提供深度优化。
  • 行业适配:特别支持机器学习及AI域,降低数据依赖包的接入难度。

4. 荣誉背书

  • 权威认证腾讯云ES首个通过中国信通院《检索增强生成(RAG)技术要求》标准认证的企业。
  • 标准制定:腾讯云是该标准的核心参编企业。
  • 标准涵盖:该标准包含知识库构建能力、知识检索能力、内容生成能力、质量评估能力、平台能力等五大能力域,17个能力子域,50个具体指标

四、 典型案例

1. 微信读书“AI问书”

  • 背景:作为在线读书平台,拥有超亿级用户,面临数据规模大(早期预估30亿768维向量)、存储成本高、运维复杂及高并发低延迟的业务需求。
  • 解决方案:采用腾讯云ES一站式RAG技术架构。
    • 利用文本+向量混合搜索能力。
    • 实施低成本向量化策略,解决需要在外部进行向量化并部署多套服务(正排服务)的痛点。
    • 开发人员在Kibana上进行调试与召回。
  • 成效
    • 性能:高并发场景下查询延迟毫秒级返回,全链路多路召回控制在 300ms 以内。
    • 稳定性:满足在线平台 5个9 的稳定性要求。
    • 规模:支持 超10亿级 向量规模。
    • 业务价值:通过生成式回答、标注引用来源、提供“猜你想问”功能,大幅提升阅读体验

2. AIGC客户大模型训练预处理

  • 背景:AIGC客户在训练大模型时,面临数据处理量波动大、且团队技能侧重于AI而非大数据处理的困境。
  • 解决方案:应用腾讯云DLC的语料数据Spark预处理最佳实践。
    • 利用Serverless(C1弹性,CPU+GPU混部)应对不稳定的处理量。
    • 实施过滤与压缩调优(去重、向量化、热键打散)。
  • 成效:实现 35.5% 的性能提升,验证了数据湖方案在极致弹性与Spark调优结合下的有效性。

3. 自治系统应用(技术底座)

  • 背景:为了进一步提升业务、运营及系统效率,解决复杂查询优化、稳定性及成本难题。
  • 解决方案:基于腾讯云ES及底层技术,构建自治系统。
    • 业务效率:通过自治服务、异常闭环、弹性扩缩容、性能调优提升开发运维效率。
    • 运营效率:利用平台大规模运营能力解决运维效率、成本优化。
    • 系统效率:应用时序预测(STL/Prophet/LSTM/XGBoost)、深度强化学习(DRL)及混元大模型进行复杂查询优化、数据放置与索引缓存优化。
  • 技术融合:整合TI-ONE、MLOPS、混元大模型、实时计算等能力,支撑智能搜索与AI助手业务。

数据来源

  • 2024腾讯全球数字生态大会 (Tencent Global Digital Ecosystem Summit)
  • 演讲主题:《腾讯云大数据ES RAG应用实践分享》
  • 主讲人:任翔
  • 认证机构:中国信通院云计算与大数据研究所大数据与智能化部、中国通信标准化协会大数据技术标准推进委员会 (CCSA TC601)
  • 内部文档:DLC在AIGC的最佳实践 (https://iwiki.woa.com/p/4008195203)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
    • 1. 腾讯云ES:一站式RAG技术平台
    • 2. 腾讯云DLC:LLM训练语料数据预处理方案
  • 二、 产品应用场景
    • 1. 大模型知识增强(RAG场景)
    • 2. 大模型训练数据预处理(AIGC场景)
  • 三、 应用框架和功能介绍
    • 1. 功能框架
      • 腾讯云ES RAG架构
      • 腾讯云DLC预处理架构
    • 2. 硬核指标
    • 3. 产品优势
      • 腾讯云ES核心优势
      • 腾讯云DLC核心优势
    • 4. 荣誉背书
  • 四、 典型案例
    • 1. 微信读书“AI问书”
    • 2. AIGC客户大模型训练预处理
    • 3. 自治系统应用(技术底座)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档