首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏蛋先生说识

    RAG 切片利器 LumberChunker 是如何智能地把文档切割成 LLM 爱吃的块

    现在大模型越来越强大,完全可以借助它们的能力,比如 LumberChunker丹尼尔:LumberChunker?蛋先生:这个名字起得非常有意思。"Lumber"是指经过精细加工的木材。 蛋先生:我们直接来走一遍切块流程,相信聪明的你一下就懂了LumberChunker 的切块流程✎ 第一步,自然拆分蛋先生:咱们先把文章按自然段落拆开,比如用空行或缩进作为分界。 这样看上去每个相关的块基本都可以在一起,不会被硬拆开蛋先生:没错,有了高质量的分块,RAG 系统在检索相关信息时会更准确,因为每个块都是语义完整的单元,不会因为分块不当导致信息丢失或混乱丹尼尔:看来 LumberChunker 写在最后若已看完上述对话,可通过下图进一步加深对 LumberChunker 的理解“亲们,都到这了,要不,点赞或收藏或关注支持下我呗 o( ̄▽ ̄)d”

    36510编辑于 2025-10-27
  • 来自专栏自然语言处理

    RAG文档分块新思路:LGMGC如何提升文档分块的语义连贯性?

    LumberChunker:自动识别最佳分割点,通过迭代地将段落输入到LLM中。 此外,还包括Paragraph-Level Chunker和LumberChunker作为检索任务的进一步基线比较。

    77310编辑于 2025-01-24
领券