搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏山行AI
LangChain 系列教程之文本分割器
声明本文翻译整理自：Learn how to use text splitters in LangChain[21]，感兴趣的请点赞、收藏。另外，大家也可以到官方文档[22]上了解更多内容。 [2] LangChain中的文本分割器是什么: https://soosweb3.hashnode.dev/the-ultimate-langchain-series-text-splitters# #heading-code-splitters [8] 结论: https://soosweb3.hashnode.dev/the-ultimate-langchain-series-text-splitters /examples/nltk.html [21] Learn how to use text splitters in LangChain: https://soosweb3.hashnode.dev/ /document_transformers/text_splitters/recursive_text_splitter
10.3K20编辑于 2023-08-10
来自专栏自然语言处理
【RAG入门教程04】Langchian的文档切分
文本分割器集成 Text Splitters 文本分割器专门用于将文本文档分割成更小、更易于管理的单元。理想情况下，这些块应该是句子或段落，以便理解文本中的上下文和关系。 MarkdownHeaderTextSplitter RecursiveJsonSplitter Split Cod CharacterTextSplitter from langchain_text_splitters from langchain_text_splitters import TokenTextSplitter text_splitter = TokenTextSplitter(chunk_size= from langchain_text_splitters import SpacyTextSplitter text_splitter = SpacyTextSplitter(chunk_size= from langchain_text_splitters import HTMLHeaderTextSplitter html_string = """ <!
1.3K10编辑于 2024-06-10
来自专栏生信修炼手册
使用lumpy进行CNV检测
view -h sample.bam \ | scripts/extractSplitReads_BwaMem -i stdin \ | samtools view -Sb - \ > sample.splitters.unsorted.bam 进行排序，用法如下 samtools sort \ sample.discordants.unsorted.bam \ sample.discordants samtools sort \ sample.splitters.unsorted.bam \ sample.splitters 5. run lumpy lumpyexpress是lumpy的一个封装脚本，使用起来更加方便，基本用法如下 lumpyexpress \ -B sample.bam \ -S sample.splitters.bam \ -D sample.discordants.bam \ -o sample.vcf 6. genotype 检测到的CNV, 可以用svtyper 这个软件预测在样本中的分型结果，用法如下 svtyper \ -B sample.bam \ -S sample.splitters.bam \ -i sample.vcf > sample.gt.vcf
3.1K20发布于 2019-12-19
大模型结合知识库问答应用第一次实践（上）
1.8.0lark==1.1.9modelscope==1.13.1torch==2.2.1transformers==4.38.2分隔markdown文档def split_markdown(docs_path, splitters # 设置markdown文档的一级标题分隔 markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=splitters ://IP' database_port = 6333 database_api_key = 'XXXX' collection_name = '自己定义的集合名称' splitters path = r"D:\docs" # 文档文件夹 model_path = r"D:\model" # 向量化模型的文件夹 docs = split_markdown(path, splitters
68020编辑于 2024-09-10
来自专栏Unity3d程序开发
unity3d：csv读取数据，兼容单元格中包含逗号
CSVReader { private static readonly string splitter = "[liyu]"; private static readonly string[] splitters csv.lines.RemoveAt(0); return csv; } public static string[] ParseLine(string line) { return line.Split(splitters line.Append(c); } 2.判断到字符,作用是分隔符，用个字符串替"[liyu]"换它，解析时用这个特定字符Split切割，这样兼容单元格中包含逗号 line.Split(splitters
74520编辑于 2023-08-24
零基础学AI大模型之LangChain文本分割器实战：CharacterTextSplitter与RecursiveCharacterTextSplitter全解析
# 注意：LangChain v0.1.10+ 推荐从 langchain_text_splitters 导入 from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_text_splitters import RecursiveCharacterTextSplitter # 模拟学术论文文本 paper_text = """ 引言机器学习近年来取得突破性进展（无分割，无重叠）原因2：递归分割优先保证块大小当无法找到合适的分隔符时，递归分割器会强制按字符硬分割，此时重叠仍会生效，但可能不明显： from langchain_text_splitters 末尾的“个块但是因为没有分隔”与块2开头重叠10字符）原因3：分隔符强制分割导致无法重叠当分隔符切割后的文本块正好等于chunk_size时，无法形成重叠： from langchain_text_splitters 6.3 结构化文档分割（如Markdown、HTML）参数建议：使用MarkdownHeaderTextSplitter按标题层级分割，保留元数据；实战代码： from langchain_text_splitters
57110编辑于 2025-12-22
来自专栏云云众生s
LangChain和Gemini打造问答应用
langchain.prompts import PromptTemplate from langchain_community.document_loaders import PyPDFLoader langchain_text_splitters import PromptTemplate from langchain_community.document_loaders import PyPDFLoader from langchain_text_splitters
41310编辑于 2024-03-28
MinerU LangChain 集成深度指南：一行代码搞定 PDF 到 RAG
Pipeline 示例Flash 模式 + RAG（免 Token，适合快速原型）from langchain\_mineru import MinerULoaderfrom langchain\_text\_splitters )Precision 模式 + RAG（生产环境推荐）import osfrom langchain\_mineru import MinerULoaderfrom langchain\_text\_splitters
17910编辑于 2026-04-16
来自专栏架构进阶
大模型RAG：文档分块方案与RAG全流程
from langchain_text_splitters import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter from langchain_text_splitters import HTMLHeaderTextSplitter# 这里定义一段HTML网页内容代码html_string = """<!
2K23编辑于 2025-02-28
来自专栏CoderJia的工作笔记
一百行代码实现自己的RAG知识库
load_dotenv, find_dotenv from langchain_community.document_loaders import TextLoader from langchain_text_splitters fastapi==0.112.1 langchain==0.2.14 langchain_community==0.2.12 langchain_openai==0.1.22 langchain_text_splitters
1K10编辑于 2024-10-18
零基础学AI大模型之RAG系统链路构建：文档切割转换全解析
核心组件：TextSplitter抽象类所有文档切割逻辑都基于langchain_text_splitters.TextSplitter抽象类实现——它定义了分块的核心接口，但不直接实现分割逻辑，需通过子类先看核心源码结构（关键参数带场景解读）： from langchain_text_splitters import TextSplitter from abc import ABC, abstractmethod 实战案例：分割产品手册文本 from langchain_text_splitters import RecursiveCharacterTextSplitter # 加载后的产品手册文本（假设已用PyPDFLoader
31910编辑于 2025-12-22
来自专栏硅光技术分享
硅基光波导(续)
., "Small radius bends and large angle splitters in SOI waveguides", SPIE 1997 W.
3.4K20发布于 2020-08-13
来自专栏生信修炼手册
SpeedSeq:快速的基因组数据分析软件
sv 该模块用于检测结构变异，用法如下 speedseq sv \ -o sample \ -B sample.bam \ -D sample.discordants.bam \ -S sample.splitters.bam
2.3K20发布于 2019-12-19
光网络ROADM的R&S架构和B&S架构
多个 WSS 和功率分配器(splitters)相结合，可以设计出两种主要 ROADM 架构：ROADM R&S和ROADM B&S。 R&S ROADM 架构：WSS 放置在输入光纤和输出光纤上。
69910编辑于 2024-04-09
来自专栏Reinvent Data Science
在 LangChain 尝试了 N 种可能后，我发现了分块的奥义！
def test_langchain_chunking(docs_path, splitters, chunk_size, chunk_overlap, drop_collection=True): section headers in our page markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=splitters
1.6K40编辑于 2023-11-09
Langchain 和 RAG 最佳实践
LLMs）聊天模型（Chat Models）文本嵌入模型（Text Embedding Models）索引（Indexes）文档加载器（Document Loaders）文本分割器（Text Splitters page_content[:500]) # 也可以使用json进行后处理 # import json # convert_to_json = json.loads(pages[0].page_content) 分割器（Splitters AttributeInfo( name="source", description="文档片段的来源，应为`docs/loaders.pdf`、`docs/text_splitters.pdf
94800编辑于 2025-06-06
来自专栏新智元
【快报】潘建伟团队实现“十量子纠缠”| Alphabet 预建立无人机运货在线市场
由中国科学技术大学合肥潘建伟领导的研究团队，通过将五个光子对穿过四个偏振分束器运行（running five photon pairs through a series of four polarizing beam splitters
1.1K80发布于 2018-03-26
来自专栏硅光技术分享
光芯片中的adiabatic型结构
., "Polarization rotator-splitters in standard active silicon photonic platform", Opt.
5.3K61发布于 2020-08-13
来自专栏机器之心
轻松构建聊天机器人、准确性新SOTA，RAG有了更强大的AI检索器
from langchain_community.document_loaders import TextLoader from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.document_loaders import TextLoader from langchain_text_splitters import RecursiveCharacterTextSplitter
54410编辑于 2024-06-17
Denser Retriever: 企业级AI检索器,轻松构建RAG应用和聊天机器人（完全开源）
from langchain_community.document_loaders import TextLoaderfrom langchain_text_splitters import RecursiveCharacterTextSplitterfrom from langchain_community.document_loaders import TextLoaderfrom langchain_text_splitters import RecursiveCharacterTextSplitterfrom
57510编辑于 2024-08-04

第 2 页第 3 页第 4 页

点击加载更多

LangChain 系列教程之文本分割器

【RAG入门教程04】Langchian的文档切分

使用lumpy进行CNV检测

大模型结合知识库问答应用第一次实践（上）

unity3d：csv读取数据，兼容单元格中包含逗号

零基础学AI大模型之LangChain文本分割器实战：CharacterTextSplitter与RecursiveCharacterTextSplitter全解析

LangChain和Gemini打造问答应用

MinerU LangChain 集成深度指南：一行代码搞定 PDF 到 RAG

大模型RAG：文档分块方案与RAG全流程

一百行代码实现自己的RAG知识库

零基础学AI大模型之RAG系统链路构建：文档切割转换全解析

硅基光波导(续)

SpeedSeq:快速的基因组数据分析软件

光网络ROADM的R&S架构和B&S架构

在 LangChain 尝试了 N 种可能后，我发现了分块的奥义！

Langchain 和 RAG 最佳实践

【快报】潘建伟团队实现“十量子纠缠”| Alphabet 预建立无人机运货在线市场

光芯片中的adiabatic型结构

轻松构建聊天机器人、准确性新SOTA，RAG有了更强大的AI检索器

Denser Retriever: 企业级AI检索器,轻松构建RAG应用和聊天机器人（完全开源）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LangChain 系列教程之 文本分割器

【RAG入门教程04】Langchian的文档切分

使用lumpy进行CNV检测

大模型结合知识库问答应用第一次实践（上）

unity3d：csv读取数据，兼容单元格中包含逗号

零基础学AI大模型之LangChain文本分割器实战：CharacterTextSplitter与RecursiveCharacterTextSplitter全解析

LangChain和Gemini打造问答应用

MinerU LangChain 集成深度指南：一行代码搞定 PDF 到 RAG

大模型RAG：文档分块方案与RAG全流程

一百行代码实现自己的RAG知识库

零基础学AI大模型之RAG系统链路构建：文档切割转换全解析

硅基光波导(续)

SpeedSeq:快速的基因组数据分析软件

光网络ROADM的R&S架构和B&S架构

在 LangChain 尝试了 N 种可能后，我发现了分块的奥义！

Langchain 和 RAG 最佳实践

【快报】潘建伟团队实现“十量子纠缠”| Alphabet 预建立无人机运货在线市场

光芯片中的adiabatic型结构

轻松构建聊天机器人、准确性新SOTA，RAG有了更强大的AI检索器

Denser Retriever: 企业级AI检索器,轻松构建RAG应用和聊天机器人（完全开源）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LangChain 系列教程之文本分割器