首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI 大模型企业应用实战(09)-LangChain的示例选择器

AI 大模型企业应用实战(09)-LangChain的示例选择器

作者头像
JavaEdge
修改2026-04-24 17:52:18
修改2026-04-24 17:52:18
3240
举报
文章被收录于专栏:AIGC大模型应用AIGC大模型应用

本文已收录在Github关注我,紧跟本系列专栏文章,咱们下篇再续!

1 根据长度动态选择提示词示例组

1.1 案例

根据输入的提示词长度综合计算最终长度,智能截取或者添加提示词的示例。

代码语言:python
复制
from langchain.prompts import PromptTemplate
from langchain.prompts import FewShotPromptTemplate
from langchain.prompts.example_selector import LengthBasedExampleSelector

# 已有的提示词示例组
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
    {"input": "高兴", "output": "悲伤"}
]

# 构造提示词模板
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="原词:{input}\n反义:{output}"
)

# 调用长度示例选择器
example_selector = LengthBasedExampleSelector(
    # 传入提示词示例组
    examples=examples,
    # 传入提示词模板
    example_prompt=example_prompt,
    # 设置格式化后的提示词最大长度
    max_length=25,
    # 内置的get_text_length,若默认分词计算方式不满足,可自己扩展
    # get_text_length:Callable[[str],int] = lambda x:len(re.split("\n| ",x))
)

# 使用小样本提示词模版来实现动态示例的调用
dynamic_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="给出每个输入词的反义词",
    suffix="原词:{adjective}\n反义:",
    input_variables=["adjective"]
)
代码语言:python
复制
# 小样本获得所有示例
print(dynamic_prompt.format(adjective="big"))

给出每个输入词的反义词

原词:happy
反义:sad

原词:tall
反义:short

原词:sunny
反义:gloomy

原词:windy
反义:calm

原词:高兴
反义:悲伤

原词:big
反义:
代码语言:python
复制
# 若输入长度很长,则最终输出会根据长度要求减少
long_string = "big and huge adn massive and large and gigantic and tall and much much much much much much bigger then everyone"
print(dynamic_prompt.format(adjective=long_string))

给出每个输入词的反义词

原词:happy
反义:sad

原词:tall
反义:short

原词:big and huge adn massive and large and gigantic and tall and much much much much much much bigger then everyone
反义:

2 MMR与最大余弦相似度

信息检索中常用的方法,在相关性和多样性之间找到一个平衡。

2.1 工作流程

  • MMR先找出与输入最相似(即余弦相似度最大)的样本
  • 然后在迭代添加样本的过程,对于和已选样本过于接近(即相似度过高)的样本进行惩罚

MMR既能确保选出样本与输入高度相关,又能保证选出的样本之间有足够多样性。

2.2 示例

使用MMR来检索相关示例,以使示例尽量符合输入:

代码语言:python
复制
from langchain.prompts.example_selector import MaxMarginalRelevanceExampleSelector

# LangChain 内置的向量数据库
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.prompts import FewShotPromptTemplate,PromptTemplate
import os
api_base = os.getenv("OPENAI_PROXY")
api_key = os.getenv("OPENAI_API_KEY")

# 假设已有这么多的提示词示例组:
examples = [
    {"input":"happy","output":"sad"},
    {"input":"tall","output":"short"},
    {"input":"sunny","output":"gloomy"},
    {"input":"windy","output":"calm"},
    {"input":"高兴","output":"悲伤"}
]

#构造提示词模版
example_prompt = PromptTemplate(
    input_variables=["input","output"],
    template="原词:{input}\n反义:{output}"
)
代码语言:python
复制
! pip install tiktoken
! pip install faiss-cpu

2.3 根据输入相似度选择示例

最大余弦相似度,常见的相似度计算方法。计算两个向量(在这里,向量可以代表文本、句子或词语)之间的余弦值来衡量它们的相似度。余弦值越接近1,表示两个向量越相似。主要关注的是如何准确衡量两个向量的相似度。

代码语言:python
复制
# 使用最大余弦相似度来检索相关示例,以使示例尽量符合输入
example_prompt = PromptTemplate(
    input_variables=["input", "output"],
    template="原词: {input}\n反义: {output}",
)

# Examples of a pretend task of creating antonyms.
examples = [
    {"input": "happy", "output": "sad"},
    {"input": "tall", "output": "short"},
    {"input": "energetic", "output": "lethargic"},
    {"input": "sunny", "output": "gloomy"},
    {"input": "windy", "output": "calm"},
]
SemanticSimilarityExampleSelector

LangChain用于基于语义相似度动态选择示例的类。属于示例选择器(Example Selector)的一种,计算输入与预定义示例之间的语义相似度,智能选择最相关的示例注入到提示词。

核心原理:用向量嵌入(Embeddings)将文本转换为高维向量,再计算输入向量与示例向量之间的相似度(通常用余弦相似度)。相似度最高的示例会被优先选中,确保注入到提示词中的示例与当前输入最相关,从而提高语言模型的理解能力和生成质量。

常与向量数据库(如 FAISS、Chroma、Pinecone 等)协作。它会将所有示例的嵌入向量存储在这些向量数据库中,当需选择示例时,就查询数据库并返回相似度最高的 k 个示例。这比基于文本长度或随机选择更加智能和高效。

from_examples() 类方法创建实例。参数:示例列表、嵌入模型(如本地 Qwen 嵌入模型)以及向量存储类(如 FAISS 或 Chroma)。然后将这个选择器传递给 FewShotPromptTemplate,系统就会在生成提示词时根据输入的语义相似度动态选择最佳示例。

这种方法特别适合需要上下文感知的场景,如问答系统、代码生成、文本补全等,因为它能确保选中的示例与当前任务高度相关,而不是基于简单的启发式规则。

代码语言:bash
复制
! pip install "chromadb>=0.4.0,<0.6.0"
代码语言:python
复制
example_selector = SemanticSimilarityExampleSelector.from_examples(
    # 传入示例组.
    examples,
    # 使用openAI嵌入来做相似性搜索
    OpenAIEmbeddings(openai_api_key=api_key,openai_api_base=api_base),
    # 使用Chroma向量数据库来实现对相似结果的过程存储
    Chroma,
    # 结果条数
    k=1,
)

#使用小样本提示词模板
similar_prompt = FewShotPromptTemplate(
    # 传入选择器和模板以及前缀后缀和输入变量
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix="给出每个输入词的反义词",
    suffix="原词: {adjective}\n反义:",
    input_variables=["adjective"],
)
代码语言:python
复制
# 输入一个形容感觉的词语,应该查找近似的 happy/sad 示例
print(similar_prompt.format(adjective="worried"))

给出每个输入词的反义词

原词: happy
反义: sad

原词: worried
反义:
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 根据长度动态选择提示词示例组
    • 1.1 案例
  • 2 MMR与最大余弦相似度
    • 2.1 工作流程
    • 2.2 示例
    • 2.3 根据输入相似度选择示例
      • SemanticSimilarityExampleSelector
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档