首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • LLM数学速成:向量与语义空间

    而向量空间则为这些向量提供了运算和结构的舞台,是玩转LLM的基石。正如,DB record不仅仅是元组,它更是业务事实的数字化镜像、系统状态的精确快照。 【问】上例中水果 = [1.0, 0.2, 0.4] 对应 LLM 的 K向量吗?苹果 = [0.8, 0.6, 0.3] 对应 LLM 的 V向量吗?【答】你搞混了。 查询、推理,是两个不同场景当你采用 VectorDB 进行相似度查询(搜索)时:苹果 永远是 [0.8, 0.6, 0.3]当你使用 LLM 做推理(生成)时:LLM(Transformer)里的 K、 语义相似度由夹角决定词向量的语义相似度是通过余弦相似度(即向量夹角的余弦值)来衡量的。当两个词向量夹角越小,余弦值越接近1,表示语义越相似。 降维的数学本质这个过程在数学上可以理解为奇异值分解(SVD)或主成分分析(PCA)。通过矩阵分解,将高维的共现矩阵(如词-文档矩阵或词-词共现矩阵)压缩到低维空间,保留最重要的语义信息。

    25620编辑于 2025-12-31
  • 来自专栏全栈程序员必看

    什么是语义分割_词法分析语法分析语义分析

    且慢,下面举个例子: 假如:宠物店有10只动物,其中6只狗,4只猫(真实值),现有一个模型将这10只动物进行分类,分类结果为(预测结果为):5只狗,5只猫(预测值),对分类结果画出对应混淆矩阵进行分析 (那就对了…) 分析混淆矩阵的3个要点:(参考链接) ①矩阵对角线上的数字,为当前类别预测正确的类别数目;非对角线数字,预测都是错误的! 比如:第2列,模型对猫(类别2)预测了1+4=5只(此时,不看预测对与错),再分析,第2列第1行非对角线元素,预测错误(预测值是猫,实际是狗),第2列第2行为对角元素,预测正确(预测值是猫,实际是猫), 上面分析了一大堆,最终还是不够精炼,于是大佬们定义了几个公式: 准确率(Accuracy),对应:语义分割的像素准确率 PA 公式:Accuracy = (TP + TN) / (TP + TN + ——IoU 语义分割代码阅读—评价指标mIoU的计算 深度学习图像分割评测指标MIOU之python代码详解 语义分割常用指标详解(附代码) 【语义分割】评价指标总结及代码实现 numpy.bincount

    1.8K20编辑于 2022-09-25
  • 词法分析、语法分析语义分析

    语义分析(Syntax analysis)   语义分析是编译过程的一个逻辑阶段. 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查, 进行类型审查.例如一个C程序片断:   int arr[2],b;   b = arr * 10;    源程序的结构是正确的.     语义分析将审查类型并报告错误:不能在表达式中使用一个数组变量,赋值语句的右端和左端的类型不匹配. Lex    一个词法分析程序的自动生成工具。 它接受语言的文法,构造一个LALR(1)分析程序.因为它采用语法制导翻译的思想,还可以接受用C语言描述的语义动作,从而构造一个编译程序. 中间语言(中间表示)(Intermediate language(representation))    在进行了语法分析语义分析阶段的工作之后,有的编译程序将源程序变成一种内部表示形式,这种内部表示形式叫做中间语言或中间表示或中间代码

    58510编辑于 2025-04-05
  • 来自专栏秋枫学习笔记

    ControlRec:对齐LLM和推荐系统之间的语义差异

    应用于推荐领域已经有很多例子了,但是从经典推荐方法向LLM过渡很重要的一个问题是LLM很难有效利用用户和item的ID,主要是因为它们在语义空间中的表征和常规的自然语言不同,因此无法直接使用LLM。 通过这种方式,将ID拆分为不同的子单词,从而让LLM可以将其作为文本进行处理。 HFM当ID和NL特征具有相似的语义时,使它们在语义空间中更紧密地结合在一起,而当它们不相似时,将它们进一步分开(类似度量学习)。 问题是如何来考虑两类表征的相似性呢? 假设具有相似语义的ID和NL特征应该指代相同的目标item。比如,如果系统中耐克t恤的ID为7718,则可以说说ID“item_7718”与描述“类别:t恤。品牌:耐克”匹配,将它们称为正语义对。 ICL对LLM生成的序列进行操作,它需要LLM的生成能力,这在早期训练阶段可能受到限制,。直接用ICL训练模型可能会导致学习过程的低效和不稳定。

    1.8K10编辑于 2023-12-04
  • 来自专栏啄木鸟软件测试

    使用 LLM 为 QA 测试数据实现语义验证

    本文将教你如何使用 Claude AI 和 LangChain 构建一个 Python 语义验证器,自动捕捉这些逻辑不一致的问题。只需 150 行代码,你就能为测试数据验证流程添加一个“常识”层。   基于规则的评估使用预定义标准来判断数据是否满足特定的业务逻辑要求,超越了结构正确性,检查语义有效性。模式验证会问“这是有效的 JSON 吗?” 这些规则可以捕捉模式验证遗漏的语义问题。   TestDataValidator:    def __init__(self, model: str = "claude-3-haiku-20240307"):    self.llm 成本估算:   - 每次验证约 $0.0005   - 验证 1,000 条数据约 $0.5   - 验证 10,000 条数据约 $5  总结   语义验证将测试数据从潜在风险转变为可靠的质量保障基础

    11610编辑于 2026-03-04
  • 来自专栏秋枫学习笔记

    CTRL:对齐协作信号和LLM语义信息进行CTR估计

    导读 传统的CTR预估模型,是将表格型数据转换为ont hot向量,然后考虑特征之间的交互来推断用户的偏好,但是这种方式忽略了特征的语义信息。 现有的LLM推荐方法图P5,M6 Rec考虑了语义信息但是效率低,并且没有考虑有用的协作关系。 首先将原始表格数据转换为文本数据。 表格数据和转换后的文本数据被视为两种不同的模式,并分别输入到协作CTR模型和LLM中。 首先,利用协作模型和语义模型(LLM)对表格数据和文本数据进行编码,以分别获得相应的表征。 使用InfoNCE和batch内负采样,在协作和语义空间下为每个实例对齐表征。

    62510编辑于 2023-12-19
  • 来自专栏AIGC 先锋科技

    LLM-包装 黑盒语义感知视图语言基础模型的适应 !

    作者在Referring Expression Comprehension(REC)任务上证明了LLM-wrapper的有效性,这是一项具有挑战性的开放式词汇任务,需要进行空间和语义推理。 VLMs在生成的检测中表现良好,其中LLM-wrapper可以使用LLM语义和空间推理能力选择最相关的框。 为了获得最佳性能,作者使用高效的LoRA [15]策略微调LLMLLM-wrapper然后将这些推理留给能够处理难以理解的文本 Query ,包括属性、否定和物体的关系或空间描述。作者观察到,在没有进行微调的情况下,LLM就已经能够选择具有地理或语义信息的方块。 作者在第3.1节中介绍实验设置,主要结果在第3.2节中呈现,分析在第3.3节中进行。 这表明在作者微调期间,LLM-wrapper学习了适用于其他模型的空间和语义概念。

    39010编辑于 2024-10-22
  • 来自专栏小白技术社

    关于语义分析的方法(上)

    语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。 本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析语义分析小结。 先讲述文本处理的基本方法,这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。 最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法 1 文本基本处理 在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。 N-Gram语言模型简单有效,但是它只考虑了词的位置关系,没有考虑词之间的相似度,词语法和词语义,并且还存在数据稀疏的问题,所以后来,又逐渐提出更多的语言模型,例如Class-based ngram model

    1.3K10发布于 2020-07-08
  • 来自专栏深度学习和计算机视觉

    PSPNet | 语义分割及场景分析

    语义分割的目标仅仅是获知已知对象的每个像素的类别标签。 场景解析是基于语义分割的,它的目标是获知图像内所有像素的类别标签。

    86810编辑于 2022-09-28
  • 来自专栏数据饕餮

    NLP专题:LSA浅层语义分析

    原文地址:http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析(LSA)是一种自然语言处理中用到的方法,其通过“矢量语义空间”来提取文档与词中的 “概念”,进而分析文档与词之间的关系。 词-文档矩阵和传统的语义模型相比并没有实质上的区别,只是因为传统的语义模型并不是使用“矩阵”这种数学语言来进行描述。 将其映射到语义空间,再与文档进行比较。 应用 低维的语义空间可以用于以下几个方面: 在低维语义空间可对文档进行比较,进而可用于文档聚类和文档分类。 通过查询映射到语义空间,可进行信息检索。 从语义的角度发现词语的相关性,可用于“选择题回答模型”(multi choice qustions answering model)。

    1.9K20发布于 2019-06-14
  • 来自专栏AI科技评论

    PSPNet ——语义分割及场景分析

    语义分割的目标仅仅是获知已知对象的每个像素的类别标签。 场景解析是基于语义分割的,它的目标是获知图像内所有像素的类别标签。

    4.1K20发布于 2019-08-21
  • 来自专栏CSDN社区搬运

    基于BERT的语义分析实现

    BERT作为一种预训练语言模型,它具有很好的兼容性,能够运用在各种下游任务中,本文的主要目的是利用数据集来对BERT进行训练,从而实现一个语义分类的模型。 语义分类 语义分类是自然语言处理任务中的一种,包含文本分类、情感分析 文本分类 文本分类是指给定文本a,将文本分类为n个类别中的一个或多个。 情感分类 情感分析是自然语言处理中常见的场景,比如商品评价等。通过情感分析,可以挖掘产品在各个维度的优劣。情感分类其实也是一种特殊的文本分类,只是他更聚焦于情感匹配词典。 本文将以情感二分类为例,实现如何利用BERT进行语义分析。 实现原理 首先,基于BERT预训练模型,能将一个文本转换成向量,作为模型的输入。

    41210编辑于 2024-11-30
  • 来自专栏AI科技评论

    总结 | 邹炎炎:语义分析介绍及跨语言信息在语义分析中的应用

    近年来,随着人工智能的发展,语义分析也越发重要。 word embedding 是很常见的 input feature,能够很大程度地提升语义分析模型的性能。 然而,对于 output 对语义分析模型性能的影响,大家的关注度却并不是很高。 分享主题:语义分析介绍及跨语言信息在语义分析中的应用 分享提纲: 1.semantic parsing 背景介绍 2.semantic parsing 模型介绍 3. 为了让大家更好地区分语法分析语义分析的不同点,我先介绍一下两种分析的任务: Dependency parsing :比如输入一句话「I saw a girl with a telescope」,Dependency 最后做一下总结,本次我们分享了语义分析的基本背景知识,我们实验室工作中用到的一些语义分析模型、ACL 2018 会议中的短文《跨语言信息在语义分析中的应用》以及语义分析的一些表现。

    1.6K30发布于 2018-10-25
  • 来自专栏云云众生s

    如何使用语义路由器和LLM工具构建AI代理

    在本 AI 代理教程中,我们使用语义路由器来选择从 OpenAI LLM 和其他 AI 工具检索信息的最佳方式。 在上一篇文章中,我介绍了语义路由器: 一种使 AI 代理 能够为正确的任务选择正确的 LLM 的模式,同时还减少了它们对 LLM 的依赖。 在本教程的后续内容中,我们将使用 语义路由器 项目通过选择最佳信息检索方式(例如是否使用向量数据库 和/或基于工具的实时数据检索器)来智能地处理用户查询。 语义路由器采用 OpenAI 的 LLM 和结构化检索方法,并将它们结合起来,创建了一个自适应的、高响应的助手,可以快速处理对话查询和特定于数据的请求。 print(f"LLM Response: {llm_response}\n") 这是将所有内容联系在一起的主要功能。

    50010编辑于 2024-10-13
  • 来自专栏Michael阿明学习之路

    潜在语义分析(Latent Semantic Analysis,LSA)

    一种无监督学习方法,主要用于文本的话题分析 其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系 最初应用于文本信息检索,也被称为潜在语义索引(latent semantic indexing, LSI),在推荐系统、图像处理、生物信息学等领域也有广泛应用 文本信息处理中: 传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度 潜在语义分析 旨在 解决这种方法不能准确表示语义的问题 ,试图从大量的文本数据中发现潜在的话题 以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度 潜在语义分析使用的是非概率的话题分析模型 将文本集合表示为单词-文本矩阵 对单词 非负矩阵分解也可以用于话题分析。 1. 单词向量空间、话题向量空间 1.1 单词向量空间 文本信息处理的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。 潜在语义分析算法 潜在语义分析 利用 矩阵奇异值分解(SVD),对单词-文本矩阵进行奇异值分解 左矩阵 作为话题向量空间 对角矩阵 与 右矩阵的乘积 作为 文本在话题向量空间的表示 潜在语义分析 根据

    3.7K30发布于 2020-07-13
  • 来自专栏机器学习爱好者社区

    语义分割之Dice Loss深度分析

    来自文章VNet(V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation),旨在应对语义分割中正负样本强烈不平衡的场景 sum(predictive) + torch.sum(target) + ep loss = 1 - intersection / union return loss 梯度分析 从dice 因此分析起来比较复杂,这里我们简化一下,首先从loss曲线和求导曲线对单点输出方式分析。然后对于多点输出的情况,利用模拟预测输出来分析其梯度。 多点情况分析 dice loss 是应用于语义分割而不是分类任务,并且是一个区域相关的loss,因此更适合针对多点的情况进行分析。 这点和单点的情况分析不同。这里求偏导,当 时: 可以看出, 背景区域的梯度是存在的,只有预测值命中的区域极小时, 背景梯度才会很小. 「dice loss 为何训练会很不稳定?」

    3.6K30发布于 2020-08-25
  • 来自专栏啄木鸟软件测试

    LLM测试的成本效益分析实战

    成本效益分析(Cost-Benefit Analysis, CBA)本是传统软件测试的基石方法论,但在LLM时代,它正经历范式重构:测试成本不再仅由人力工时和工具License构成;而效益也不再止步于缺陷检出率 本文结合啄木鸟软件测试团队服务12家AI企业的实战经验,拆解LLM测试中可量化、可决策、可复用的成本效益分析框架。 一、LLM测试的‘成本黑洞’:三类常被低估的隐性开销 1. 重建语义边界测试集耗费83人日,而前期若引入在线数据漂移检测(如KS检验+LLM-based anomaly scoring),成本可压缩62%。 3. 例如‘禁止生成具体身份证号’->构建正则+语义混淆双校验规则。某医疗AI公司因此提前规避监管罚款预估380万元,其合规测试投入占总测试预算19%,但贡献了71%的风险对冲效益。 成本效益分析不再是财务部门的Excel表格,而应成为每位测试工程师的思维本能:用‘每千次调用的幻觉发生成本’替代‘每千行代码的缺陷密度’,用‘用户信任折旧率’替代‘测试用例通过率’。

    17610编辑于 2026-03-04
  • 来自专栏登神长阶

    【论文复现】基于BERT的语义分析实现

    BERT作为一种预训练语言模型,它具有很好的兼容性,能够运用在各种下游任务中,本文的主要目的是利用数据集来对BERT进行训练,从而实现一个语义分类的模型。 语义分类 语义分类是自然语言处理任务中的一种,包含文本分类、情感分析 文本分类 文本分类是指给定文本a,将文本分类为n个类别中的一个或多个。 情感分类 情感分析是自然语言处理中常见的场景,比如商品评价等。通过情感分析,可以挖掘产品在各个维度的优劣。情感分类其实也是一种特殊的文本分类,只是他更聚焦于情感匹配词典。 本文将以情感二分类为例,实现如何利用BERT进行语义分析。 实现原理 首先,基于BERT预训练模型,能将一个文本转换成向量,作为模型的输入。

    51310编辑于 2024-12-01
  • 来自专栏代码编写世界

    PandasAI连接LLM进行智能数据分析

    引言 Pandas是一个数据分析开源组件库,提供了高性能、易用的数据结构和数据分析工具。 PandasAI则通过结合Pandas和生成式AI技术,使用户能够以自然语言与数据进行交互,从而简化数据分析流程。 它的核心目标是让数据分析变得更直观、高效,甚至无需编写复杂代码即可完成数据查询、清洗、可视化等任务。 2. 详述 Pandas进行数据分析的流程笔者不是很熟练,这里重点关注一个问题就是PandasAI如何连接现有的大模型比如DeepSeek来进行智能数据分析。 但是笔者尝试了之后不行,不能传入自定义的LLM地址。没办法只能自己自定义一个继承自LLM的DeepSeekLLM类。

    44410编辑于 2025-07-28
  • 来自专栏小白技术社

    语义分析的一些方法(中篇)

    一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。 2 文本语义分析 ? 2.1 Topic Model 首先介绍主题模型。 个人总结,主要原因是lda模型可控性可解释性相对比较差:对于每个topic,不能用很明确的语义归纳出这个topic在讲什么;重新训练一遍lda模型,每个topic id所对应的语义可能发生了变化;有些topic 可以看到句向量在对句子的语义表征上还是相当惊叹的。 ? 但除了图片外,它在文本分析上也取得一些成功的应用。 基于CNN,可以用来做文本分类,情感分析,本体分类等[36,41,84]。 Lenet5网络结构图 2.4 文本分类 文本分类应该是最常见的文本语义分析任务了。

    1.6K10发布于 2020-07-09
领券