首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Python进阶之路

    语言模型的指令:综述

    论文标题:Instruction Tuning for Large Language Models: A Survey 论文地址:https://arxiv.org/abs/2308.10792 指令是提升语言模型 指令是指以有监督的方式在由(指令,输出)对组成的数据集上进一步训练语言模型。这一过程旨在缩小 LLMs 的下一个标记预测目标与用户期望 LLMs 遵循人类指令的目标之间的差距。 因此,指令是一种有效的技术,可以将语言模型与人类指令进行对齐。 第 5 节回顾了用于指令的多模态技术和数据集,包括图像、语音和视频。 第 6 节回顾了利用指令策略调整 LLMs 以适应不同领域和应用的工作。 第 7 节回顾了如何提高指令微调的效率,降低与调整模型相关的计算成本和时间成本。 第 8 节介绍了对指令模型的评估、分析以及对这些模型的批评。

    63300编辑于 2024-05-25
  • 来自专栏新智元

    【干货】BERT模型的标准和花式

    Transformer 模型。 之后这三个向量拼接起来的输入会喂入 BERT 模型,输出各个位置的表示向量。 首先,多语言里一个大问题是如何将词分开,因为如此多语言,词表会非常,这里作者用 BERT 自带 WordPiece 直接分词,然后用分完后第一个子词位置的输出向量来预测。 将页面文档分成多个片段,和 query 拼接,然后同时对几个问题,用 [CLS] 进行预测问题种类,而其他 token 的位置预测所在范围,最后将一个页面中的所有片段的分数排序,挑出最高者。 而 BERT 原模型只能生成单句的句子向量,或者句子对的。

    4.4K10发布于 2019-05-13
  • 来自专栏阿泽的学习笔记

    算法模型指南

    在算法项目落地过程中,如果只考虑机器学习相关部分,个人感觉最花时间的两个部分是数据质量问题处理和模型实验与迭代。 从第6部分开始是更深入的通过数据分析来进行模型的一些介绍,以及后续的测试,工程化,上线的简介,比较适合有经验的算法工程师阅读。 确保模型能够运行,并在小数据集上overfit,或复现一些已知结果。 评估并分析结果。后续会详细介绍分析手段方法。 参数。对模型的各种参数,模型结构进行各种调整。 数据与模型5 初级建模 5.1 数据流验证 首先检验data flow没有问题。例如使用简单的规则,替代模型模块,查看整个pipeline的流程是否有问题。对pipeline中大块环节的输出做检查。 ? 例如在MNIST问题中,3和5两个类别的边界上,可以看到很多长得像3的5和长得像5的3,而t-SNE这类降维方法则没有这种性质,无法体现出模型在预测confidence上的平滑变化。

    1.7K43发布于 2021-07-06
  • 来自专栏数据科学(冷冻工厂)

    Python 模型超参数

    超参数的一些示例: 树的数量或树的深度 矩阵分解中潜在因素的数量 学习率(多种模式) 深层神经网络隐藏层数 k均值聚类中的簇数 超参数的调整,对于提升模型的相关性能有一定的作用。 3. 书 封面 超参数是构建有用的机器学习模型的重要元素。本书为 Python 超参数调整方法[2](机器学习最流行的编码语言之一)。 了解强大的失败者方法以及最佳实践 探索流行算法的超参数 了解如何在不同的框架和库中调整超参数 深入了解 Scikit、Hyperopt、Optuna、NNI 和 DEAP 等顶级框架 掌握可立即应用于机器学习模型的最佳实践 参考资料 [1] 超参数: https://baike.baidu.com/item/%E8%B6%85%E5%8F%82%E6%95%B0/3101858 [2] 书: https://www.packtpub.com

    62830编辑于 2023-02-27
  • 来自专栏大模型应用

    模型应用:模型参数:结合本地模型对比多种组合探索差异.7

    引言 在模型的应用中,参数是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同,模型的生成参数更像是一组精密的调控旋钮,它们不改变模型的基础知识,而是影响模型如何思考和表达。 (左下)图表内容:X轴:总体质量评分Y轴:出现频次柱状图:不同评分区间的配置数量分布实际意义:左偏分布:多数参数配置效果不佳正态分布:参数敏感性适中右偏分布:多数配置都能获得较好效果业务价值:评估参数的难易程度了解模型在默认参数下的表现基线判断是否需要精细子图 四、参数参考1. 分步调优流程图五、总结 模型的参数本质上是在控制与释放之间寻找平衡的艺术。 ,不断更新策略。

    73432编辑于 2026-02-04
  • 来自专栏csico

    模型的选择与

    交叉验证(所有数据分成n等分 ) 最常用的为10折交叉验证 举例: 4折交叉验证(分成4等分时): 最后求出4个准确率的均值 网格搜索:参数 对模型预设几种超参数组合,每组超参数都采用交叉验证来进行评估 ,选出最优参数组合建立模型 API from sklearn.model_selection import GridSearchCV # coding=utf8 import numpy as np StandardScaler() x_train 网格搜索 # 使用K近邻算法 knn = KNeighborsClassifier() # 构造一些参数的值进行搜索 param = {'n_neighbors':[3,5,10 gc.score(x_test,y_test) print(gc.best_score_) # 显示在交叉验证中最好的结果 print(gc.best_estimator_) # 显示选择最好的模型参数

    53830编辑于 2021-12-29
  • 来自专栏QQ大数据团队的专栏

    腾讯云ChatBI:基于模型的效果方案探索

    随着近几年模型技术的不断进步,腾讯云BI结合模型的产品ChatBI也就应运而生,试想一下: 如果用户想要查询公司产品这个月的收入增加了多少? 二、基于模型的ChatBI效果 虽然模型为ChatBI提供了强大的基础能力,但它也存在一些不足,如泛化性、幻觉以及Text2SQL能力等问题。 为了弥补这些不足,腾讯云ChatBI在技术方案设计中进行了大量工程优化,包括意图澄清、Text2DSL研发和ICL优等,让模型更好地理解业务场景。 3.ICL(In-Context Learning) 即使是同一个问题,在不同业务场景和知识库下的结果也可能不同,因此需要对场景进行细分,但是传统的预训练和微调方法可能不足以应对快速变化的业务需求和数据环境 为了做到针对性的优化,我们引入了ICL。 ICL有如下好处: 1.见效快:ICL允许模型在不直接训练的情况下,通过阅读上下文来适应新任务或数据,这样可以更快地适应新的业务场景。

    2.6K11编辑于 2024-11-25
  • 来自专栏鸿的学习笔记

    吴恩达谈 MLOps:数据比模型更重要

    在之前的 AI 系统设计当中,大家似乎更重视对模型这一块,而忽视了对数据的,吴恩达认为前者是 Model-centric(以模型为中心),后者是 Data-centric(以数据为中心)。 并且从 实证经验表明,优化模型获得的收益不如优化数据集。在讲座举的钢板缺陷检测任务当中,baseline准确率为76.2%,各种换模型参数的骚操作之后,对准确率几乎没有提升。 但是吴恩达认为把时间花费在对数据质量的优化上面,可能要比花费时间对模型进行,受益会更多。 Model-centric: 以调整模型代码、模型超参数为主的系统策略,在这种策略下,可以认为数据集是固定的 Data-centric: 与Model-centric相对,以调整数据集为主的系统策略 通常,以模型为中心的科学家偏爱某个模型家族,这很可能构成了他们在研究生院论文的主题。他们根据问题首先从模型开始,并努力通过特征工程使数据适合其模型

    1.3K40发布于 2021-04-23
  • 来自专栏大数据-BigData

    Flink状态与Checkpint

    Checkpointing 应用程序可以配置定期触发检查点。 当检查点的完成时间超过检查点间隔时,在进行中的检查点完成之前不会触发下一个检查点。 RocksDB 许多大型 Flink 流应用程序的状态存储主力是 RocksDB 状态后端。 后端的扩展性远远超出了主内存,并且可靠地存储了的keyed状态。 RocksDB内存 RocksDB 状态后端的性能很大程度上取决于它可用的内存量。 为了提高性能,增加内存会很有帮助,或者调整内存的功能。 某些操作(如窗口)会导致其下游操作符的负载激增:在窗口的情况下,下游操作符可能在构建窗口时几乎无事可做,而在发出窗口时有负载要做。 本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

    1.7K32编辑于 2022-03-07
  • 来自专栏雨临Lewis的博客

    ELK系列(5) - Elasticsearch性能

    可以通过以下方式来释放分段占用的内存: 删除不用的索引 关闭索引,此时数据依然存在于磁盘,但是占用的内存会被释放 定期合并不再更新的索引的分段,将多个小分段合并成大分段,具体接口可以参考这部分文章 参考链接 Elasticsearch

    65310编辑于 2022-03-24
  • 来自专栏AI

    AI模型的评估与

    AI模型的评估与:交叉验证、ROC、F1-score等在机器学习和人工智能(AI)应用中,模型的评估和是非常关键的步骤。 发现问题:通过不同的评估方法,我们可以发现模型可能存在的问题,如过拟合、欠拟合等。进行模型:评估可以帮助我们调整模型的超参数或选择更合适的算法。2. 模型:提高模型性能的技巧超参数是提升模型性能的关键步骤。超参数是模型训练过程中需要手动设置的参数,它们直接影响模型的训练效果和最终性能。 常见的方法包括:网格搜索(Grid Search):通过遍历指定的参数空间,逐一尝试不同的超参数组合,从而找到最优的参数配置。 Bishop这本书是模式识别和机器学习领域的经典教材,书中深入探讨了模型评估和的理论基础,并涉及了多种评价指标。

    1.1K00编辑于 2025-01-27
  • 来自专栏LhWorld哥陪你聊算法

    【Spark篇】---Spark之代码,数据本地化,内存,SparkShuffle,Executor的堆外内存

    一、前述 Spark中大致分为以下几种 ,代码,数据本地化,内存,SparkShuffle,调节Executor的堆外内存。 二、具体    1、代码 1、避免创建重复的RDD,尽量使用同一个RDD 2、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略?          spark.locality.wait.node          spark.locality.wait.rack      注意:等待时间不能很大,调整数据本地化的级别不要本末倒置 通过日志或者WEBUI 3、内存 ? Spark中如何内存

    2.1K30发布于 2018-09-13
  • 来自专栏chenchenchen

    SQL之性能

    查询条件中操作符的权值 操作符 权值= 10 5 = 5 < 5 <= 5 LIKE 3 <> 0 表 2. 针对专门操作符的 前面,讲的是关于查询条件的一般规则,在这一节中,将讨论如何使用专门的操作符来改进 SQL 代码的性能。 或 (OR) 和与 (AND) 操作符相反,在用或 (OR) 操作符写 SQL 语句时,就应该将概率的表达示放在左面,因为如果第一个表达示为假的话,OR 操作符意味着需要进行下一个表达示的解析。 首先优化器根据查询条件 column1 = 5 为真来查找所有符合条件的所有行,然后据查询条件 column2 = 5 为真来查找所有符合条件的所有行,即两次表扫描,因此,如果 column1 = 5 本文总结的是一些 SQL 性能的比较初级的方面,SQL 还包括 Order by,Group by 以及 Index 等等。

    2.3K30发布于 2019-12-03
  • 来自专栏山河已无恙

    如何高效使用DeepSeek-R1:推理模型指南

    写在前面 博文内容为参考由 together.ai 整理的一些 DeepSeek-R1 指南 文章做了节译,理解不足小伙伴帮忙指正 :),生活加油 我看远山,远山悲悯 持续分享技术干货,感兴趣小伙伴可以关注下 ^_^ 如何高效使用DeepSeek-R1:推理模型提示工程指南 LLM 中 DeepSeek-R1 与传统非推理模型的交互方式存在本质差异。 但与通用模型不同,推理型模型需要特殊的交互策略,博文内容列举几个常见的优化手段,帮助开发者构建高效的交互范式。 ,并按照特定的方式进行回应,比如 你是一个技术博主 少量示例: 这些示例可以帮助语言模型更好地理解任务,并生成更准确的响应,{Q:分布式锁实现方式有哪些? 建议生成3-5个候选方案后,采用以下评估维度: 答案正确性(70%权重) 推理过程完整性(25%权重) 表达简洁度(15%权重) 掌握深度推理模型的交互范式,本质上是构建精准的需求映射关系。

    1K10编辑于 2025-03-04
  • 来自专栏数智化医院

    医疗模型落地方案:技术选型、部署策略与

    医疗模型的落地应用已成为推动医疗行业数字化转型的重要引擎。本文将从技术选型、部署策略和方案三维度,系统性地解析医疗模型落地的关键要素,为医疗机构提供可操作的落地指南。 三、方案:医疗模型的性能优化与持续改进医疗模型是确保其临床实用性的关键环节,也是实现从技术到价值转化的最后一步。有效的方案能够显著提升模型在医疗场景中的准确率、可靠性和用户体验。 数据层面的策略高质量的数据是医疗模型性能的基础,数据层面的主要包括以下方面:医疗数据增强:多源数据融合:整合电子病历、医学影像、检验报告、临床指南、医学文献等多种数据类型,构建多模态训练数据集 模型层面的优化技术模型层面的旨在提升医疗模型在专业场景中的性能和效率:模型适配与微调:领域适配:在通用模型基础上进行医疗领域适配,如联影"元智"医疗模型吸收了通用模型在处理自然语言、长文本方面的最新成果 应用层面的方法应用层面的关注如何使医疗模型更好地融入实际工作流程,提升用户体验:交互设计优化:自然语言交互:设计符合医护人员习惯的自然语言交互方式,降低使用门槛。

    1.5K10编辑于 2025-04-16
  • 离线推理全流程&模型

    整体概述小模型推理方案:ATC转换架构图:ModelZoo-PyTorch指导文档:https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/ACL_PyTorch /docs/README.md模型推理离线推理导出Onnx参考链接:ONNX的导出Onnx转om参考链接1:Onnx转Om参考链接2:ATC工具介绍离线推理参考链接:离线推理Chinese_CLIP上机操作 Chinese_CLIP模型介绍参考链接传统模型基于昇腾迁移适配全流程模型支持度分析msit analyze安装msit: https://gitee.com/ascend/msit/blob/master 图片模型转换:pt->onnx:参考链接执行分析命令:使用onnx-sim对onnx模型进行简化export bs=24onnxsim models/vit-b-16.txt.fp32.onnx models (onnx->om)atc工具使用指导:链接AOE自动(onnx->om)使用指导:链接模型压缩:官方指导文档:链接离线推理Chinese_CLIP模型推理指导ais_bench使用安装:链接推理执行

    25400编辑于 2025-06-20
  • 一文看懂模型核心参数用法与实战

    一、参数的重要性如果把调用模型比作烹饪,那么参数就是掌控火候的关键——火候太小,菜肴寡淡无味;火候太大,食材可能烧焦。 为了更直观地理解参数的重要性,我们来看几个实际案例:案例一:智能客服中的参数在智能客服场景中,用户通常希望获得准确、简洁的回答。 二、基础准备:OpenAI Python SDK 简介与安装在深入探讨模型参数之前,首先需要确保开发环境已正确配置。 ,其实是一种对模型的“对话艺术”在模型的世界里,参数不仅仅是技术微调,更像是与模型进行一场默契的对话。 在实际项目中,无论你是在开发客服助手、文案生成系统、知识库搜索引擎,还是构建多模态 Agent,理解并掌握这些参数的技巧,是将模型从“能跑”到“好用”的关键一步。

    3K72编辑于 2025-04-25
  • 来自专栏大数据成长之路

    Hive性能之JVM重用(5)

    JVM重用是Hadoop参数的内容,其对Hive的性能具有非常的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。 这时JVM的启动过程可能会造成相当的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。

    1.1K10发布于 2021-01-22
  • 来自专栏Java后端技术栈cwnait

    5种JVM配置方法概览!!!

    如:3,表示Eden:Survivor=3:2,一个Survivor区占整个年轻代的1/5 -XX:MaxPermSize=n:设置持久代大小 2 收集器设置 -XX:+UseSerialGC: 5 总结 年轻代大小选择 响应时间优先的应用:尽可能设,直到接近系统的最低响应时间限制(根据实际情况选择)。在此种情况下,年轻代收集发生的频率也是最小的。同时,减少到达年老代的对象。 吞吐量优先的应用:尽可能的设置,可能到达Gbit的程度。因为对响应时间没有要求,垃圾收集可以并行进行,一般适合8CPU以上的应用。 如果堆设置小了,可以会造成内存碎片、高回收频率以及应用暂停而使用传统的标记清除方式;如果堆了,则需要较长的收集时间。最优化的方案,一般需要参考以下数据获得。

    71320发布于 2020-02-11
  • 来自专栏Java EE 企业级开发工作日志

    JVM 1:“精通 JVM ,有过 JVM 经验”简历敢写吗?薪资涨 5k 的技巧

    5.1、分代模型 5.1.1、新生代 5.1.2、老年代 总结 前言 现在除了一些有工作和开发经验的大神,基本很少有人在简历上敢写“精通 JVM ,有过 JVM 经验”,因为应聘者如果写这句话就意味着你的面试将会是很 既然 JVM 如此重要,那我就在本系列中完整的过一遍,让你敢于在简历上写“精通 JVM ,有过 JVM 经验”,薪资涨 5k! 在聊 JVM 和 GC 之前,我们先看看当下就业环境中面试对于 JVM 和 GC 的一些相关面试题,看看企业开发岗需要什么样的人才。 GC 有经验吗?一般出现 GC 问题你怎么解决? 1.5、阿里、蘑菇街 ThreadLocal 有没有内存泄漏问题? 在默认情况下 JDK 1.8 没有参数、用的就是 GC 的分代模型

    51811编辑于 2022-05-08
领券