首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    模型应用:算分层治理:基于大模型层匹配体系的优化方案.72

    今天我们一如既往对算刨根问底,拆解算三层核心构成与层匹配体系,用通俗易懂的示例,和大家一起跳出加卡误区,掌握大模型分层治理的核心逻辑,让每一份硬件投入都转化为实实在在的落地效率。 算层匹配体系三层算是核心骨架,而层匹配是落地执行方案,是让三层算发挥最大价值的全链路保障,也是解决加卡无效的核心路径。 ", "模型微调", 8, 8), BusinessTask("商品文案实时生成", "实时生成", 9, 4), ] # 调度任务 print("=== 大模型业务-算匹配调度开始 第步:监控优化(闭环迭代)部署算监控工具(如 Prometheus + Grafana),实时监控三层算的利用率、层匹配的效率;针对出现的瓶颈(如通信开销过大、显存利用率过低)进行迭代优化,形成 、总结 结合大模型产业化落地的实操经验,算焦虑的核心从不是硬件不够,而是认知和方法跑偏,加卡不是唯一的解决问题的途径,往往是忽视了算的协同本质,与其盲目加卡,不如先梳理清楚计算、访存

    21643编辑于 2026-04-10
  • 来自专栏Triciaの小世界

    扣——数之和

    请你找出并返回满足下述全部条件且不重复的元组 [nums[a], nums[b], nums[c], nums[d]] (若两个元组元素一一对应,则认为两个元组重复): 0 <= a, b, c, 数之和的双指针解法是两层for循环nums[j] + nums[i]为确定值,依然是循环内有left和right下表作为双指针,找出nums[j] + nums[i] + nums[left] + nums

    25720编辑于 2023-04-12
  • 来自专栏leetcode题目解析和知识分享

    9.回文数-扣(LeetCode)

    4、代码示范 该方法的时间复杂度为O(1) . 9. 回文数 - 扣(LeetCode)在这里小编把题目链接奉上,可以去试试,能不能想到其他不同的方法。

    18110编辑于 2025-10-22
  • 来自专栏睡前机器学习

    模型,奥给!

    也许机器学习的教材们也都这么认为,介绍任何模型,总是噼里啪啦,把算法原理和怎么训练风风火火过了一遍,然后就结尾了。 “那么......训练好的模型,要怎么用呢?” 偏差达到最小化,模型就训练好了。 那回到最开始的问题,怎样使用训练好的模型呢? 也很简单,上面看出来了,模型无非就是一个喂点什么进去,然后就会吐点什么出来的玩意。 datasets.load_boston(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y) 现在我们有了套数据 记住,Y在机器学习里,都是代表有监督学习的参考答案,是要和模型的预测值比较的。 选一套模型吧。波士顿房价数据集是明码实价的回归问题,就选择用最最最基础的线性回归模型烹调好了。 首先是声明。 现在,可以使用这个模型了。

    32720编辑于 2022-04-11
  • 来自专栏Python与算法之美

    9模型的评估

    二,分类模型的评估 模型分类效果全部信息: confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果: accuracy 正确率。通用分类评估指标。 模型对某种类别的分类效果: precision 精确率,也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率,也叫查全率。模型识别出全部正样本的能力。 ,使用虚拟估计器产生基准得分 对于监督学习(分类和回归),可以用一些基于经验的简单估计策略(虚拟估计)的得分作为参照基准值。 DummyRegressor 实现了个简单的经验法则来进行回归: mean 总是预测训练目标的平均值. median 总是预测训练目标的中位数. quantile 总是预测用户提供的训练目标的 quantile 留出法 为了解决过拟合问题,常见的方法将数据分为训练集和测试集,用训练集去训练模型的参数,用测试集去测试训练后模型的表现。

    97931发布于 2020-07-17
  • 来自专栏jay_blog

    扣刷题】9. 回文数

    一、题目描述 来源:扣(LeetCode) 给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。 n = n * 10 + temp % 10; temp = temp / 10; } return x == n; } }

    29320编辑于 2022-11-02
  • 来自专栏机器之心

    蚂蚁集团开 “卷” 金融大模型,“和一” 解决产业真命题

    月,开源金融大模型貔貅(PIXIU) 、聚宝盆(Cornucopia)接踵而至 ..... 9 月 8 日,蚂蚁集团在外滩大会上正式发布工业级金融大模型(AntFinGLM) ,同时开放了金融专属任务评测集 一、金融大模型:屹立在万亿 Token 上的「知识」 通用大模型缺少金融领域的专业、知识、语言以及安全力,金融大模型实现落地行业是一个复杂化的系统工程,需要将「」形成合力。 蚂蚁金融大模型具有「」,知识、语言、专业和安全力 所谓知识,主要是指金融大模型的底座能力,模型规模只有足够大(通常百亿以上),才会有「涌现」现象的出现。预训练大模型则需要海量数据。 、「合一」的上与下:底层支持与产业应用 强大底层算设施为蚂蚁金融大模型提供了一个好的基础和起点。 蚂蚁探索出了一条路: 以行业大模型为认知和交互的中枢,调用领域知识和专业服务,这是一个「大模型 + 知识 + 服务」驱动的架构,为消费者和产业应用,提供「」的支撑。

    1.1K50编辑于 2023-09-19
  • 来自专栏瓜大三哥

    UVM模型

    UVM模型) 1.常用到的uvm_component uvm_driver:所有的driver都要派生自uvm_driver。

    1.5K90发布于 2018-02-26
  • 来自专栏石云升

    波特五模型

    波特五模型是分析企业竞争环境的一个分析模型。 根据波特的观点,每家企业都受到“直接竞争对手、顾客、供应商、潜在新进公司和替代性产品”这五个“竞争作用力”的影响。 我们用波特五模型试着分析下实体书店竞争是否激励。 直接竞争对手:如果直接对标卖书,那么其他书店是你的直接竞争对手,如果你定位是给一个线下的安静空间,享受书店的文化氛围。 你看,在思考这个模型的时候,可以帮助我们制定相应的竞争战略,同时也帮助我们想清楚了很多细节问题。这就是工具的价值。

    61510编辑于 2022-08-25
  • 来自专栏笔记c

    扣刷题笔记--9. 回文数

    给你一个整数 x ,如果 x 是一个回文整数,返回 true ;否则,返回 false 。

    40330编辑于 2022-11-15
  • 来自专栏null的专栏

    注意FM模型AFM

    概述在CTR预估任务中,对模型特征的探索是一个重要的分支方向,尤其是特征的交叉,从早起的线性模型Logistic Regression开始,研究者在其中加入了人工的交叉特征,对最终的预估效果起到了正向的效果 AFM(Attentional Factorization Machines)[2]模型在FM模型的基础上,引入了Attention机制,通过Attention的网络对FM模型中的交叉特征赋予不同的权重 如果将FM模型放入到神经网络的框架下,FM模型的结构可以由下图表示:图片对于每一个特征都赋予一个$k$维的向量,如上图中的第二个特征x_2 的k 维向量为\mathbf{v}_2 ,同理,第个特征x_ AFM的网络结构在注意FM模型AFM(Attentional Factorization Machines)中,是在FM的基础上引入了Attention机制,通过Attention网络学习到每个交叉特征的权重 总结AFM模型在FM模型的基础上,引入了Attention机制,通过Attention的网络对FM模型中的交叉特征赋予不同的权重。参考文献[1] Rendle S.

    88330编辑于 2023-01-16
  • 来自专栏人工智能与演化计算成长与进阶

    序列模型3.7-3.8注意模型

    3.7 注意模型直观理解 Attention model intuition 长序列问题 The problem of long sequences 对于给定的长序列的法语句子,在下图中的网络中,绿色的编码器读取整个句子 而对于长句子,注意模型 会和人类翻译一样,每次翻译句子中的一部分,从而提高句子翻译长句子的能力。 ? 注意模型 Attention model intuition “Bahdanau D, Cho K, Bengio Y. 与普通的 RNN 不同的是,注意模型不会看每一个输入的单词,而是对输入的每个单词选择一定的 注意权重 用于 表示这个单词对于正在翻译的单词具有多大的影响 下图中的 分别表示前三个单词对第一个词语的翻译具有的影响 ---- 3.8 注意模型细节 Attention model 特征提取模型 使用的双向循环神经网络,这样其对于 前向传播 和 后向传播 分别有激活值 $\overrightarrow{a^{ 对于一个时间步

    66610发布于 2020-08-14
  • 来自专栏null的专栏

    注意FM模型AFM

    概述 在CTR预估任务中,对模型特征的探索是一个重要的分支方向,尤其是特征的交叉,从早起的线性模型Logistic Regression开始,研究者在其中加入了人工的交叉特征,对最终的预估效果起到了正向的效果 AFM(Attentional Factorization Machines)[2]模型在FM模型的基础上,引入了Attention机制,通过Attention的网络对FM模型中的交叉特征赋予不同的权重 如果将FM模型放入到神经网络的框架下,FM模型的结构可以由下图表示: 对于每一个特征都赋予一个 k 维的向量,如上图中的第二个特征 x_2 的 k 维向量为 \mathbf{v}_2 ,同理,第个特征 AFM的网络结构 在注意FM模型AFM(Attentional Factorization Machines)中,是在FM的基础上引入了Attention机制,通过Attention网络学习到每个交叉特征的权重 总结 AFM模型在FM模型的基础上,引入了Attention机制,通过Attention的网络对FM模型中的交叉特征赋予不同的权重。 参考文献 [1] Rendle S.

    68140编辑于 2023-02-02
  • 来自专栏智能生信

    【NeurIPS】篇好文简读-专题9

    由于进化将有关功能的信息编码为蛋白质序列的各种模式,因此可以从序列数据中学习变异影响的无监督模型。迄今为止的方法是将模型拟合到相关序列族中。传统设置是有限的,因为必须为每个预测任务训练一个新模型。 作者在400多个GPU上训练种图神经网络架构,并研究这些方法的扩展性。根据模型架构的不同,训练时间的速度可以提高到60倍。 除了在广泛的视觉基准测试中展示出具有竞争的性能外,最近的工作还认为 Transformer 比卷积神经网络 (CNN) 强得多。 此外,消融实验表明这种更强的泛化在很大程度上得益于 Transformer 的类自注意架构本身,而不是其他训练设置。 所提出的算法在使用个基准数据集的各种类别不平衡 SSL 实验中实现了最先进的性能。

    68130编辑于 2022-05-23
  • PLUS商家增长平台产品介绍

    三、应用框架和功能介绍 功能框架 经营看板: 商品诊断:新增商品分类(明星/话题/高潜/低潜商品,基于吸引力<浏览PV/UV、加车人数>和业务贡献)与爆款识别(追踪头部爆款转化详情,如曝光量- 深度洞察看板-人群画像:结合方略标签产品化,支持省份/性别/年龄/学历/城市分布等画像洞察,开通需联系助理@罗芸冰(数据接入达标后开通)。 数据建模共创:人货匹配推荐、市场空间测算、异业合作匹配度等共创模型。 会员产品与服务:3大合作服务(战略规划、运营服务、数字化升级),3大权益(流量支持、数据能力、市场声望),含360°经营看板、知识库、战略咨询。 案例库分享(知识库) 某茶饮私域案例+联名营销干货; 某知名彩妆案例+干货推荐; 某商场相关案例与干货(原文信息不足,按最大信息量呈现)。

    9610编辑于 2026-03-31
  • 来自专栏新智元

    【谷歌大脑力作】RNN最新技术:注意增强 RNN,模型

    【新智元导读】谷歌大脑团队的Chris Olah & Shan Carter 整理了 2016 年递归神经网络(RNN)的发展,总结了神经图灵机、注意界面、自适应计算时间和神经编程器这个使用注意对常规 他们认为,这模型会对接下来 RNN 发展产生重大影响。新智元提供本文中文翻译,可访问原始页面查看更多。图片均来自原文。 在 RNN 之间使用注意的一大应用是翻译(Bahdanau, et al., 2014)。传统的序列到序列模型必须将整个输入全部转换为单一的一个向量后,再反向扩展。 还有 Vinyals 和 Le 2015 年写的论文,让模型在生成回应时,关注之前的一部分对话,通过这种方式建立对话模型。 ? 注意还能用于卷积神经网络和 RNN 之间的界面。 训练自适应计算时间模型时,需要为代价函数加上一个“思考代价”(ponder cost)。思考代价会根据模型花费的计算量对模型进行惩罚会。思考代价的值越大,模型用于提升性能的时间牺牲就会越小。

    1.3K50发布于 2018-03-23
  • 来自专栏智能生信

    【AAAI】篇好文简读-专题9

    现有的预训练模型大多侧重于氨基酸序列或多序列比对,而结构信息尚未被充分利用。本文提出了一种用于从蛋白质三级结构中学习结构嵌入的自监督预训练模型。 天然蛋白质结构受到随机噪声的干扰,预训练模型的目的是估计扰动3D结构上的梯度。具体地说,作者采用SE(3)不变特征作为模型输入,在保留SE(3)等方差的情况下重建三维坐标上的梯度。 这种模式避免了使用复杂的SE(3)等变模型,极大地提高了预训练模型的计算效率。作者在两个下游任务:蛋白质结构质量评估(QA)和蛋白质-蛋白质相互作用(PPI)位点预测上展示了该预训练模型的有效性。 提取层次结构嵌入以增强相应的预测模型。大量实验表明,这种结构嵌入一致地提高了两个下游任务的预测精度。 论文链接: https://www.aaai.org/AAAI22Papers/AAAI-2784.GuoY.pdf 论文题目: Contact-Distil: Boosting Low Homologous

    53420编辑于 2022-05-23
  • 来自专栏智能生信

    【ICLR】篇好文简读-专题9

    GraphMVP有效地学习了一个二维分子图编码器,该编码器通过更丰富和更有鉴别的三维几何结构得到了加强。作者还进一步提供了理论上的见解,以证明GraphMVP的有效性。 id=xQUe1pOKPam 二 论文题目: Adversarial Attacks on Graph Neural Networks via Meta Learning 论文摘要: 图的深度学习模型在许多任务上都取得了进步 经验表明,GDS 保留了对各种模型(GCN、GraphSAGE、GAT 和 JKNet)的训练至关重要的边缘。与在全图上训练相比,GDS 可以保证模型的性能,同时只对一小部分边进行采样。 id=UajXTGRjuKB 论文题目: 3D INFOMAX IMPROVES GNNS FOR MOLECULAR PROPERTY PREDICTION 论文摘要: 分子性质预测是深度学习发展最快的应用之一 包括三维分子结构作为输入学习模型,它们在许多分子任务中的表现。然而,这些信息是不可行的计算规模所需的几个现实世界的应用程序。作者提出预先训练一个模型,只给出分子的二维分子图来推理分子的几何形状。

    63520编辑于 2022-02-11
  • 来自专栏码匠的流水账

    java9系列()Process API更新

    /java.base/java/lang/ProcessHandle.java java9新引入了ProcessHandle /** * ProcessHandle identifies and provides * * @see Process * @since 9 */ public interface ProcessHandle extends Comparable<ProcessHandle> } catch (final InterruptedException e) { e.printStackTrace(); } } 小结 java9对 doc Java 9 新特性概述 exploring-java-9 feature9/process java9系列(一)安装及jshell使用 java9系列(二)docker运行java9 java9

    62710发布于 2018-09-17
  • 来自专栏AIoT技术交流、分享

    扣(LeetCode)刷题,简单题(第9期)

    目录 第1题:反转图像 第2题:上升下降字符串 第3题:合并两个排序链表 第4题:和为0的N个唯一整数 第5题:反转二叉树 第6题:高度检查器 第7题:距离值 第8题:自除数 第9题:最大数值 第10题 :反转字符串 ---- 扣(LeetCode)定期刷题,每期10道题,业务繁重的同志可以看看我分享的思路,不是最高效解决方案,只求互相提升。 ---- 第9题:最大数值 试题要求如下: ?

    30220发布于 2021-01-20
领券