首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    10亿参数、多项SOTA,智源开源视觉基础模型EVA

    机器之心专栏 机器之心编辑部 智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能 然而,在十亿参数量级别的视觉预训练模型中,最具竞争力的模型例如 ViT-g、SwinV2、CoCa 等仍然严重依赖有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。 智源曹越团队最新开源的视觉预训练模型 EVA,将最强语义学习(CLIP)与最强几何结构学习(MIM)结合,仅需使用标准的 ViT 模型,并将其规模扩大到十亿参数(1-Billion)进行训练,即可得到当前最强大的十亿级视觉基础模型 不同于之前的方法,EVA 证明了这种训练方式可以帮助模型参数扩展到十亿量级,并且在这个参数量级下在广泛下游任务中取得出色的性能。 总结而言,EVA 具有以下特点: 1. 参数量变引发性能质变:在 LVIS 上性能极强;可以稳定并加速 CLIP 训练,产生当前最强的开源 CLIP 模型

    1.2K10编辑于 2022-12-16
  • 来自专栏OneMoreThink的专栏

    应急靶场(10):【玄机】流量特征分析-蚁剑流量分析

    Wireshark打开流量包后,搜索http查看HTTP请求,发现6个访问1.php的请求。

    1.7K10编辑于 2024-10-15
  • 来自专栏燧机科技-视频AI智能分析

    教师教学质量分析评价系统 A教育大模型

    本文提出一种基于YOLOv12目标检测、RNN时序分析与情感计算的教师教学质量分析评价系统,通过“多模态感知-时序行为研判-情感-行为关联评价”机制,实现对课堂学生行为(玩手机、举手、睡觉等6类)、表情 人教室(检测距离3-8米),集成偏振滤镜(抑制黑板反光)、自动白平衡(适应不同光照); 环境补偿模块:搭载光照传感器(量程0-100000lux)、声音传感器(检测课堂噪音>70dB),动态调整相机曝光参数 :基于YOLOv12连续15帧检测结果(行为序列、表情持续时间),通过LSTM网络识别“持续专注(无不良行为>10分钟)”“高频分心(玩手机>3次/课时)”等行为模式,输出专注度评分(0-100分); 实验室数据(NVIDIA A100 GPU训练,PyTorch 2.3框架)显示,优化后模型在课堂数据集上mAP@0.5达97.6%,单帧检测耗时10ms(100FPS),较YOLOv11基线模型提升39% 教师教学质量分析评价系统基于YOLOv12+RNN的深度学习算法,教师教学质量分析评价系统精准地检测到学生是否在玩手机、举手、睡觉、交头接耳、趴桌子、行走运动等行为。

    54910编辑于 2025-12-31
  • 模型、小模型参数

    ## 几个概念总参数量 = 词嵌入层参数 + 解码器层参数模型 就是在参数量上显著小于LLM的模型所有参数 都放在 safttensors 模型文件 中预训练 就是为了 生成合理的 参数值后训练 也是为了 生成合理的 参数值蒸馏、微调、强化学习,都是后训练大模型变成小模型采用"蒸馏+量化+剪枝"的组合策略 一、大模型 GPT-3 参数量详解大模型参数量是指神经网络中所有可训练权重和偏置的总数,这些参数决定了模型的学习能力和表达能力 模型参数量(参考)若词嵌入层与输出层共享权重(主流方案):总参数量 = 词嵌入层参数 + 32层解码器参数=65,660,928+2,684,354,560=2,750,015,488≈27.5 亿= 三、大模型、小模型参数差距的本质大模型参数量,本质上是用 dmodel2d_{model}^2dmodel2​ 的代价,换取高维语义空间的表达能力。 层数减半,参数减半。FFN 扩张因子4 (标准)4 (标准) 或更小 (如 SwiGLU 变体)影响常数倍。词表大小5万~10万+3万~5万线性影响,占比不大。 

    55021编辑于 2026-01-04
  • 来自专栏捞月亮的小北

    10. Mybatis 参数处理

    单个简单类型参数 简单类型包括: byte short int long float double char Byte Short Integer Long Float Double Character javaType:可以省略 jdbcType:可以省略 parameterType:可以省略 如果参数只有一个的话,#{} 里面的内容就随便写了。对于 ${} 来说,注意加单引号。

    26110编辑于 2024-06-25
  • 来自专栏码农阿宇

    基于Win10极简SonarQube C#代码质量分析

    /k:"xxh.xzc.api" /n:"xhh.xzc.api" /v:"1.0" MSBuild.exe /t:Rebuild MSBuild.SonarQube.Runner.exe end 参数说明

    1K20发布于 2018-08-11
  • 来自专栏啄木鸟软件测试

    由人工智能参数讨论基于Bug的软件测试质量分析

    上文和大家一起讨论了人工智能样本的评价参数:准确度、精准度、召回率和F1分数。这篇文章,我们结合这些参数来讨论基于Bug的软件测试质量分析。 软件测试质量分析是软件测试工作中非常重要的管理工作,其实在没有了解准确度、精准度、召回率这些概念之前,我们其实已经多多少少使用了这些概念。 上表中客户发现的有效缺陷中严重10中2个是事后发现的;一般24中5个是事后发现的;轻微46中15个是事后发现的。

    99710发布于 2020-06-17
  • 来自专栏全栈程序员必看

    sklearn输出模型参数_rfm模型算法

    总第105篇 最近会开始一个新的系列,sklearn库中各模型参数解释,本篇主要讲述最基础的LR模型模型参数详解 逻辑回归: sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, ‍tol=0.0001, class_weight:class_weight是很重要的一个参数,是用来调节正负样本比例的,默认是值为None,也就是正负样本的权重是一样的,你可以以dict的形式给模型传入任意你认为合适的权重比, 比如,有一数据集的正负样本绝对数量比为4:6,如果你给参数class_weight赋予balanced值,那么最后模型结果中,正负样本的权重比就会变成6:4。 set_params(**params):为估计器设置参数 你还可以看: 逻辑斯蒂回归模型 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

    1K10编辑于 2022-11-04
  • 来自专栏机器之心

    微软教小模型推理进阶版:Orca 2性能媲美10参数模型,已开源

    之前微软研究院推出了 Orca,它是拥有 130 亿参数的语言模型,通过模仿更强大 LLM 的逐步推理过程,展现了强大的推理能力。 在 Zero-shot 环境中对高级推理能力进行评估的复杂任务中,Orca 2 明显超越了相似规模的模型,并达到了与 5-10 倍大型模型相似或更好的性能水平。 Orca 2 有两个规模(70 亿和 130 亿参数),均通过在定制高质量合成数据上对相应的 LLaMA 2 基础模型进行微调而创建。 Orca 2 模型的表现不逊于或超越包括 5-10 倍更大的模型在内的所有其他模型。这里所有模型都使用相同尺寸的 LLaMA 2 基础模型。 媲美 5-10 倍更大的模型。Orca-2-13B 超越了 LLaMA-2-Chat-70B 的性能,并且在表现上与 WizardLM-70B 和 ChatGPT 相当。

    54610编辑于 2023-12-05
  • 来自专栏码农阿宇

    基于Win10极简SonarQube C#代码质量分析

    /k:"xxh.xzc.api" /n:"xhh.xzc.api" /v:"1.0" MSBuild.exe /t:Rebuild MSBuild.SonarQube.Runner.exe end 参数说明

    1.9K20发布于 2018-08-09
  • 来自专栏张俊红

    Sklearn参数详解—LR模型

    总第105篇 最近会开始一个新的系列,sklearn库中各模型参数解释,本篇主要讲述最基础的LR模型模型参数详解 逻辑回归: sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, ‍tol=0.0001, class_weight:class_weight是很重要的一个参数,是用来调节正负样本比例的,默认是值为None,也就是正负样本的权重是一样的,你可以以dict的形式给模型传入任意你认为合适的权重比, 比如,有一数据集的正负样本绝对数量比为4:6,如果你给参数class_weight赋予balanced值,那么最后模型结果中,正负样本的权重比就会变成6:4。 模型对象 coef_:返回各特征的系数,绝对值大小可以理解成特征重要性 intercept_:返回模型的截距 n_iter_:模型迭代次数 模型方法 decision_function(X):返回决策函数值

    7.8K60发布于 2018-06-11
  • 来自专栏深度学习自然语言处理

    GLoRA—高效微调模型参数

    这些高度复杂的模型,通常具有数百万甚至数十亿个参数,在计算机视觉、自然语言理解和语音识别等领域表现出了卓越的能力。 本文提出了广义LoRA(GLoRA),一种通用参数高效微调任务的先进方法。 RepAdapter:RepAdapter将轻量级网络插入到预先训练的模型中,并且在训练后,额外的参数将被重新参数化为附近的投影权重。 它们之间的区别仅在于搜索空间中的LoRA维度,该维度在最大模型中为8和4,在中间模型中为4和2,在最小模型中为2。本文方法中增加的参数灵活性允许在最终模型中进行用户定义的可训练参数计数。 将最先进的参数有效迁移学习提高了2.9%,即使是最小的模型也大大优于所有现有方法。 总结 本文提出了GLoRA,这是一种广义参数高效的微调方法,它成功地证明了增强大规模预训练模型的微调和迁移学习能力的有效性。

    85710编辑于 2023-08-22
  • 来自专栏Reck Zhang

    Java 10 - 内存模型

    内存模型 主存储器与工作存储器 主存储器 方法区(Method Area) 方法区用于存储类的信息, 常量, 静态变量, 即时编译器编译后的代码. 栈(Java Virtual Machine Stacks) 代表着Java方法执行的内存模型, 每个方法执行时都会创建一个栈帧来存储方法的变量表, 操作数栈, 动态链接方法, 返回值, 返回地址等信息

    37820发布于 2021-08-11
  • 来自专栏新智元

    巨型语言模型参数每年暴涨10倍,新「摩尔定律」要来了?

    ---- 新智元报道   来源:网络 编辑:David 洁茹mm 【新智元导读】近年来,大型语言模型参数量每年暴增10倍,最近的巨无霸模型MT-NLG,参数更是达到了5300亿! 关于模型参数的「新摩尔定律」已呼之欲出。不过,这可不一定是好事。 如果参数表明,某个参数良好,那么就完全可以了。 如果需要更准确的参数,那就尝试微调模型 (下面会有详细介绍)。 使用小模型 在评估模型时,应该尽量选择能够提供所需精度的最小模型。 剪枝:删除对预测结果影响很小或没有影响的模型参数。 融合:合并模型层(比如卷积和激活)。 在过去的几年里,大型语言模型的规模每年都以10倍的速度增长。看起来,另一个「摩尔定律」就要诞生了。 原来的摩尔定律,现在的命运如何?关于「摩尔定律行将终结」的话题,早几年就已经甚嚣尘上。

    64740编辑于 2023-05-22
  • 来自专栏Python与算法之美

    10模型的优化

    参数是不直接在估计器内学习的参数。在 scikit-learn 包中,它们作为估计器类中构造函数的参数进行传递。 搜索超参数空间以优化超参数需要明确以下方面: 估计器 超参数空间 交叉验证方案 打分函数 搜寻或采样方法(网格搜索法或随机搜索法) 优化模型的常见方法包括 网格搜索法,随机搜索法,模型特定交叉验证, 四, 信息准则优化 模型选择主要由两个思路。 解释性框架:好的模型应该是最能解释现有数据的模型。可以用似然函数来度量模型对数据集描述能力。 预测性框架:好的模型应该是最能预测结果的模型。 通常模型参数越多越复杂,越容易出现过拟合。 所以,模型选择问题在模型复杂度与模型对数据集描述能力(即似然函数)之间寻求最佳平衡。 当样本数量较大时,BIC对参数个数的惩罚大于AIC。 ? 其中L为似然函数,k为模型参数个数,n为样本数量。 linear_model.LassoLarsIC 采用了信息准则进行优化。

    77421发布于 2020-07-17
  • 来自专栏深度学习技术前沿

    10亿参数模型实时运行,GPT推理加速21倍

    12月2日,英伟达发布了最新的TensorRT 8.2版本,对10亿级参数的NLP模型进行了优化,其中就包括用于翻译和文本生成的T5和GPT-2。 举个例子 比如,用EfficientNet图像分类模型进行推理,并计算PyTorch模型和经过Torch-TensorRT优化的模型的吞吐量。 T5的架构能够将相同的模型、损失函数和超参数应用于任何自然语言处理任务,如机器翻译、文档摘要、问题回答和分类任务,如情感分析。 事实证明,预训练-微调模型比从头开始在特定任务数据集上训练的模型具有更好的结果。 T5模型在许多下游自然语言处理任务上获得了最先进的结果。已发布的预训练T5的参数最多高达3B和11B。 已发布的GPT-2模型中,最大的拥有1.5B参数,能够写出非常连贯的文本。

    2.3K30编辑于 2021-12-08
  • 来自专栏FunTester

    当我遇到10亿参数组合

    某个接口参数倒是不多,但是每个参数的范围略大,最大的将近500个枚举范围,小的也是20个。如果把所有参数组合穷举完,粗略估计可能10亿级别的。 我的思路是,先把所有参数遍历一遍,存在一个List当中,然后在去遍历这个List,通过动态QPS压测模型把所有请求发出去。 getHttpResponse(getHttpGet(url, list.get(increment))) } new FunQpsConcurrent(test,"遍历10 下面就着手解决内存的问题,这里参考10 亿条日志回放chronicle性能测试中的思路。 亿参数组合").start() } 随着对队列的学习和使用,最近自己也想写一个10亿级别的日志回放功能,到时候对比chronicle看看性能如何,敬请期待。

    41910编辑于 2022-12-09
  • 来自专栏自然语言处理

    模型生成解码参数速查

    控制输出长度的参数 控制所使用的生成策略的参数 用于操作模型输出 logits 的参数 定义“generate”输出变量的参数 可以在生成时使用的特殊字符

    24610编辑于 2024-01-09
  • 来自专栏技术分享

    ChatGPT模型请求参数学习

    与GPT-4 Turbo和所有GPT-3.5 Turbo模型兼容。 type 是一个可选的字符串参数,默认值为 text。 采样的另一种方式,称为核心采样,模型考虑top_p概率质量的结果。所以0.1意味着只有组成前10%概率质量的令牌被考虑。 tools (array,可选):模型可能调用的工具列表。 如果省略parameters,则定义了一个参数列表为空的函数。 tool_choice (string or object,可选):控制模型调用的函数(如果有)。 因此,0.1 意味着只考虑包含前 10% 概率质量的代币 */ @JsonProperty("top_p") private Double topP = 1d; /** 为每个提示生成的完成次数 通过创建问答模型的问答请求对象, 然后将上述的Message内容 和 需要的一些其他参数传递进去。

    1K10编辑于 2024-05-31
  • 来自专栏相约机器人

    GPT-4参数将达10兆!这个表格预测全新语言模型参数将是GPT-3的57倍

    ---- 【新智元导读】GPT-4将会有高达10兆个参数?近日,有网友在分析了GPT-3和其他语言模型之后大胆预测,GPT-4将会达到GPT-3的57倍! 对于机器学习来说,参数可以算得上算法的关键:它们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。 一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。 作者认为,GPT-4的参数或许可以达到10T,是现在GPT-3模型的57倍还多,而GPT-NeoX的规模则可以和GPT-3持平。 等下,如果是这样,程序员们还能不能在GPT-NeoX上愉快地调参了? 模型 发布时间 Tokens 参数 占1.75T的百分比 训练文本 GPT-2(OpenAI) Feb 2019 10B 1.5B 0.09% 40GB GPT-J(EleutherAI) Jun 2021 今年6月Eleuther AI再次推出GPT-J-6B,它可以说是GPT-Neo的增强版本,顾名思义,模型参数量增加到了6B。

    1.6K60发布于 2021-07-16
领券