货币——也就是我们俗称的“钱”是世界上最可爱的东西之一,可以说没有它的刺激,也就没有我们现在这么繁荣的市场,也没有这么丰富的各类物质产品和幸福生活。
近期笔者和另一开发者wsr在MOKIT程序中加入了fchk(),py2molpro,py2molcas,py2qchem等模块,可用于从PySCF程序向其他量子化学程序传递分子轨道。 (为什么不用Gaussian算完了传轨道给其他程序:因为Gaussian是商业收费程序,有的课题组/机构没买) (3)自己基于PySCF开发新方法,无现有程序对应,但希望正确地传轨道至下一个量化程序进行后续计算 4. 注意到这个模块的名称与上述其他模块不同,这是因为PSI4程序里有个叫fchk()的模块能够在计算完后导出fch文件,因此我们沿用了这个模块名称,希望用过PSI4的人都能对这个名称感到熟悉。 注意Windows预编译版不支持本文功能,内含的是Gaussian与其他量化程序传轨道的小程序。
本文介绍如何使用MOKIT从ORCA向其他量化程序传轨道,有以下可能的用途: (1)在ORCA中进行了RIJK或RIJCOSX加速的大体系HF/DFT计算,想传轨道给其他程序进行后续计算,或想产生fch (4)有些复杂体系可能ORCA可以收敛出特殊的SCF解,而目标程序难以得到,可以传轨道给目标程序。 4. ORCA传轨道给Dalton mkl2dal h2o.mkl 会产生h2o.dal和h2o.mol两个文件。 5. ORCA传轨道给PSI4 mkl2psi h2o.mkl 会产生h2o.A和h2o.inp文件。前者含Alpha轨道,后者含坐标,基组和关键词。 若读者在计算中使用全电子基组,自然无此问题;若用了赝势,按上文操作产生其他量化程序的文件不会含赝势信息,即使轨道系数正确,SCF也会剧烈振荡。这里笔者推荐一种解决办法: Step 1.
Int 4量化用于目标检测 【GiantPandaCV】文章2019 CVPR,讲的是Int 4量化用于目标检测,主要是工程化的一些trick。 感受:这篇文章主要是做了实践工作,可以看作是低bit量化(Int 4)用于目标检测的一些trick。 的Int算法即Int-4。 量化神经网络的过程:1、全精度训练 2、quantization-aware finetune(只在前向传播) 3、fully-quantized inference,这里要fold BN,激活函数和模型参数都要量化到低 Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图
简介 事情其实是这样的:antirez 同步开源了两件配套的事: DeepSeek V4 Flash 的专用量化版 GGUF:托管在 huggingface.co/antirez/deepseek-v4 大概率会持续放 v4 Flash 的更新版本 整篇 README 我读下来感觉是:antirez 真的喜欢这个模型,所以才愿意花精力做一个"专用引擎+专用量化"的组合 量化方案(这部分是干货) 仓库里现在主要有几类文件 : 文件 适合场景 量化重点 DeepSeek-V4-Flash-IQ2XXS-w2Q2K-... 不能单独跑,搭配主模型做投机解码实验 imatrix/DeepSeek-V4-Flash-chat-v2-routed-moe-ds4-1p5m.dat 量化校准数据 给 imatrix 版本服务 legacy 版本:q2 / q4 还在,但现在脚本里更推荐 imatrix 版本 DeepSeek V4 Flash 和 ds4 部署栈 量化思路里有一段我特别认同: ❝路由专家占了模型参数的大头,但每个专家只处理一小部分
本小节主要介绍使用向量化的方式提升性能。 简单线性回归 先来回归一下简单线性回归优化目标以及通过最小二乘的方式求得的参数a,b的解析解。 ? 在上一个小节中,我们是通过循环的方式来求解分子和分母,前面也说过,使用for循环的这种方式,性能相对是比较低的,如果有办法将for循环的计算变成向量之间的计算的话,得益于numpy模块性能就会大大的提升,这就是向量化运算含义 上面我们将对应元素相乘然后相加的操作看成是向量之间的点乘,这也是为什么在最小二乘求解a的解析解的时候要把式子写成相乘累加的形式,这样就可以将其转换成向量之间的运算,进行向量化运算提升性能。 使用向量化运算实现线性回归算法 前面使用sklearn的思想封装了一个名为"SimpleLinearRegression1"的类,在类中使用for循环的方式来求解参数a的值。 ? ? ? ? 实现向量化的代码只需将for循环部分改成向量点乘即可: ? ? ? ? 为了比较两者的性能,将两种方式导入jupyter中,通过魔法命令来验证性能。 ? ? ? ?
这种相对路径的图片显示方法在博文详情页面显示没有问题,但是在首页预览页面图片将显示不出来。如果希望图片在文章和首页中同时显示,可以使用标签插件语法。
大家应该都知道,Python的一个应用方向就是——量化交易,恰好最近收到了清华出版社赠送的 《深入浅出Python量化交易实战》 一书,因为平时对数据科学和机器学习都比较感兴趣,简单试读了一下,今天文末也会送出几本 2021年11月1日后用户将无法从中国大陆使用 Yahoo 的产品与服务) yfinance 另外,yfinance也有类似的功能,使用方法也很简单 Tushare 当然,说到用 Python 进行量化交易 JoinQuant 最后一种方法来获取数据就是用现成的量化平台。这里我用joinquant实验了一下 可以看到,通过平台获取数据,还是比较简单的。 http://mpvideo.qpic.cn/0bc3lqaaaaaaoyaj25qpmbrfaxgdaboaaaaa.f10002.mp4? dis_k=4e6da654e1bbc5d6818c55e3835d64ea&dis_t=1649751382&vid=wxv_2274959819105320960&format_id=10002&support_redirect
语言基本操作①用Rproject管理工作目录(https://mp.weixin.qq.com/s/G-LXN9P2HVLv9v0cvyFJMA)②显示文件列表dir()③删除变量a<-3b <- 1c <- 4u
[源码解析] PyTorch 流水线并行实现 (4)--前向计算 目录 [源码解析] PyTorch 流水线并行实现 (4)--前向计算 0x00 摘要 0x01 论文 1.1 引论 1.1.1 数据并行 下图就是一个依赖图,这里 m = 4, n = 3。即,模型被分成3个子网络,小批次被分割成 4个微批次。 前面三个 F 是三个子网络的前向传播,后面三个 B 是三个子网络的后向传播。 后向传播的计算图是在前向传播过程中动态构造的。 这个排序就是专门在前向传播中使用,前向传播按照这个算法来进行逐一计算。 clock 4 时候,运行图上的 F_{4,1},F_{3,2},F_{2,3} 。
上期回顾 超量化合物库筛选策略–P1 超量化合物库筛选策略–P2 超量化合物库筛选策略–P3 具体步骤 5. #1])]=O','[CX4][Cl,Br,I]','[R][Cl,Br,I]','[N;H2;D1;$(N-!@[#6]);! $(N-C=[O,N,S])]'), ('[CX4][Cl,Br,I]', '[R][Cl,Br,I]'), ('[CX4][Cl,Br,I]', '[N;H2;D1;$(N-!@[#6]);! $(N-C=[O,N,S])]'), ('[CX4][Cl,Br,I]', '[N;H1;D2;$(N(-[#6])-[#6]);! #1])]=O','[CX4][Cl,Br,I]','[R][Cl,Br,I]','[N;H2;D1;$(N-!@[#6]);!
DeepSeek-7B-chat 4bits量化 QLora 微调 概述 本节我们简要介绍如何基于 transformers、peft 等框架,对 DeepSeek-7B-chat 模型进行 Lora =True, # 是否在4位精度下加载模型。 如果设置为True,则在4位精度下加载模型。 bnb_4bit_compute_dtype=torch.half, # 4位精度计算的数据类型。 bnb_4bit_quant_type="nf4", # 4位精度量化的类型。这里设置为"nf4",表示使用nf4量化类型。 bnb_4bit_use_double_quant=True # 是否使用双精度量化。如果设置为True,则使用双精度量化。
d50.index(b3) [1] 0.5 > d50.index(1:100) [1] 0.5 > d50.index(1:1000) [1] 0.5 > d50.index(c(1,2,2,2,3,4) 总结 上面我写的4个公式里面只有基尼系数计算必须输入的是数值,或者把非数值变量取频数后再进行计算。而且仅仅是只有基尼系数是越大,贫富差距越大,多样性越差。其它的数值都是越小多样性越差。
【GiantPandaCV导语】本文记录了作者使用NCNN量化YOLOV4模型并进行推理的全过程,过程比较详细,希望对想使用NCNN这一功能的读者有帮助。 (ncnn2table)新特性 支持 kl aciq easyquant 三种量化策略 支持多输入的模型量化 支持RGB/RGBA/BGR/BGRA/GRAY输入的模型量化 大幅改善多线程效率 离线进行 ,安装和编译过程可以看我的另一条博客: https://zhuanlan.zhihu.com/p/368653551 2.2 yolov4-tiny量化int8 在量化前,先不要着急,我们先看看ncnn 也就是说,在进行量化前,我们需要yolov4-tiny.bin和yolov4-tiny.param这两个权重文件,因为想快速测试int8版本的性能,这里就不把yolov4-tiny.weights转yolov4 /ncnn2int8 yolov4-tiny-opt.param yolov4-tiny-opt.bin yolov4-tiny-int8.param yolov4-tiny-int8.bin yolov4
传统INT4量化在推理过程中无法直接处理4位数值,必须先将INT4权重反量化为16位数值才能进行计算,这一额外步骤虽然在SGLang和vLLM等现代推理框架中已经高度优化,但仍然产生计算开销并限制了整体速度 无需反量化操作直接带来了更高的推理吞吐量。 如果希望保持激活精度以最大化模型准确性,可选择NVFP4A16方案,该方案仅量化权重,通常无需校准数据集。 值得注意的是,NVFP4还对激活进行量化,但精度基本保持稳定,特别是与仅量化权重的NVFP4A16相比差异很小。 测试结果还证实了激活量化对保持速度优势的关键作用——仅量化权重的NVFP4A16模型速度提升有限,仅略快于INT4模型。 从技术角度看,NVFP4模型的QLoRA微调是完全可行。NVFP4本质上只是一种数据类型和量化格式,QLoRA可以应用于任何格式和数据类型的量化模型。
模型4-bit量化加载代码import osimport torchfrom transformers import AutoTokenizer, Llama4ForConditionalGeneration 量化参数,修改变量名,降低模型显存占用quant_4bit_config = BitsAndBytesConfig( load_in_4bit=True, # 开启4-bit量化 bnb_4bit_use_double_quant =False, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16,)......上述代码执行后,模型将以4-bit量化的形式完成加载 总结本文基于实际的客户咨询项目,详细拆解了如何通过云GPU平台实现Llama 4 Scout大模型的低成本、轻量化微调,通过4-bit量化、LoRA低秩适配、多GPU分布式训练等技术优化,将原本需要4张高端 后续我们将继续探索更大规模Llama 4模型的轻量化微调技术,同时针对更多垂直领域开展大模型的适配研究,优化模型的泛化能力与行业适配性,推动大语言模型的普惠化落地。
在我过去两年的实践中,我系统性地测试了INT8和INT4量化技术在不同模型架构上的表现,发现量化技术不仅能够将模型大小压缩2-4倍,还能在特定硬件上实现1.5-3倍的推理速度提升。然而,量化并非银弹。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限,但也带来了更大的精度挑战:class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术,通过将权重分成小组并为每组计算独立的量化参数,可以显著提高量化精度。 self.out_features, self.in_features) def forward(self, x: torch.Tensor) -> torch.Tensor: """前向传播 量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署
父组件向子组件传值 @Input 文件目录 父组件: father.template.html
文章目录 一、要解决的问题 二、量化预置 三、长度量化 四、快捷键及设置 1、快捷键及设置 2、量化开头 3、量化 MIDI 事件结尾 4、量化 MIDI 事件长度 五、对 MIDI 进行量化操作 本博客中的所有设置都是在 , 当前是 4/4 拍 , 一个全音符有 4 拍 , 显示每个 16 分音符的格子 ; 这是设置了 " 1/32 " 量化预置参数 , 每拍显示 8 个格子 , 每个格子的长度是 32 分音符 ; 2、量化开头 量化开头 : 默认按键 " Q " 是量化开头 ; 将所有音符的开始位置对齐到 " 量化预制 " 对应的格子中 ; 该设置是系统自带的 , 不建议修改 ; 3、量化 MIDI 按钮 , 然后点击确定 , 此时 " 量化 MIDI 事件结尾 " 操作就被指定了快捷键 " Ctrl + F12 " ; 4、量化 MIDI 事件长度 量化 MIDI 事件长度 : 使用相同设置 " 快捷键 , 量化音符长度 , 此时音符都排列整齐了 , 音符开头和音符长度进行了量化 , 音符结尾自然也进行了量化 ;
专属云架构演进与多级算力融合 将传统虚拟化平台向云原生专属云演进,提供从IaaS到PaaS的产品交付: 部署形态全覆盖:提供建设区域行业云平台(TCE,具备全栈自主供应与多地多活)、私有化PaaS平台( 多级算力调度:系统性支持裸金属(自研HostOS)、VM虚拟机、KubeVM轻量化虚机以及云原生容器,通过多级算力融合替代传统VMWare架构。 2. 第三章:量化云原生底座效能:资源利用率与并发处理能力的指数级跃升 通过自研操作系统与大规模多集群容器算力平台(TCS)的底层调优,腾讯云在网络层(VPC网络加速HARP、RDMA网络加速TCCL)与框架层进行深度优化 ,在实际应用场景中实现了量化的业务指标提升: 计算资源ROI指标:通过服务质量监控与算力隔离,通用算力资源利用率实现 提升200%+;GPU容器部署密度实现 提升200%+。