首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏奇点大数据

    话说量化4

    货币——也就是我们俗称的“钱”是世界上最可爱的东西之一,可以说没有它的刺激,也就没有我们现在这么繁荣的市场,也没有这么丰富的各类物质产品和幸福生活。

    71620发布于 2018-09-14
  • 来自专栏DevOps时代的专栏

    量化 Jenkins 最佳实践

    前言 今天分享主题主要分成三个部分: 第一部分,Jenkins跟持续交付; 第二部分,Jenkins轻量化思路; 第三部分,Jenkins高可用实践。 我们不希望Jenkins承载更多的东西,这也是为什么我提出轻量化Jenkins的概念,初衷在于给Jenkins减负。 ? 接下来我们看一看Jenkins的系统架构。 2.6、轻量化解决之道 那么轻量化的概念到底是什么意思呢? 那么在实践Jenkins轻量化解决之道的过程中,我总结了一些套路和体系,其中以下八点内容希望可以帮助大家解决一些实际生产工作中Jenkins的性能问题,同时扩展大家的思路,共同探索Jenkins应用的最佳实践 2.6.1、最佳实践一、分布式架构。 ?

    4.9K90发布于 2018-02-02
  • 来自专栏FunTester

    量化模拟线上流量实践

    在之前的文章分段随机实践—模拟线上流量中,分享了分段模拟的实现,在实际工作中应用这种方法可以对线上流量进行更加精细化的模拟。 今天分享一下实际工作中某个服务模块中的应用。 实践 这里先分享接口流量,再分享服务流量,因为两者有依赖关系。 response) response } 通过random方法即可将配置MApi#BS_ARGS中的参数按照value比例传到方法M#bs(java.lang.String)中,达到量化模拟线上流量的目的 实现如下: /** * 量化模拟全量接口 */ public void all() { def url = random(MApi.urls) if (url

    41230发布于 2021-10-20
  • 来自专栏HappenLee的技术杂谈

    Doris开发手记4:倍速性能提升,向量化导入的性能调优实践

    正好有Doris社区的小伙伴吐槽向量化的导入性能表现并不是很理想,就借这个机会对之前开发的向量化导入的工作进行了性能调优,取得了不错的优化效果。 1.看起来很慢的向量化导入 问题的发现 来自社区用户的吐槽:向量化导入太慢了啊,我测试了xx数据库,比Doris快不少啊。有招吗? 啊哈?慢这么多吗? 那我肯定得瞅一瞅了。 向量化 非向量化 1230s 1450s ClickBench是典型的大宽表的场景,并且为Duplicate Key的模型,原则上能充分发挥向量化导入的优势。 优化前 优化后 980s 776s 3.一些相关的优化的TODO: CSV的数据格式解析:通过4kb的cache 来预取多行数据,利用并SIMD指令集来进一步性能优化 缺页中断的优化:部分内存分配拷贝过程之中的 page fault的问题, 可以考虑引入大页内存机制来进一步进行缺页中断,页内存cache的优化 4.小结 当然,笔者进行的向量化导入工作只是Doris向量化导入中的一部分工作。

    1K10编辑于 2022-10-31
  • 来自专栏HappenLee的技术杂谈

    Doris开发手记4:倍速性能提升,向量化导入的性能调优实践

    正好有Doris社区的小伙伴吐槽向量化的导入性能表现并不是很理想,就借这个机会对之前开发的向量化导入的工作进行了性能调优,取得了不错的优化效果。 1.看起来很慢的向量化导入问题的发现来自社区用户的吐槽:向量化导入太慢了啊,我测试了xx数据库,比Doris快不少啊。有招吗?啊哈?慢这么多吗? 那我肯定得瞅一瞅了。 向量化非向量化1230s 1450s ClickBench是典型的大宽表的场景,并且为Duplicate Key的模型,原则上能充分发挥向量化导入的优势。 优化前优化后980s 776s 3.一些相关的优化的TODO:CSV的数据格式解析:通过4kb的cache 来预取多行数据,利用并SIMD指令集来进一步性能优化缺页中断的优化:部分内存分配拷贝过程之中的 page fault的问题, 可以考虑引入大页内存机制来进一步进行缺页中断,页内存cache的优化4.小结当然,笔者进行的向量化导入工作只是Doris向量化导入中的一部分工作。

    1.7K01编辑于 2022-10-21
  • 来自专栏深度学习那些事儿

    一起实践量化番外篇——TensorRT-8的量化细节

    一起实践量化番外篇——TensorRT-8的量化细节 好久不见各位~ 这篇文章很久之前写完一直没有整理,最近终于是整理差不多了,赶紧发出来。 本文接着《必看部署系列-神经网络量化教程:第一讲!》 这是偏实践的一篇,主要过一下TensorRT对于explict quantization的流程和通用的量化思路。 quantize_scale_node with Conv_561 [08/25/2021-17:30:07] [V] [TRT] ConstWeightsFusion: Fusing deconv_layers.4. 496455309852654971, 881[Int8(1,512,-46,-47)] -> 895[Int8(1,256,-46,-47)] Layer(CaskDeconvolution): deconv_layers.4. https://github.com/NVIDIA/TensorRT/issues/1519 目前来看还是无法解决的: thanks for update, we will check, and the c%4

    4.5K51编辑于 2023-10-19
  • 来自专栏GiantPandaCV

    INT4量化用于目标检测

    Int 4量化用于目标检测 【GiantPandaCV】文章2019 CVPR,讲的是Int 4量化用于目标检测,主要是工程化的一些trick。 感受:这篇文章主要是做了实践工作,可以看作是低bit量化(Int 4)用于目标检测的一些trick。 的Int算法即Int-4。 并且让activation在[,] (0 < < 1) 内,文章设置n=20,=0.999. 4、折叠bn。 Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图

    1.4K20发布于 2021-03-24
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-4量化

    本小节主要介绍使用向量化的方式提升性能。 简单线性回归 先来回归一下简单线性回归优化目标以及通过最小二乘的方式求得的参数a,b的解析解。 ? 在上一个小节中,我们是通过循环的方式来求解分子和分母,前面也说过,使用for循环的这种方式,性能相对是比较低的,如果有办法将for循环的计算变成向量之间的计算的话,得益于numpy模块性能就会大大的提升,这就是向量化运算含义 上面我们将对应元素相乘然后相加的操作看成是向量之间的点乘,这也是为什么在最小二乘求解a的解析解的时候要把式子写成相乘累加的形式,这样就可以将其转换成向量之间的运算,进行向量化运算提升性能。 使用向量化运算实现线性回归算法 前面使用sklearn的思想封装了一个名为"SimpleLinearRegression1"的类,在类中使用for循环的方式来求解参数a的值。 ? ? ? ? 实现向量化的代码只需将for循环部分改成向量点乘即可: ? ? ? ? 为了比较两者的性能,将两种方式导入jupyter中,通过魔法命令来验证性能。 ? ? ? ?

    89920发布于 2019-11-13
  • 来自专栏DevOps时代的专栏

    华为专家 | 轻量化微服务测试实践

    接下来我会从以下四个方面和大家分享微服务自动化测试方面的实践: 微服务测试面临的挑战。 微服务测试策略。 轻量化微服务测试实践。 轻量化微服务测试总结。 工程实践方面,需要考虑持续集成流水线,测试策略方面使用的成熟度,以及测试工具是不是足够轻量化。 三、轻量化微服务测试实践 1、工程实践:单元测试 单元测试方面 第一,单元测试并不要去追求100%的代码覆盖率,刚才也是讲了,其实应该综合去衡量。 4、工程实践:集成测试 最后讲一下集成测试,集成测试是从用户角度去验证完整的流程,我们建议尽量少做集成测试,提倡测试前移,能用下层的测试测到同样功能的话,尽可能用下层的测试去做。 最后讲了工程实践和组织实践,包括每种测试类型下我们应该做的事情和不应该做的事情,还推荐了一些轻量化的测试工具。

    3.2K101发布于 2018-02-02
  • 来自专栏诡途的python路

    ——python量化实践

    阅前提醒:本文仅作技术交流,不做投资建议,投资有风险,入市须谨慎 1.什么是量化交易? 我们利用计算机技术,通过建模分析、优化参数等手段,从历史金融数据中挖掘出影响投资的指标,使用程序进行自动交易来获得“超额”的收益,这种投资方法就叫做量化交易。 现在,很多量化机构将人工智能和机器学习与量化策略相结合。国内的一些顶尖私募,比如:九坤、幻方、朱雀等都在使用AI量化策略,从各大公司的招聘公告上也可以看出这点。 2.分析展示 ? image.png 3.逻辑解读 image.png 4.代码展示 数据来源:Tushare金融大数据开放社区 运行准备:点击上方官网,注册tushare账户,获取token 获取数据 #导入库 import

    82521发布于 2020-10-16
  • 来自专栏Ldpe2G的个人博客

    卷积神经网络训练模拟量化实践

    对训练好的网络做量化,在实践中尝试过TensorRT[5][8]的后训练量化算法,效果还不错。 而本文的内容就是介绍论文[3][4]和复现其过程中的一些细节。 ,先看上面那条线从左到右数第4个圆点,通过除以缩放因子之后就会映射 124到125之间的一个浮点数,然后通过最近邻取整就取到了125,再通过乘以缩放因子返回 上面第五个圆点,最后就用这个有误差的数替换原来的去 在实践中发现有些任务权值不分通道量化效果也不错,这个还是看具体任务吧,不过本文 给的实验代码是没分的。 结束语 以上内容是根据最近的一些工作实践总结得到的一篇博客,对于论文的实现很多地方都是我自己 个人的理解,如果有读者发现哪里有误或者有疑问,也请指出,大家互相交流学习:)。

    1.9K30发布于 2019-01-13
  • 来自专栏Rust

    Rust 量化统计实战系列 第 1 篇:Python 原型 + Rust 生产:量化开发最佳实践

    量化开发领域,速度与可靠性往往是一对矛盾体。如何既能快速验证策略想法,又能将核心逻辑稳定、高效地推向生产环境? 两者优势互补,形成高效的量化开发闭环。 Rust 核心重写 —— 将性能关键路径用 Rust 实现(可通过 PyO3 暴露) 4. 一致性测试 —— 确保 Python 与 Rust 结果完全一致 5. 流式处理 核心计算密集任务 Rust 无 GIL,真并行,高吞吐 长期服务稳定性 Rust 内存安全,适合 7×24 运行 API 服务与编排 Python FastAPI 生态成熟 混合开发最佳实践原则 4. 性能敏感路径用 Rust:仅重写真正耗时的热点函数,其余保持 Python 实现。 5. Parquet 作为数据交换标准:Python 和 Rust 均优先读写 Parquet 文件。

    14911编辑于 2026-04-23
  • 来自专栏可以叫我才哥

    使用Python进行量化投资A股的4 种方法!

    大家应该都知道,Python的一个应用方向就是——量化交易,恰好最近收到了清华出版社赠送的 《深入浅出Python量化交易实战》 一书,因为平时对数据科学和机器学习都比较感兴趣,简单试读了一下,今天文末也会送出几本 2021年11月1日后用户将无法从中国大陆使用 Yahoo 的产品与服务) yfinance 另外,yfinance也有类似的功能,使用方法也很简单 Tushare 当然,说到用 Python 进行量化交易 JoinQuant 最后一种方法来获取数据就是用现成的量化平台。这里我用joinquant实验了一下 可以看到,通过平台获取数据,还是比较简单的。 http://mpvideo.qpic.cn/0bc3lqaaaaaaoyaj25qpmbrfaxgdaboaaaaa.f10002.mp4? dis_k=4e6da654e1bbc5d6818c55e3835d64ea&dis_t=1649751382&vid=wxv_2274959819105320960&format_id=10002&support_redirect

    1.8K10编辑于 2022-04-12
  • 来自专栏GiantPandaCV

    低比特量化之DoreFa-Net理论与实践

    kernel_size=5, stride=1, padding=2, abits=abits, wbits=wbits), DorefaConv2d(cfg[3], cfg[4] , kernel_size=1, stride=1, padding=0, abits=abits, wbits=wbits), DorefaConv2d(cfg[4], output = F.linear(input=q_input, weight=q_weight, bias=self.bias) return output 4. 将DoreFa-Net应用到YOLOV3上 上次介绍的YOLOV3剪枝方法汇总 文章中还剩下一个量化方法当时没有提到,实际上它的量化方法就是DoreFa-Net量化方法,然后我们来看一下量化效果: ? YOLOV3使用DoreFa-Net的量化实验结果 但是需要注意的是,在框架下量化训练过程都还是在float32精度下的表达,只是尺度scale到量化的尺度上了,能够验证量化的有效性。

    1.5K10发布于 2020-07-28
  • 来自专栏CDA数据分析师

    译文 | 量化投资教程:投资组合优化与R实践

    fImport) require(PerformanceAnalytics) require(tseries) require(stats) options(scipen=100) options(digits=4) 3.下个季度的开始,循环回到第一步 4.在我们的投资组合中至少需要3个股票。 5.没有做空。 6.用2%作为无风险利率。 7.每次分析的第一个季度如果优化失败就使用同等权重的投资组合。 4.同样,把最小收益的下界定在.005%。 5.如果最大收益是< 0,那么简单地找到最小方差投资组合。 6.添加一个maxWeight选项,让我们限制每个证券标的的权重。

    2.3K81发布于 2018-02-24
  • 来自专栏Hadoop数据仓库

    ShardingSphere实践4)——读写分离

    读写分离 (1)添加资源 (2)创建表 (3)创建读写分离规则 (4)读写数据 2. 读负载均衡 (1)轮询算法 (2)随机访问算法 (3)权重访问算法 3. (host=172.18.18.102, port=3306, db=db4, user=wxy, password=mypass); (2)创建表 create default single table 为了满足多主写强一致性,组复制比简单的异步复制性能衰减严重,量化对比结果参见“8. 主从、半同步、组复制性能对比测试”。出于这个原因,本篇不做动态读写分离的演示。 (4)读写数据         预览实际执行的SQL,确认路由符合预期。 , type(name=weight, properties(read_ds2=1,read_ds4=0)));         预览实际执行的SQL,因为read_ds4的权重指定为0,所以每次查询都路由到

    1.6K31编辑于 2022-06-05
  • 来自专栏深度学习那些事儿

    一起实践神经网络量化系列教程(一)!

    本篇系列文的主要内容计划从头开始梳理一遍量化的基础知识以及代码实践。因为老潘对TensorRT比较熟悉,会主要以TensorRT的量化方式进行描述以及讲解。 所以也打算参考Pytorch、NCNN、TVM、TFLITE的量化op的现象方式学习和实践一下。 当然这只是学习计划,之后可能也会变动。 因为FP16的量化很简单,所以实际中我们谈论的量化更多的是INT8的量化,当然也有3-bit、4-bit的量化,不过目前来说比较常见比较实用的,也就是INT8量化了,之后老潘的重点也是INT8量化。 那么经过INT8量化后的模型: 模型容量变小了,这个很好理解,FP32的权重变成INT8,大小直接缩了4倍 模型运行速度可以提升,实际卷积计算的op是INT8类型,在特定硬件下可以利用INT8的指令集去实现高吞吐 对于对称量化,假设当前根据权重分布,选取的α\alphaα为4,那么s=127/α=127/4=31.75s=127/{\alpha}=127/4=31.75s=127/α=127/4=31.75。

    2K40编辑于 2023-10-19
  • 来自专栏生信技能树

    信息熵的4量化指标的R代码实现

    d50.index(b3) [1] 0.5 > d50.index(1:100) [1] 0.5 > d50.index(1:1000) [1] 0.5 > d50.index(c(1,2,2,2,3,4) 总结 上面我写的4个公式里面只有基尼系数计算必须输入的是数值,或者把非数值变量取频数后再进行计算。而且仅仅是只有基尼系数是越大,贫富差距越大,多样性越差。其它的数值都是越小多样性越差。

    1.9K40发布于 2020-05-26
  • 来自专栏GiantPandaCV

    NCNN+INT8+YOLOV4量化模型和实时推理

    【GiantPandaCV导语】本文记录了作者使用NCNN量化YOLOV4模型并进行推理的全过程,过程比较详细,希望对想使用NCNN这一功能的读者有帮助。 (ncnn2table)新特性 支持 kl aciq easyquant 三种量化策略 支持多输入的模型量化 支持RGB/RGBA/BGR/BGRA/GRAY输入的模型量化 大幅改善多线程效率 离线进行 ,安装和编译过程可以看我的另一条博客: https://zhuanlan.zhihu.com/p/368653551 2.2 yolov4-tiny量化int8 在量化前,先不要着急,我们先看看ncnn 也就是说,在进行量化前,我们需要yolov4-tiny.bin和yolov4-tiny.param这两个权重文件,因为想快速测试int8版本的性能,这里就不把yolov4-tiny.weights转yolov4 /ncnn2int8 yolov4-tiny-opt.param yolov4-tiny-opt.bin yolov4-tiny-int8.param yolov4-tiny-int8.bin yolov4

    3K30发布于 2021-05-18
  • 来自专栏拓端tecdat

    JupyterLab实现医疗推理数据集Llama4Scout的4-bit量化、LoRA低秩适配、SFT有监督微调|轻量化适配

    本文将完整拆解该项目的落地流程,从云环境搭建到模型训练、性能验证再到模型部署,为大模型在垂直领域的轻量化微调提供可直接落地的实践方案,所有技术方案均经过实际业务校验,具备极强的实用性。 模型4-bit量化加载代码import osimport torchfrom transformers import AutoTokenizer, Llama4ForConditionalGeneration 量化参数,修改变量名,降低模型显存占用quant_4bit_config = BitsAndBytesConfig( load_in_4bit=True, # 开启4-bit量化 bnb_4bit_use_double_quant =False, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16,)......上述代码执行后,模型将以4-bit量化的形式完成加载 总结本文基于实际的客户咨询项目,详细拆解了如何通过云GPU平台实现Llama 4 Scout大模型的低成本、轻量化微调,通过4-bit量化、LoRA低秩适配、多GPU分布式训练等技术优化,将原本需要4张高端

    14910编辑于 2026-02-10
领券