搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大前端修炼手册
如何给有状态的LLM系统写一套量化评测
先把"对照组"设计对所有评测的出发点是：你要让变量只剩一个。那不是评测，那是两个完全不同系统在打架。必须是同一个 LLM 基座，只切增强层的开关。面板顶部一眼看清整个评测体系的信息架构：均分对比 + 胜负统计 + 维度分组经验二：用"能力差值"反推用例用例不是想出来的，是从"Full 有而 Raw 没有的能力"反推出来的。能不能把自己增强层的价值量化出来，是能不能在这轮竞争中站住脚的前提。如果这篇文章对你有帮助，欢迎分享给正在做 Agent / RAG / Chatbot 评测的朋友。评测基础设施是最容易被忽视、但回报最高的投入。
10810编辑于 2026-04-21
来自专栏量子位
首个二值量化评测基准来了，北航NTUETH联合提出，论文登ICML 2023
秦浩桐投稿量子位 | 公众号 QbitAI 二值量化可以有效节约AI模型消耗的资源。具体而言，它可以把32位浮点数值压缩到1位，大大降低了存储和运算成本。然而，此前对二值量化模型质量的评测一直停留在理论层面，难以对算法在准确性和效率方面的表现进行全面评估。为此，来自北京航空航天大学、南洋理工大学、苏黎世联邦理工大学的研究者，全新推出了首个二值量化评测基准BiBench。相关论文已被ICML 2023接收。神经网络二值化作为将模型参数位宽减少到1位的压缩方法，被视为最极致的量化技术，能够极大地降低模型存储开销，并通过高效的位运算加速模型推理。评估轨道及指标如图1所示，BiBench的评估主要包含了面向精度的评测以及面向效率的评测这两个方面，共计六个评测轨道，每个轨道都有相应的评测指标，有效地解决了在生产和部署二值化网络中面临的实际挑战。
45100编辑于 2023-05-12
来自专栏搜狗测试
软件品质评测系统-评测体系
2 ● 评测体系的内容 ● 评测体系可大可小，根据评测的内容而有所不同，一个完整的评测体系应包含：评测对象评测属性评测场景评测指标在进行评测体系的设计之前，首先应明确评测对象是什么，可以大到一个系统有了评测对象后，根据产品的需求或者应解决的问题，就可以确认哪些评测属性，比如准确度，覆盖度，再比如多样性，健壮性等。评测属性再向下，确认好评测属性的应用场景及指标项，综合形成评测矩阵。将以上结合，就是一个完整的评测体系。 ? 3 ● 评测体系的设计方法 ● 评测对象相对来说比较明确，接下来就是被测对象的特质进行评测属性的选择，以及确认好评测属性后进行评测矩阵的划分。评测场景的选择确认好了评测属性以后，接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。评测矩阵当评测属性，评测场景及评测指标一一敲定后，我们可以根据矩阵思想，将属性，场景及指标建立成一个二维矩阵，后续可以按照迭代的版本维护起来，全面的展示该评测对象需要重点评测的全部内容。
3.1K20发布于 2020-07-14
来自专栏云原生实验室
3个核心指标帮你量化RAG系统，内附FastGPT最新评测数据
在开始评测之前，我们需要准备一个包含标准问题和标准答案的评测数据集。当评测过程因服务崩溃等意外中断时，可以使用相同的 query_id 重新发起请求，继续未完成的评测任务。返回信息：接口会返回一个 query_id，可用于后续通过查询接口获取评测结果。可以通过评测接口获取，如果遗失可以在 docker logs 中查看返回信息：接口会以 CSV 文件流的形式返回包含各项评价指标的评测结果。效果演示启动 Docker 容器后，利用测评接口来访问评测服务，可以得到下图的信息，其中的 file_id 就可以用在查询接口中：可以通过 docker logs 命令实时查看评测任务的处理进度：评测所需的输入文件格式如下：评测完成后，输出文件将包含详细的评测指标：输出文件的最后一行会显示所有评测指标的平均值，方便整体评估系统性能。
1.1K10编辑于 2024-12-20
来自专栏搜狗测试
软件品质评测系统-评测结果展示
1 ● 为什么要进行数据展示 ● 在前几次的分享中，设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后，我们会拿到第一手的评测数据。在我们之前的实践过程中，拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录，并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现对于在评测设计时选定的评测指标，需要准确完整地展现在评测系统中。我们据此设计了一个评测的结果报告，每次评测完成后会通过该报告给出评测结论： ? 即我们最终展示给用户的评测结论以及各类图标数据，都应当与原始的评测结论、数据保持一致，同时评测结果的展示要与最终上线后预期的结果或趋势保持一致，这样的评测结论才是可信的、有指导意义的。
2.8K20发布于 2020-08-11
来自专栏前行的CVer
LLM评测
当前开源大模型中，Mixtral-8x22B-Instruct-v0.1在 MT-Bench（多轮会话&指令遵循）、MMLU（信息知识）中表现基本持平头部开源模型，并比GPT3.5略好，但在TruthfulQA（客观事实）上略逊于头部开源模型。Mixtral模型当前处于开源大模型第一梯队。但通过Mixtral Demo体验，其支持语言主要为欧洲语系，且在回复质量上还是存在诸如指令遵循、信息冗余、misinfo等明显问题。
1.7K10编辑于 2024-08-05
来自专栏韩曙亮的移动开发专栏
【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )
文章目录一、要解决的问题二、量化预置三、长度量化四、快捷键及设置 1、快捷键及设置 2、量化开头 3、量化 MIDI 事件结尾 4、量化 MIDI 事件长度五、对 MIDI 进行量化操作本博客中的所有设置都是在 ; 三、长度量化 ---- 长度量化参数设置 : 在下图处设置长度量化 , 如果设置成 " 1/16 " , 那么使用鼠标拖动时 , 音符的长度只能是 16 分音符的整数倍 ; 上述的量化预置 ; 2、量化开头量化开头 : 默认按键 " Q " 是量化开头 ; 将所有音符的开始位置对齐到 " 量化预制 " 对应的格子中 ; 该设置是系统自带的 , 不建议修改 ; 3、量化 MIDI 事件结尾量化 MIDI 事件结尾 : 首先选中左侧的 " 量化类别 / 量化 MIDI 事件结尾 " , 点击右侧的 " 输入快捷键 " 下方的输入框 ; 输入快捷键后 , 点击 " 指定 " " 快捷键 , 量化音符长度 , 此时音符都排列整齐了 , 音符开头和音符长度进行了量化 , 音符结尾自然也进行了量化 ;
4.6K00编辑于 2023-03-28
来自专栏算法之名
量化交易
针对可交易的投资商品，理性地运用逻辑分析和回归统计判断市场趋势称为量化交易。量化策略量化策略就是赚钱"因子"，可以分为基本面和技术面。
48610编辑于 2024-08-21
来自专栏图像处理与模式识别研究所
图像量化
from skimage import data from matplotlib import pyplot as plt image=data.coffee()#原始图像 ratio=128#设置量化比率 range(image.shape[2]):#图片通道数 image[i][j][k]=int(image[i][j][k]/ratio)*ratio#对图像中的每个像素进行量化本文的图像量化过程是将256级的彩色图像量化到2级的彩色图像。量化等级越多，量化比率越低，所得图像层次越丰富，灰度分辨率越高，图像质量好，但数据量大；量化等级越少，量化比率越高，图像层次欠丰富，灰度分辨率低，可能会出现假轮廓，图像质量变差，但数据量较小。图像量化的作用是在一定主观保真图像质量的前提下，丢掉对视觉影响不大的信息，以获得较高的压缩比。
78720编辑于 2022-05-28
Python 量化
Python 量化是指利用 Python 编程语言以及相关的库和工具来进行金融市场数据分析、策略开发和交易执行的过程。 Python 由于其简洁、易学、强大的生态系统和丰富的金融库而成为量化交易的首选编程语言之一。量化交易在金融领域得到广泛应用，它允许交易者通过系统性的方法来制定和执行交易策略，提高交易效率和决策的科学性。量化主要是通过数学和统计学的方法，利用计算机技术对金融市场进行量化分析，从而制定和执行交易策略。更多 Python 量化内容可以查看：Python 量化交易。实例应用接下来我们先看一个 Python 量化简单的应用实例，可以使用移动平均策略，使用雅虎金融数据来实现。该策略的基本思想是通过比较短期和长期移动平均线来生成买入和卖出信号。
36010编辑于 2025-12-16
来自专栏机器学习、深度学习
模型量化
下图显示不同量化策略对速度的提升影响 ? 量化卷积过程 ? 加速策略： AND, XOR and bitcount operations 训练过程 ? 分类性能对比 ?
88510发布于 2019-05-26
来自专栏PHP学习网
PHP技能评测
公司出了一些自我评测的PHP题目，其中好多题目在面试的时候都会碰到，大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用?
1.4K30编辑于 2022-08-03
来自专栏LuckQI
icx项目评测
（注：在评测公链项目时，我把“使用区块链的必要性”调整为了“产品特色与创新”） ◆代币升值逻辑：16/40 这一点看的有点困惑，感觉icon项目代币升值逻辑的不确定性主要体现在两个方面：一是每年增发与否取决于一个名叫
1.6K20发布于 2018-07-19
来自专栏LuckQI
项目评测etherparty
●总得分：51.1/100分想做的目标很好，但是产品特色和目前的团队配置可能还需要进一步的补强，未来也有必要根据后续的推动情况，作进一步的动态评测。
1.6K20发布于 2018-07-19
来自专栏数据结构与算法
2840 WIKIOI——评测
2840 WIKIOI——评测时间限制: 1 s 空间限制: 2000 KB 题目等级 : 白银 Silver 题目描述 Description Wikioi上有一题有N个测试点，时限为
1.5K80发布于 2018-04-13
来自专栏小明的博客
量化交易
量化投资没有确切的定义，它泛指通过数学分析、挖掘价格波动规律，或者通过对相关宏观经济、财务数据、量价关系、资金交易等数据进行建模，寻找数据之间的关系，以获得稳定利润为目标，持续计算生成定量化的投资信号多资产多策略配置: 对冲风险更高收益技术信息理论的三大假设市场行为包容消化一切信息市场运行以趋势方式演变历史会重演（我们可以通过历史数据来推断未来走势绩效评估指标绩效指标也被称为风险指标，它们也是量化投资的基石
2.7K20编辑于 2022-09-06
来自专栏算法码上来
【白话模型量化系列一】矩阵乘法量化
然后整数矩阵的数值范围其实就是有符号整数的表示范围，，为了实现的简单，我们只量化到，这样就和一样关于零点左右对称了。如果我们强行还按照的范围来量化relu结果的话会怎么样呢？这样会导致整数区间永远不会有数字，因为根本没有负数浮点数的存在。这样就白白浪费了127个整数，就会导致量化的精度大大受损。总结如果矩阵乘法两个输入的范围都是关于零点对称的，那么计算公式为：「量化：」「反量化：」如果矩阵乘法其中一个输入是relu的结果，那么计算公式为：「量化：」「反量化：」当然还有很多其他情况此外为了减小量化的损失，还需要在模型结构中插入伪量化节点，然后进行量化感知训练（QAT）。接着还需要将finetune后的模型存储为int8格式。然后还需要开发加载int8模型的推理加速库代码。网上关于量化的优秀教程非常多，我不会讲太多理论上的量化知识，只会从实践的角度来白话一下我们在Transformer模型量化过程中做的一些尝试。
1.3K20发布于 2021-12-02
来自专栏PPV课数据科学社区
十年量化老兵谈量化：玩转量化投资你需要这些技能
量化能看到更多的机会，比如说现在A股有将近3000只股票，如果不用量化，靠一个人的力量最多管理到300只已经很难了，但量化，30000只的管理和3000只几乎没什么差异。【投研体系】“量化老兵投资体系三大支柱” 问：您这些年一直是做量化投资的，能否讲讲您的量化投资体系？持有封基：我入市整整十年，一直是量化投资。基本面、技术面，只要能吃饱的都是一碗好面。 “构建量化模型的四个步骤：猜想、建模、回测、实战” 问：具体而言，您是如何构建量化模型的吗？如何确定量化因子的？持有封基：量化四步骤——猜想、建模、回测、实战。 “做好量化投资：有数学天赋很重要” 问：你做量化差不多十年了，在您看来要做好量化投资，需要做些什么准备？持有封基：除了热爱投资，还需要热爱数学，热爱量化，这是最根本的。因为量化投资是一条充满荆棘的道路，只有真正热爱才会浸润在量化中以此为乐。
2.7K61发布于 2018-04-24
来自专栏NetCore
平民化量化平台-刚米量化
目前国内量化基金规模已经越来越庞大，量化投资的规模更是巨大，计算机的运行速度已经远远超过我们大脑，虽然说无法做到每次投资都赚钱，但只要数据够大，胜率超过50%以上，甚至60%以上，经过长时间的复利，就能达到很好的效果量化交易具有以下几个方面的特点： 1、纪律性。根据模型的运行结果进行决策，而不是凭感觉。纪律性既可以克制人性中贪婪、恐惧和侥幸心理等弱点，也可以克服认知偏差，且可跟踪。 2、系统性。普通人是否适合量化？ 1 其实普通人很难进行量化，因为量化的基础是基于历史大数据，如果实盘还需要实时数据，这些都是很耗费人工和资金的。那普通人想要尝试量化，该如何做呢？在刚米量化平台你可以做什么？
88530编辑于 2022-09-16
来自专栏量化小白上分记
量化学习资源分享（十一）：FOF量化专题
这次整理了一些基金或者说FOF量化相关的研报，后台回复“FOF报告”获取报告合集。
70921编辑于 2023-03-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何给有状态的LLM系统写一套量化评测

首个二值量化评测基准来了，北航NTUETH联合提出，论文登ICML 2023

软件品质评测系统-评测体系

3个核心指标帮你量化RAG系统，内附FastGPT最新评测数据

软件品质评测系统-评测结果展示

LLM评测

【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )

量化交易

图像量化

Python 量化

模型量化

PHP技能评测

icx项目评测

项目评测etherparty

2840 WIKIOI——评测

量化交易

【白话模型量化系列一】矩阵乘法量化

十年量化老兵谈量化：玩转量化投资你需要这些技能

平民化量化平台-刚米量化

量化学习资源分享（十一）：FOF量化专题

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐