首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏前行的CVer

    LLM评测

    Open LLM Leaderboard(英文) Open LLM Leaderboard中包含有下列Benchmark: 所有能力 通用&数学&code——MT-Bench,由80个高质量的多轮对话问题组成的基准 是多个数据集的结合,划分了LLM的语言、知识、推理、数学、Code、Agent几类能力。

    1.7K10编辑于 2024-08-05
  • 来自专栏机器学习炼丹术

    LLM6 | The AI Revolution in Medicine:GPT 4

    6 第六章的标题是"So Much More: Math, Coding, and Logic",由Peter Lee撰写。 <<大型语言模型LLM与Visual>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford LLM入门3 | 基于cpu和hugging face 的LLaMA部署 LLM入门4 | Segment Anything | MetaAI LLM入门5 | SAM代码从入门到出门 | MetaAI <<其他>> 医学图像重建 | Radon变换,滤波反投影算法 数据结构与存储结构 小白学PyTorch | 8 实战之MNIST小试牛刀 小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6

    37410编辑于 2023-09-01
  • 从0开始训练自己的LLM6

    训练完后的模型如何给业务用呢?需要把模型的参数保存下来,给业务用,下次加载出来就可以了。同时前面定义的模型是输出最匹配的结果,但是每次输出结果都一样太死板,用过大模型的都知道,我们需要制定一个temperure参数,介于0到1之间,越接近0,结果越准确。越接近1,返回的结果越发散。因此我们可以根据实际业务需要调整这个参数,来适应不同的业务场景需求。我们的模型如何添加这个参数呢?本文介绍下具体的方法和实现。

    10110编辑于 2026-03-18
  • 来自专栏量子位

    微软6页论文爆火:三进制LLM,真香!

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在,大语言模型(LLM)迎来了“1-bit时代”。 这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的LLM,都将是1.58 bit的。 最后,在实验的性能比较上,团队将BitNet b1.58与FP16 LLaMA LLM在不同大小的模型上进行了比较。 结果显示,BitNet b1.58在3B模型大小时开始与全精度LLaMA LLM在困惑度上匹配,同时在延迟、内存使用和吞吐量方面有显著提升。 而且当模型规模越大时,这种性能上提升就会越发显著。

    68710编辑于 2024-02-29
  • 来自专栏小俊博客

    小米6X初音未来限量版评测

    今天要给大家带来的是小米6x初音未来限量版的评测,前置2000万“治愈系”自拍,后置2000万AI双摄,纤薄机身,标骁龙660AIE处理器!话不多说,我们先上图: ? 处理器:高通骁龙660AIE八核处理器 设备型号:Xiaomi 6X_MIKU 内存闪存:6GB RAM+64GB ROM 屏幕:5.99英寸2160x1080像素 前置:2000万像素 后置:2000 问:你做评测那么水,你咋不上天? 答:文章质量我会改善提高,另外要上天我还需一段时间。 问:小米上市后,硬件是不是缩水了? 问:小米6x初音版有提供主题吗? 答:在个性主题里面是有的,在社区内已经看过有dalao分享主题了。 问:ITXE评测文章更新太慢了,最后文章质量越来越水,是不是有掉粉的准备? 本文删改自ITXE的小米6X初音未来限量版评测

    1K20发布于 2018-08-02
  • 来自专栏王磊的博客

    限流的6大狠招,附详细代码和评测结果

    我们使用单 IP 在 10ms 内发并发送了 6 个请求的执行结果如下: ? / { limit_req zone=mylimit burst=4; } } burst=4 表示每个 IP 最多允许4个突发请求,如果单个 IP 在 10ms 内发送 6 return true; } } 以上程序的执行结果为: 正常执行请求:0 正常执行请求:1 正常执行请求:2 正常执行请求:3 正常执行请求:4 正常执行请求:5 正常执行请求:6 总结 本文提供了 6 种具体的实现限流的手段,他们分别是:Tomcat 使用 maxThreads 来实现限流;Nginx 提供了两种限流方式,一是通过 limit_req_zone 和 burst 来实现速率限流

    66420发布于 2020-05-19
  • 来自专栏OpenMMLab

    开源模型离GPT-4有多远,OpenCompass LLM评测8月榜单新鲜出炉

    基于社区用户的反馈,我们新增了一批重磅功能,让我们一起快速了解一下: 扩展开源数据集支持情况,新增 LLM 评测集 Xiezhi, SQuAD2.0, ANLI, CMMLU 提供长文本评测能力,支持 L-Eval, LongBench 等长文本评测集 开放多模态评测能力,支持 MMBench, SEED-Bench, MME, ScienceQA 等十余个多模态评测集 提升代码评测能力,支持 HumanEval-X 图片来源:OpenCompass 大模型性能对比功能 社区开源模型评测结果速览 大模型评测是一项复杂的系统性工程,如何构建合理的评测集与公平的评测方式,期待产业界和学术界持续共同探索。 OpenCompass 基于学术社区的 50+ 余个主流中英文评测集上开展评测分析,并发布 8 月中英文综合榜单(相关评测结果受评测集,评测方法等限制,仅反映在 OpenCompass 现有能力维度体系下的模型性能 虽然目前学界已经存在许多关于激发 LLM 推理能力的研究,但我们更期待能有更多的研究从训练维度展开,最终产生一种简洁而通用的范式,根本地提升模型的推理能力。

    1.1K31编辑于 2023-09-11
  • 来自专栏搜狗测试

    软件品质评测系统-评测体系

    2 ● 评测体系的内容 ● 评测体系可大可小,根据评测的内容而有所不同,一个完整的评测体系应包含: 评测对象 评测属性 评测场景 评测指标 在进行评测体系的设计之前,首先应明确评测对象是什么,可以大到一个系统 有了评测对象后,根据产品的需求或者应解决的问题,就可以确认哪些评测属性,比如准确度,覆盖度,再比如多样性,健壮性等。 评测属性再向下,确认好评测属性的应用场景及指标项,综合形成评测矩阵。 将以上结合,就是一个完整的评测体系。 ? 3 ● 评测体系的设计方法 ● 评测对象相对来说比较明确,接下来就是被测对象的特质进行评测属性的选择,以及确认好评测属性后进行评测矩阵的划分。 评测场景的选择 确认好了评测属性以后,接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。 评测矩阵 当评测属性,评测场景及评测指标一一敲定后,我们可以根据矩阵思想,将属性,场景及指标建立成一个二维矩阵,后续可以按照迭代的版本维护起来,全面的展示该评测对象需要重点评测的全部内容。

    3.1K20发布于 2020-07-14
  • 【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用

    1、LLM代理的模块化架构 CapaBench采用模块化设计,构建了如下所示的代理框架,旨在全面评估LLM代理在多种环境下的表现。 反思模块:通过分析任务失败原因,帮助代理在多回合任务中反思并优化其行为 这些模块是了当前LLM Agent架构内解决复杂任务的核心基础,也是LLM Agent能够高效应对各种挑战的关键能力。 上述评测集已在AGI-Eval社区平台上线,可跳转链接(https://agi-eval.cn/evaluation/CapaBench)查看。 欢迎关注我们官方账号,获取更多专业前沿的资讯和评测内容~ 4、实验评估 在我们的实验中,我们设定Llama3-8B-Instruct为所有四个核心模块(规划、推理、行动和反思)的默认实现。 6、结语 CapaBench 作为一种新型的评估框架,能够有效地揭示 LLM 代理中各个模块的作用,为开发者提供科学的性能评估依据,也为代理的优化和未来应用的提升提供了有力支持。

    48510编辑于 2025-02-28
  • 来自专栏AI工程落地

    TensorRT LLM vs OpenPPL LLM

    支持模型和功能对比PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。 TensorRT-LLM使用起来更方便模型量化TensorRT-LLM是离线量化,支持更多的量化方法,smooth quant、weight only、AWQ等PPL LLM是实时量化(i8i8),支持整个网络一起量化 模型DeployTensorRT-LLM量化结束,不需要deploy中间模型,直接进入编译器。部分模型可以支持onnx可视化PPL LLM不需要deploy以及编译,直接用onnx调算子。 /docs/llama_guide.md at master · openppl-public/ppl.llm.serving (github.com)TensorRT LLM原模型-->量化-->编译 两个框架都是tensor并行框架依赖Tensor-LLM需要依赖tensorrt,但主要是一些单算子(卷积、激活函数、gemm等),融合算子都是Tensor-LLM自带的。PPL LLM没有依赖

    1.2K30编辑于 2023-11-21
  • 来自专栏搜狗测试

    软件品质评测系统-评测结果展示

    1 ● 为什么要进行数据展示 ● 在前几次的分享中,设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后,我们会拿到第一手的评测数据。 在我们之前的实践过程中,拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录,并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现 对于在评测设计时选定的评测指标,需要准确完整地展现在评测系统中。 我们据此设计了一个评测的结果报告,每次评测完成后会通过该报告给出评测结论: ? 即我们最终展示给用户的评测结论以及各类图标数据,都应当与原始的评测结论、数据保持一致,同时评测结果的展示要与最终上线后预期的结果或趋势保持一致,这样的评测结论才是可信的、有指导意义的。

    2.8K20发布于 2020-08-11
  • 6个开源的最佳本地运行大语言模型(LLM)工具

    本文为你精选出 6 款适合本地运行 LLM(如 DeepSeek R1)的优秀工具。 如上方示意图所示,本文使用的是 Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile,其中 Q6 表示量化等级。 /Meta-Llama-3.1-8B-Instruct.Q6_K.llamafile。 在前文提到的所有开源本地 LLM 工具中,Ollama 拥有最多的贡献者,且具备更强的可扩展性。 6. 更多信息 山行AI希望本文对你有所帮助,由笔者翻译整理自:https://medium.com/@amosgyamfi/the-6-best-llm-tools-to-run-models-locally-eedd0f7c2bbd

    3.2K10编辑于 2026-03-13
  • 【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测:o3 强势登顶

    那么一起来看下本次评测结果! 目录: 1. o3 和 o4 mini评测分析    1.1 评测概述    1.2 o3 评测结果    1.3 o4-mini评测结果 2. o3 和 o4 mini 信息回顾 1.o3 和 o4 mini评测分析 1.1 评测概述 【评测对象】 OpenAI-o3 与 OpenAI-o4-mini 【评测方式】 基于自建的通用能力评测集与公开评测集 【评测结论】 ① o3 毫无悬念的登顶,在交互能力 【指标注释说明】 客观评测准确率指标说明:模型回答正确数量/总评测数据总量; 主观评测胜率指标说明:(1*N_明显好+0.75*N_稍好+0.5*N_二者差不多+0.25*N_稍差+0*N_明显差)/总评测数据量 * 评测指标是被评测模型相对于标杆模型的五档加权胜率 *标杆模型为 GPT4-turbo-0125 评测方案:可点击阅读原文跳转官网,评测榜单处点击评测方案查看 2.o3 和 o4 mini 实测回顾

    42710编辑于 2025-05-08
  • 来自专栏NewBeeNLP

    LLM in Reranking——利用LLM进行重排

    现有的涉及LLM的重排方法大致可以分为三类: 用重排任务微调LLM 使用prompt让LLM进行重排 以及利用LLM做训练数据的增强 本文中针对前两种方法介绍一些研究。 Method 使用TF-IDF相似度得到初步的候选文档集,再使用LLM进行重排。 LLM对召回的文档先进行打分,保留top K_1个文档,用超链接对这些文档进行扩展,再用LLM对扩展文档打分并挑选top K_2的文档,如此往复直到到达最大深度H。 一方面,LLM的输入长度对于一个文档列表来说还是十分受限的,必须通过滑动窗口或集成的方式才能实现文档输入。 另外,还有参数过剩与时效性的问题会导致LLM重排器难以落地。

    3.4K30编辑于 2023-10-25
  • WorkBuddy保姆级评测:管理者必备的6大能力+6大边界+2个核心场景

    ✅能干什么:6大核心能力能力类别具体表现实测案例信息来源本地文件管理建文件夹、移动/重命名/分类整理文件把桌面几十个散乱文件按类型分类整理,十几秒搞定凤凰网实测文档生成写周报、会议纪要、产品说明、分析报告 “写一份WorkBuddy产品功能说明文档”,直接生成Word初稿腾讯云官方数据处理读取Excel、数据分析、生成图表对销售明细表做数据统计汇总,自动输出结果DoNews评测⏰定时自动化设置后自动执行重复任务每天 到点交付本人实测微信远程控制手机微信发指令,电脑自动干活地铁上发“帮我把桌面销售表做分析”,回办公室已弄好智东西实测专家角色12大领域、140+行业顾问法律专家主动追问合同细节,识别“独家合作+高额违约金”风险腾讯云官方❌不能干什么:6大能力边界限制类别具体表现实测翻车案例来源跨应用操作无法访问微信

    1.1K10编辑于 2026-04-01
  • 来自专栏技术人生黄勇

    ChatGLM团队发布AI Agent能力评测工具AgentBench:GPT-4一骑绝尘,开源模型表现非常糟糕!

    这个AgentBench是评测LLM作为Agent的能力,通过评测LLM在细分任务的得分来确定LLM作为Agent的水平,主要结论就是商业模型表现远超开源模型,更加适合作为Agent来使用,而GPT-4 这在目前没有一个合适的评测方式。 ChatGLM-6B第一代与BaiChuan-7B的表现都很差, 上述结论都是基于表的数据分析得到,例如,通过对两个规模相近的模型chatglm2和codegeex2-6b在AgentBench上的表现 其中,codegeex2-6b经过代码训练,在操作系统和数据库两个编程相关环境上明显优于chatglm2。但在需要逻辑推理的横向思维难题上,codegeex2-6b的表现下降。 LLM作为Agent的总结 尽管这篇论文的评测结果可能还不够完善,但是大部分的结论应该还是比较可靠的。虽然开源模型的进步很多,但是与商业模型相比还是有很大的差距。

    84110编辑于 2024-07-19
  • 来自专栏自然语言处理(NLP)论文速递

    人大 & IAAR & 新华社 | 提出幻觉评测基准UHGEval,全面支持中文!

    其中,3个来自GPT系列的模型,GPT3.5-Turbo,GPT4-0613和GPT4-1106;以及8个中文大语言模型,ChatGLM2-6B,Xinyu-7B,Xinyu2-70B,InternLM 「判别式评测」 该评测使LLM能够以“是”或“否”的二进制答案进行响应。 「选择式评测」 与判别式评测类似,选择性评测允许LLM通过在选项A或B之间进行选择。具体来说,在选择性评测中,评测中的LLM有一个初始文本,后面是两个续写文本:一个包含幻觉,另一个不包含幻觉。 LLM的目的是确定两者中哪一个产生了幻觉。 「生成式评测」 该种评测方式直接评测LLM生成的文本中是否存在幻觉。具体来说,为评测中的LLM提供初始文本,然后负责生成续写文本。 3.4 结果分析 文章使用三个不同的评测器,对11个大模型展开了详尽的实验分析,如下表所示。 同时也分析了不同新闻类型导致幻觉的差异性,如表6所示。

    2K10编辑于 2023-12-04
  • 来自专栏ceshiren0001

    MCP零基础学习(6)|与大型语言模型(LLM)的深度融合

    本期内容将进一步深入,聚焦于 MCP 与大型语言模型(LLM)的深度融合,探索如何通过协议与模型的协同,释放更强大的智能潜力。 通过具体示例与实战技巧,帮助开发者全面掌握 MCP 与 LLM 的集成方法,构建更灵活、可控且高性能的 AI 应用系统。 一、MCP与LLM集成架构设计1.1 整体架构概述MCP与LLM的集成通常采用客户端-服务器架构:+----------------+      +----------------+      +---      +----------------+      +----------------+1.2 核心组件职责MCP客户端:主应用程序,负责用户交互和请求调度MCP服务器:协议转换层,将MCP协议转换为LLM API调用LLM后端:实际执行模型推理的组件二、本地模型接入:Ollama/vLLM + MCP2.1 Ollama集成方案环境准备首先安装必要的依赖:# 安装Ollamacurl -fsSL https

    52100编辑于 2025-08-22
  • 来自专栏PHP学习网

    PHP技能评测

    公司出了一些自我评测的PHP题目,其中好多题目在面试的时候都会碰到,大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用?     5.列举PHP的性能优化方法和技巧     opcache     通讯缓存     查询缓存 6.MySQL存储引擎中,innodb和myisam的区别    MyISAM 和 InnoDB 讲解 6、如果和MyISAM比insert写操作的话,Innodb还达不到MyISAM的写性能,如果是针对基于索引的update操作,虽然MyISAM可能会逊色Innodb,但是那么高并发的写,从库能否追的上也是一个问题 index_name指定索引的名称,为可选参数,如果不指定,MYSQL默认col_name为索引值;     5、length为可选参数,表示索引的长度,只有字符串类型的字段才能指定索引长度;     6、 allkeys-random:从数据集中(包括了设置过期时间以及未设置过期时间)随机选择一个数据进行入释放     5.volatile-ttl:从设置了过期时间的数据集中,选择马上就要过期的数据进行释放操作     6.

    1.4K30编辑于 2022-08-03
  • 来自专栏LuckQI

    项目评测etherparty

    ●总得分:51.1/100分 想做的目标很好,但是产品特色和目前的团队配置可能还需要进一步的补强,未来也有必要根据后续的推动情况,作进一步的动态评测

    1.6K20发布于 2018-07-19
领券