首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏前行的CVer

    LLM评测

    Open LLM Leaderboard(英文) Open LLM Leaderboard中包含有下列Benchmark: 所有能力 通用&数学&code——MT-Bench,由80个高质量的多轮对话问题组成的基准 数据集包含 500 多个提示,每个提示包含一个或多个可验证的指令,例如“写一篇超过 800 字的文章”或“在响应中至少提到 3 次 AI 关键词”。 3. 中文 Benchmark 通用&数学&code——OpenCompass 司南,会分中文榜单和英文榜单。 是多个数据集的结合,划分了LLM的语言、知识、推理、数学、Code、Agent几类能力。

    1.7K10编辑于 2024-08-05
  • LLM架构管窥:3模式、3原理

    研究3天,6篇笔记 【点我头像 查看文章列表】因为咱是懂架构的,所以借助架构模式理解LLM架构并不困难。倒是向量语义叠加、多头注意力原理,颇是费脑细胞。

    23620编辑于 2025-12-31
  • 来自专栏架构师成长之路

    大模型llm:Ollama部署llama3学习入门llm

    二、Ollama安装 1、Ollama简介 Ollama 是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地机器上运行和部署大型语言模型。 "prompt": "请分别翻译成中文、韩文、日文 -> Meta Llama 3: The most capable openly available LLM to date", "stream ": "Here are the translations:\n\n**Chinese:** 《Meta Llama 3》:迄今最强大的公开可用的LLM\n\n**Korean:** 《Meta Llama 3》:현재 가장 강력한 공개 사용 가능한 LLM\n\n**Japanese:**\n\n《Meta Llama 3》:現在最強の公開使用可能なLLM\n\n\n\nNote: (Meta Llama } ] }' 五、配置Open-WebUI 可以直接使用dify开源的llm ops集成:https://guisu.blog.csdn.net/article/details/138978737

    7K00编辑于 2024-05-24
  • 来自专栏李俊飞的专栏

    3D XPoint 存储性能评测(1)

    此次实测对比一下 3D XPoint 和 SSD 等存储的性能。 1、3D XPoint, SSD, SAS 与 SATA 读写速度对比 结果分析: (1)3D XPoint 读写峰值速度在 2GB/s 左右,随机读写能到 1.8GB 左右,SSD 读写为 300~ 2、3D XPoint 在不同读写比例下的读写速度峰值 注:横轴为读写比例 结果分析: (1) 3D XPoint 在不同业务模式的读写速度差别不大,读峰值 2.1GB/s,写峰值 1.9GB/s,混合读写速度在 二、测试环境 1、硬件环境 存储类型 设备型号和容量 3D XPoint INTEL SSDPED1K375GA v1.0 / 375.08 GB SSD/SAS/SATA SSD:Z3 12*800G , SAS/SATA:实验室测试设备 2、软件环境 测设设备 测试软件及版本 实验室设备 fio 2.0.8 Z3 fio 2.0.8

    2.1K00发布于 2017-07-05
  • 来自专栏Python和安全那些事

    LLM安全:3.网络LLM攻击及提示注入知识普及(PortSwigger)

    文章目录: 一.前言 1.什么是大语言模型 2.LLM攻击和提示注入 3.检测LLM漏洞 二.利用LLM的APIs、函数和插件 1.LLM API的工作原理 2.映射LLM API攻击面 3.LLM 3.检测LLM漏洞 我们推荐的检测大语言模型(LLM)漏洞的代表性方法如下: 确定LLM的输入,包括直接输入(如提示)和间接输入(如训练数据)。 查明LLM可以访问的数据和应用程序接口(API)。 (3) 客户端使用提供的参数调用该函数。 (4) 客户端处理函数的响应。 (5) 客户端再次调用LLM,并将函数响应作为新消息附加。 (6) LLM使用函数响应调用外部API。 3.不要依赖提示来阻止攻击 从理论上讲,可以使用提示(prompts)对LLM的输出设置限制。 一.前言 1.什么是大语言模型 2.LLM攻击和提示注入 3.检测LLM漏洞 二.利用LLM的APIs、函数和插件 1.LLM API的工作原理 2.映射LLM API攻击面 3.LLM API中的连锁漏洞

    1.4K10编辑于 2024-06-18
  • 从0开始训练自己的LLM3

    ., if LLM supports only 5 tokens, and the context size is 10 # then only the last 5 tokens are

    10310编辑于 2026-03-18
  • 【AGI-Eval评测报告 NO.6】o3 o4-mini 文本权威评测:o3 强势登顶

    目录: 1. o3 和 o4 mini评测分析    1.1 评测概述    1.2 o3 评测结果    1.3 o4-mini评测结果 2. o3 和 o4 mini 信息回顾 1.o3 和 o4 mini评测分析 1.1 评测概述 【评测对象】 OpenAI-o3 与 OpenAI-o4-mini 【评测方式】 基于自建的通用能力评测集与公开评测集 【评测结论】 ① o3 毫无悬念的登顶,在交互能力 接下来我们继续为大家拆解 o3 和 o4-mini 的详细评测内容 1.2  o3 评测结果 o3 核心结论: o3 在综合能力上表现优异,尤其在交互能力、推理能力和指令遵循方面处于领先地位。 同类型模型能力对比: 本次评测,我们基于自建的通用能力评测集与公开评测集,将 OpenAI o3 与 o1 进行了对比: 在通用能力上,OpenAI o3 水位优于 OpenAI o1,其中推理能力有明显提升 * 评测指标是被评测模型相对于标杆模型的五档加权胜率 *标杆模型为 GPT4-turbo-0125 评测方案:可点击阅读原文跳转官网,评测榜单处点击评测方案查看 2.o3 和 o4 mini 实测回顾

    42710编辑于 2025-05-08
  • 来自专栏OpenMMLab

    开源模型离GPT-4有多远,OpenCompass LLM评测8月榜单新鲜出炉

    基于社区用户的反馈,我们新增了一批重磅功能,让我们一起快速了解一下: 扩展开源数据集支持情况,新增 LLM 评测集 Xiezhi, SQuAD2.0, ANLI, CMMLU 提供长文本评测能力,支持 L-Eval, LongBench 等长文本评测集 开放多模态评测能力,支持 MMBench, SEED-Bench, MME, ScienceQA 等十余个多模态评测集 提升代码评测能力,支持 HumanEval-X 图片来源:OpenCompass 大模型性能对比功能 社区开源模型评测结果速览 大模型评测是一项复杂的系统性工程,如何构建合理的评测集与公平的评测方式,期待产业界和学术界持续共同探索。 OpenCompass 基于学术社区的 50+ 余个主流中英文评测集上开展评测分析,并发布 8 月中英文综合榜单(相关评测结果受评测集,评测方法等限制,仅反映在 OpenCompass 现有能力维度体系下的模型性能 虽然目前学界已经存在许多关于激发 LLM 推理能力的研究,但我们更期待能有更多的研究从训练维度展开,最终产生一种简洁而通用的范式,根本地提升模型的推理能力。

    1.1K31编辑于 2023-09-11
  • 来自专栏搜狗测试

    软件品质评测系统-评测体系

    2 ● 评测体系的内容 ● 评测体系可大可小,根据评测的内容而有所不同,一个完整的评测体系应包含: 评测对象 评测属性 评测场景 评测指标 在进行评测体系的设计之前,首先应明确评测对象是什么,可以大到一个系统 有了评测对象后,根据产品的需求或者应解决的问题,就可以确认哪些评测属性,比如准确度,覆盖度,再比如多样性,健壮性等。 评测属性再向下,确认好评测属性的应用场景及指标项,综合形成评测矩阵。 将以上结合,就是一个完整的评测体系。 ? 3评测体系的设计方法 ● 评测对象相对来说比较明确,接下来就是被测对象的特质进行评测属性的选择,以及确认好评测属性后进行评测矩阵的划分。 评测场景的选择 确认好了评测属性以后,接下来就是针对评测属性进行评测场景的覆盖及指标项的选择。评测场景一般是根据实际应用场景结合实现细节进行敲定。 评测矩阵 当评测属性,评测场景及评测指标一一敲定后,我们可以根据矩阵思想,将属性,场景及指标建立成一个二维矩阵,后续可以按照迭代的版本维护起来,全面的展示该评测对象需要重点评测的全部内容。

    3.1K20发布于 2020-07-14
  • 【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用

    1、LLM代理的模块化架构 CapaBench采用模块化设计,构建了如下所示的代理框架,旨在全面评估LLM代理在多种环境下的表现。 3、数据集建设与评估任务 为了确保评估框架能够应对现实应用中的多样化挑战,我们还构建了一个大规模的数据集,涵盖了超过1500个多回合任务,包括在线购物、导航规划、票务订购、数学问题求解、自动定理证明、机器人协作和操作系统交互等任务 上述评测集已在AGI-Eval社区平台上线,可跳转链接(https://agi-eval.cn/evaluation/CapaBench)查看。 欢迎关注我们官方账号,获取更多专业前沿的资讯和评测内容~ 4、实验评估 在我们的实验中,我们设定Llama3-8B-Instruct为所有四个核心模块(规划、推理、行动和反思)的默认实现。 3. 轻量级开源模型(≤32B):为轻量级实现,包含 Qwen2.5-32B-Instruct 和 Mistral-8B-Instruct-v0.2。

    48410编辑于 2025-02-28
  • 【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

    DeepSeek V3-0324 评测分析   2.1 核心结论   2.2 通用评测结果   2.3 场景评测结果3.DeepSeek 历史发布轨迹总结4.DeepSeek 未来发布计划01 DeepSeek 关注我们,第一时间获取最新模型评测分析~02 DeepSeek V3-0324 评测分析2.1 核心结论DeepSeek V3-0324 的具体实力如何,AGI-Eval 大模型评测社区第一时间做了模型评测 2.2 通用评测结果DeepSeek V3-0324 更新后,在AGI-Eval自建的通用能力评测集,综合能力水位从Claude-3.5提升至Claude-3.7,各能力普遍有提升,其中推理能力提升最明显 公开评测结果DeepSeek V3-0324 相较上一版本,在各公开数据集上均有提升。 反对关系**2.3 应用场景评测结果在信息处理、衣食住行、情感陪伴、代码4个典型应用场景客观评测集上,DeepSeek V3-0324 均对比上一版本均有明显提升,其中信息处理和代码场景提升显著。

    1.1K10编辑于 2025-03-26
  • 来自专栏喔家ArchiSelf

    如何评测语音技能的智能程度(3)——交互流畅

    《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第3篇。 这里有3个细节。 第一个是反馈的行为折损。根据历史数据表现,1个问题被报上来,背后往往有至少10个以上的用户遇见过,只是用户懒/报问题麻烦,没有报而已。 3、业务逻辑处理表现,其实是NLP领域最为核心的部分,也是最为耗时的部分,从效率角度上而言,此处尽管追求越快越好。 【交互流畅】(3)交互形式丰富度 每一种交互形式的存在,都有着其依赖的场景。 ? 下图是我尝试穷举人类的输入行为(尽力做到MECE)。 ? 同样的,在【交互流畅】这个单元模块,有更多评测点去列举,但是受限于篇幅以及能力所限,删掉的一些内容。保留以及删除评测点的原则,也是基于评测指标的普适性。 同样用提问的方式,列举一下我删除掉的考核点。

    5.3K20发布于 2020-06-04
  • 来自专栏AI工程落地

    TensorRT LLM vs OpenPPL LLM

    支持模型和功能对比PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。 TensorRT-LLM使用起来更方便模型量化TensorRT-LLM是离线量化,支持更多的量化方法,smooth quant、weight only、AWQ等PPL LLM是实时量化(i8i8),支持整个网络一起量化 模型DeployTensorRT-LLM量化结束,不需要deploy中间模型,直接进入编译器。部分模型可以支持onnx可视化PPL LLM不需要deploy以及编译,直接用onnx调算子。 /docs/llama_guide.md at master · openppl-public/ppl.llm.serving (github.com)TensorRT LLM原模型-->量化-->编译 两个框架都是tensor并行框架依赖Tensor-LLM需要依赖tensorrt,但主要是一些单算子(卷积、激活函数、gemm等),融合算子都是Tensor-LLM自带的。PPL LLM没有依赖

    1.2K30编辑于 2023-11-21
  • 来自专栏搜狗测试

    软件品质评测系统-评测结果展示

    1 ● 为什么要进行数据展示 ● 在前几次的分享中,设计了好的评测体系、具备了数据挖掘分析能力、选择高效稳定的评测执行工具后,我们会拿到第一手的评测数据。 在我们之前的实践过程中,拿到原始评测数据后会通过观察数据给出一个评测结论。长此以往发现这样并不利于保存数据记录,并且没法反映出一段时间内评测指标的变化趋势。 2 ● 哪些数据需要展现 ● 评测结果展现 对于在评测设计时选定的评测指标,需要准确完整地展现在评测系统中。 我们据此设计了一个评测的结果报告,每次评测完成后会通过该报告给出评测结论: ? 3 ● 如何进行结果展示 ● 准确 对于评测结果的展示,最重要的就是数据准确性。

    2.8K20发布于 2020-08-11
  • 来自专栏腾讯云TVP

    o3 deep research: LLM 驱动的 Agent 综述

    General components of an agentfrom developer.nvidia.comLLM智能代理的一般架构示意图(made by ChatGPT o3)Agent接收用户请求 OpenAI 最新的智能体表现是基于其推理模型o3的 Deep Research 功能,可以就任何题目自动搜寻资料、研读并汇总融合成全面完整、信息可追溯的综述性调查报告。 (本文就是 o3 deep research 完成。) 3. 融合实体世界,虚实一体的智能代理:2025 年的另一个重要趋势是LLM Agent将从数字世界走向物理世界,与机器人等实体系统相结合,成为现实生活中的“智能体机器人”。 Agent:数字代理的崛起与未来Agent元年:从聊天机器人到数字员工的当代进化史生成式AI学习中容易混淆的几个术语思维链是大模型的符号神助攻再谈自然模态数据是高维空间的低维流形深度学习的局限性研究综述o3

    1.1K00编辑于 2025-03-08
  • 来自专栏NewBeeNLP

    LLM in Reranking——利用LLM进行重排

    现有的涉及LLM的重排方法大致可以分为三类: 用重排任务微调LLM 使用prompt让LLM进行重排 以及利用LLM做训练数据的增强 本文中针对前两种方法介绍一些研究。 and rank的point-wise打分方式不同,作者提出一种名为 Listwise Reranker with a Large Language Model (LRL) 的方法,利用GPT-3对文档进行 输入长度限制的处理 由于GPT-3输入长度限制为4k token,召回的文档长度很容易突破长度限制,本文中作者采用滑动窗口解决这一问题。 LLM对召回的文档先进行打分,保留top K_1个文档,用超链接对这些文档进行扩展,再用LLM对扩展文档打分并挑选top K_2的文档,如此往复直到到达最大深度H。 另外,还有参数过剩与时效性的问题会导致LLM重排器难以落地。

    3.4K30编辑于 2023-10-25
  • AI 3D建模工具对比 - InstantMesh vs TripoSR全面评测

    昨天刷到一个视频,有人用AI十几秒就做出了一个超精细的3D模型,我当时就想:这不可能吧?然后我就去找了两个最火的AI建模工具来测试——InstantMesh和TripoSR。 InstantMesh 和 TripoSR 虽然都是单图转 3D,但底层逻辑完全不同。 如果你要做一个3D展示网站,用户上传照片立即看到3D效果,TripoSR几乎是唯一选择。服务器成本也可控,一台配置不算太高的GPU服务器就能支撑不少并发。 TripoSR证明了实时3D生成的可行性,这为很多应用场景打开了大门。想象一下,以后在电商网站上传商品照片,立即就能生成3D预览,这体验得多棒。 InstantMesh则在质量上做了突破,让AI生成的3D模型真正达到了可用于生产的标准。虽然现在还有些慢,但随着硬件性能提升,这个问题会逐步解决。

    83610编辑于 2025-07-23
  • 来自专栏机器学习炼丹术

    LLM入门3 | 基于cpu和hugging face的LLaMA部署

    <<大型语言模型LLM>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford 部署repo:https://huggingface.co/decapoda-research productor mean(五) <<StyleGAN2专题>> 生成专题1 | 图像生成评价指标 Inception Score (IS) 生成专题2 | 图像生成评价指标FID 生成专题3 模型的构建访问遍历存储(附代码) 小白学PyTorch | 5 torchvision预训练模型与数据集全览 小白学PyTorch | 4 构建模型三要素与权重初始化 小白学PyTorch | 3 卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D 小白学论文 | EfficientNet强在哪里 小白学论文 | 神经网络初始化Xavier 小白学论文 | 端侧神经网络 机器学习不得不知道的提升技巧:SWA与pseudo-label 决策树(一)基尼系数与信息增益 决策树(二)ID3,C4.5和CART 五分钟理解:BCELoss 和 BCEWithLogitsLoss

    2.2K20编辑于 2023-09-02
  • 来自专栏PHP学习网

    PHP技能评测

    公司出了一些自我评测的PHP题目,其中好多题目在面试的时候都会碰到,大家可以看看学习学习。 1. 魔术函数有哪些,分别在什么时候调用?     NULL,也返回 FALSE     若变量存在且值不为NULL,则返回 TURE     同时检查多个变量时,每个单项都符合上一条要求时才返回 TRUE,否则结果为 FALSE     版本:PHP 3, 3.PHP的与定义变量有哪些,分别是什么?     ◆3.对于AUTO_INCREMENT类型的字段,InnoDB中必须包含只有该字段的索引,但是在MyISAM表中,可以和其他字段一起建立联合索引。        2、非聚集索引(non-clustered index)     从逻辑角度     1、主键索引:主键索引是一种特殊的唯一索引,不允许有空值     2、普通索引或者单列索引     3

    1.4K30编辑于 2022-08-03
  • 来自专栏LuckQI

    项目评测etherparty

    ●总得分:51.1/100分 想做的目标很好,但是产品特色和目前的团队配置可能还需要进一步的补强,未来也有必要根据后续的推动情况,作进一步的动态评测

    1.6K20发布于 2018-07-19
领券