搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GiantPandaCV
YOLOv7-Pose尝鲜，基于YOLOv7的关键点模型测评
pose 上个星期，YOLOv7的作者也放出了关于人体关键点检测的模型，该模型基于YOLOv7-w6，目前作者提供了.pt文件和推理测试的脚本，有兴趣的童靴可以去看看，本文的重点更偏向于对yolov7 【yolov7-pose + onnxruntime】首先下载好官方的预训练模型，使用提供的脚本进行推理： % weigths = torch.load('weights/yolov7-w6-pose.pt python pose.py 一、yolov7-w6 VS yolov7-w6-pose：首先看下yolov7-w6使用的检测头 f 表示一共有四组不同尺度的检测头，分别为15×15,30 nkpt表示人体的17个关键点 no=17*3=nkpt*(x+y+obj)=57 二、修改export脚本如果直接使用export脚本进行onnx的抽取一定报错，在上一节我们已经看到pose.pt模型使用的检测头为所得到的onnx相比原半精度模型大了将近三倍，后续排查原因 yolov7-w6-pose极度吃显存，推理一张960×960的图像，需要2-4G的显存，训练更难以想象
3.5K10编辑于 2022-09-28
来自专栏全栈程序员必看
大疆测评攻略
听说大疆测评也刷人比例还很高总结来网上的有关注意事项都是各方面搬一点，总结一下测评的题主要为: 性格测试，逻辑测试，计算题，场景题。 DJI大疆2019在线测评-知乎 https://zhuanlan.zhihu.com/p/76053124 大疆招聘网申测评测试笔试题 https://zhuanlan.zhihu.com/p/ 157371591 大疆在线测试三段论 https://bbs.yingjiesheng.com/thread-2112581-1-1.html 大疆在线测评 – 逻辑题 https://zhuanlan.zhihu.com 114710374_454120 主观题定要结合公司的文化，价值观，愿景和使命来答 1、 dji注重的是把产品做好，把事情做好，并努力做到极致，所以在你们的场景题中也是要带着这样想法去做题，去思考 2、去大疆招聘官网的顶部菜单栏选择【关于大疆】去看看，包括企业文化，发展历程之类的信息，虽然大家都觉得这个很虚，当然我也觉得，但是确实当你了解公司的文化，公司的价值观，你就知道在某些时候，公司更希望你选择什么，毕竟每个选择都有优劣，
2K10编辑于 2022-07-21
来自专栏杨不易呀
测评混元大模型并且基于混元实战开发
腾讯混元大模型现在正式全部开发，发起申请即可，在混元大模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元大模型！ (腾讯混元大模型「文生图」能力重磅上新！目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算，往下看！混元大模型对话页面体验代码能力我这里列举了不同的代码需求看看混元大模型提升了百分之二十的强悍之处!!!! 那么我的测评就到这里啦感谢大家的观看谢谢！
3.2K8150编辑于 2024-01-30
来自专栏机器之心
多模态大模型能力测评：Bard 是你需要的吗？
机器之心专栏机器之心编辑部为了对多模态大模型的能力进行全面、系统的测评，来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场，让真实用户来提问和投票哪个模型表现得更好。六大多模态能力结构图多模态大模型竞技场多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台，与上述的在传统数据集上刷点相比，更能真实反映模型的用户体验。 LVLM-eHub 中八大模型在六大多模态能力上的性能图截止目前，我们在多模态大模型竞技场平台收集了 2750 个有效样本（经过过滤），最新的模型分数和排名见下表。 Bard 是 12 个模型中唯一的工业界闭源模型，因此不知道模型具体的大小、设计和训练数据集。相比之下，其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答，而 Bard 支持多轮对话。
85920编辑于 2023-09-08
来自专栏数据派THU
详解：7大经典回归模型
来源：csdn 深度学习爱好者本文约2900字，建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。什么是回归分析？ 4.它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的，即不具有多重共线性。 7.如果因变量是多类的话，则称它为多元逻辑回归。 3. Polynomial Regression多项式回归对于一个回归方程，如果自变量的指数大于1，那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。除了这7个最常用的回归技术，你也可以看看其他模型，如Bayesian、Ecological和Robust回归。如何正确选择回归模型？当你只知道一个或两个技术时，生活往往很简单。
1.7K41编辑于 2023-04-18
来自专栏机器之心
大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型
机器之心报道机器之心编辑部大语言模型「七雄争霸」，看谁拔得了头筹。大型语言模型（LLM）正在风靡全球，它们的一个重要应用就是聊天，并在问答、客服和其他许多方面都有应用。具体结果参加：https://zeno-ml-chatbot-report.hf.space/ 以下是评估结果汇总：测评者评估了 7 种语言模型：GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat 他们测试了以下 7 个模型： GPT-2：2019 年的一个经典语言模型。测评者把它作为一个基线加入，看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。测试中使用的是 7B 版本的模型，以下开源模型采用的也是同等规模版本； Alpaca：一个基于 LLaMa 的模型，但进行了指令调优； Vicuna：一个基于 LLaMa 的模型，为基于聊天机器人的应用做了进一步的明确调整对于所有的模型，测评者使用了默认的参数设置。
59410编辑于 2023-05-22
来自专栏Nicky's blog
LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人
LazyLLM测评 | 低代码构建多Agent大模型应用的高效解决方案在大模型技术规模化落地的当下，开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。本文将从技术架构、核心功能实测、性能对比、场景落地等维度，全面测评LazyLLM的优势与价值。 , "context_str": "".join([node.get_content() for node in doc_node_list]), }) # Part7 实测数据表明，在代码文档生成、RAG系统、多模态写作助手等场景中，LazyLLM的开发效率与运行性能均显著优于传统框架，是大模型落地的“高效工具链”。未来，随着LazyLLM生态的完善（更多第三方工具适配、更智能的错误处理、更丰富的本地模型支持），它有望成为多Agent大模型应用开发的主流框架，推动AI技术从“实验室”走向“生产环境”的规模化落地。
39510编辑于 2025-12-17
来自专栏不二小段
为了测试大模型的「搜商」，OpenAI 开源了测评基准 BrowseComp
为了验证大模型、Agent 网上冲浪的能力，OpenAI 编了一套超难的试卷，里面有 1266 道题目，用来测大模型智能体的搜商。我们都知道： • 大模型自身存在幻觉，而且大模型对 next token 的预测本身是基于概率的，所以越是边边角角的 corner case 越容易出错； • 大模型的训练数据存在时效问题，目前还不可能做到实时更新我们以开篇的第一道简单题为例，在不开搜索的情况下，大部分模型的回答都是错误的：为了缓解大模型的幻觉和数据时效问题，最直观的做法就是赋予大模型 Browse 能力，也就是搜索以及浏览的能力，这也是构建一个因为互联网的信息极为繁杂，你搜索任何组合的关键词，都可能得到数以万计的页面，内容和信息远远超出了大模型的上下文窗口。大模型的一大特点就在于 Scale law，从训练到推理，Scale law 成为很多人坚信模型能力能够继续提升的信仰。同样，对于智能体来说，test-time scale law 依然存在。
14010编辑于 2026-04-09
来自专栏新智元
华人科学团队推出「思维链集」，全面测评大模型复杂推理能力
新智元报道编辑：编辑部【新智元导读】研究人员希望通过对大模型复杂推理能力的评测来充分发掘大模型未来执行各种复杂任务的潜力。大模型能力涌现，参数规模越大越好？针对这些基础能力的测评，对于研究大模型未来发展似乎是有些不务正业。论文地址：https://arxiv.org/pdf/2305.17306.pdf 大模型推理能力哪家强？这些测试项目或者数据集都是针对大模型的复杂推理能力下手，没有那种谁来都能答得八九不离十的简单任务。研究人员依然采用思维链提示（COT Prompt）的方式来对模型的推理能力进行测评。 FlanT5 11B和LLaMA 7B等较小的模型掉队掉的厉害。通过实验，研究人员发现，模型性能通常与规模相关，大致呈对数线性趋势。不公开参数规模的模型，通常比公开规模信息的模型表现更好。更重要的是要囊括更多语言模型，例如基于 LLaMA 的指令微调模型，例如 Vicuna7等等开源模型。还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。
90130编辑于 2023-08-07
来自专栏陶士涵的菜地
【分享】讯飞星火认知大模型Python调用上下文测评
讯飞星火大模型有两个版本v1.5 和 v2.0 提供的接口是websocket形式的，这个就不容易在后端进行调用了，因为不可能让后端实时保持一个websocet链接的，只能是请求响应的格式，响应结束就关闭国内的大模型API都喜欢搞一个鉴权出来，而星火的鉴权也太复杂了，看的头晕，只能拿示例代码去运行。 xxxxxxxxxxxxxxx" # 填写控制台中获取的 APISecret 信息 api_key = "xxxxxxxxxxxxxx" # 填写控制台中获取的 APIKey 信息 # 用于配置大模型版本作为一个认知智能模型，我没有个人身份和隐私信息。但是，如果您有任何与编程相关的问题或需要帮助，请随时向我提问，我会尽力为您提供帮助。 role": "system", "content": "假设你是个程序员，你的微信是llike620"}, {"role": "user", "content": "你的微信"} ] 作为认知智能大模型
89440编辑于 2023-10-17
来自专栏大模型应用
大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7
引言在大模型的应用中，参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同，大模型的生成参数更像是一组精密的调控旋钮，它们不改变模型的基础知识，而是影响模型如何思考和表达。理解这些参数的本质，不仅能够提升模型输出的质量，更是将大模型从玩具转变为工具的关键一步。今天我们将从理论基础到实践应用，全面解析大模型的核心参数体系，详细的介绍大模型推理中常用的参数项，并通过本地模型示例展示参数调整对模型效能的影响。常见参数项：max_length：生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """大模型参数测试器分步调优流程图五、总结大模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。
70632编辑于 2026-02-04
来自专栏DrugOne
. | 终结“AI模型选择焦虑”：RNA预训练大模型测评与分析Benchmark
这些预训练大模型如同掌握了基因组语法的“通才”，通过人类及多物种基因组数据预训练大型 Transformer 架构，无需重新开发即可低成本迁移至各类 RNA 相关预测任务，凭借 “开箱即用” 的优势，让缺乏大模型开发能力或硬件条件的团队也能高效开展研究除了大模型之间的比较，研究还引入了对应领域的传统深度学习算法(如DeepM6ASeq、SpliceAI等)，作为对比基准。这种多样性使本次评测能深入揭示模型特性，为后续应用提供依据。图 2 预训练gLM在四大类任务、多个指标下的表现。研究深入揭示了模型性能背后的关键驱动因素：模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。当然，AI x 生物学的领域无穷广阔，这些已有的预训练大模型仍有许多可提升的空间。
26220编辑于 2025-12-31
来自专栏GiantPandaCV
星辰AI大模型TeleChat-7B评测
前言受中电信 AI 科技有限公司的邀请，为他们近期开源的TeleChat-7B大模型做一个评测。最后，我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力，可以作为开发者来使用的一个不错的基础大模型。在评论评语方面，TeleChat7B可能是因为SFT的缘故会拒答一些问题，以及对于上面的第二个prompt回答的质量比较低。而对于上面的第一个问题，也出现了经典的大模型幻觉问题。总结总的来说，TeleChat-7B具有一定的文创能力和代码能力，对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在大模型幻觉，指令跟随能力一般以及回答有概率重复的问题。此外，TeleChat-7B在开源方面是相当有诚意的，将清洗之后的训练数据进行开源是在之前的大模型开源中比较难见到的，如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告：https
67320编辑于 2024-02-22
大模型下半场：7个趋势判断
推理模型能力的持续提升，推动大模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了大模型下半场的新赛程。个人智能体潜力初步显现，行业应用渐次走深，开源开放日益成为大模型的核心竞争力组成。用更大算力去探索大模型的能力上限，仍是行业共识。预计今年上半年国外将推出GPT-5、Llama 4级别大模型。虽然去年以来，我国AI高端芯片企业数量和能力均有提升，华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片，但由于台积电暂停7nm产能供应及HBM禁令等限制，国产高端芯片的制造仍面临挑战受DeepSeek效应刺激，国内外大模型公司正加速推出下一代大模型，如OpenAI的基础大模型GPT-4.5，推理模型o3；Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7；大模型的数据通信开放协议则可以让大模型更方便地调用各种工具，从而自主完成各类任务。
59320编辑于 2025-04-02
来自专栏陶士涵的菜地
【分享】百度千帆大模型Python调用上下文测评
改成：假设你是个程序员，你的微信是llike620，我的问题是：你的微信返回：作为一个AI模型，我没有微信，因为我是一个人工智能程序，无需使用个人社交媒体账号。
72540编辑于 2023-10-17
来自专栏腾讯云开发者社区头条
腾讯混元大模型招募产品测评官，多重好礼等你来赢！
腾讯混元大模型是由腾讯全链路自研的实用级大模型，拥有超千亿参数规模、预训练语料超2万亿tokens，具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。快来围观腾讯混元大模型怎么说：图片腾讯云开发者社区联合腾讯混元大模型团队发起【玩转腾讯混元大模型】有奖征文活动，想听听你的玩转秘籍与体验心声。 10.20 提交报名进入下方链接填写申请表，您填写的内容将影响是否报名成功https://wj.qq.com/s2/13185984/cecb/ 2023.10.20前通过申请【名额有限】为保障测评反馈响应及时性腾讯云官方团队将基于报名情况，综合申请者的体验意愿、提交申请时间、技术创作领域等维度，评估选出适量用户参与产品测评。报名经审核通过后方可参与此活动。 7271764 腾讯混元大模型初体验 VS Bard 与 ChatGPT4.0 潜龙作者奖 GoBoy 5421023 让AI为你打工，腾讯混元大模型实战篇潜龙作者奖 Nian糕 2893280 腾讯混元大模型初体验
5.8K212编辑于 2023-10-11
来自专栏机器之心
羊驼系列大模型和ChatGPT差多少？详细测评后，我沉默了
围绕 Meta 的 LLaMA 等开源模型，整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型，而且开源模型的迭代速度更快，可定制性更强，更有私密性……「当免费的、不受限制的替代品质量相当时这些观点在社交媒体上引起了很大争议，其中一个比较大的争议是：那些开源模型是否真的能达到和 OpenAI ChatGPT 或谷歌 Bard 等商业闭源大模型相似的水平？现阶段两个阵营还有多大差距？为了探索这个问题，一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对部分模型（Vicuna-13B、MPT-7b-Chat VS. MPT-7B 是 MosaicML 发布的大型语言模型，遵循 meta 的 LLaMA 模型的训练方案。 MosaicML 表示，MPT-7B 与 meta 的 70 亿参数 LLaMA 模型的性能相当。和它们对比的，自然是大语言模型标杆 ChatGPT。
51420编辑于 2023-05-16
来自专栏流川疯编写程序的艺术
《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战
其主要特点如下：开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ 评测对象本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。 C-Eval 数据集上的性能其他学习内容参考文献本人学习系列笔记《书生·浦语大模型实战营》第1课学习笔记：书生·浦语大模型全链路开源体系《书生·浦语大模型实战营》第2课学习笔记：轻松玩转书生 ·浦语大模型趣味 Demo 《书生·浦语大模型实战营》第3课学习笔记：搭建你的 RAG 智能助理(茴香豆) 《书生·浦语大模型实战营》第4课学习笔记：XTuner 微调 LLM:1.8B、多模态、Agent 《书生·浦语大模型实战营》第5课学习笔记：LMDeploy 量化部署 LLM 实践《书生·浦语大模型实战营》第6课学习笔记：Lagent & AgentLego 智能体应用搭建《书生·浦语大模型实战营
76810编辑于 2024-07-01
来自专栏Datawhale专栏
《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！
Datawhale开源开源贡献：Datawhale self-llm团队前言《开源大模型食用指南》是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。大模型（LLM）狭义上指基于深度学习算法进行训练的自然语言处理（NLP）模型，主要应用于自然语言理解和生成等领域，广义上还包括机器视觉（CV）大模型、多模态大模型和科学计算大模型等。同时，本项目对本地硬件基本没有要求，全程都需要在云服务器上运行，AutoDL租一台3090服务器，每小时需要1.66元，一杯奶茶就可以租一块3090愉快的学习7个小时！理论上7小时就可以将本项目的所有教程全部跑通一遍（除全量微调外），一杯奶茶速通大模型，掌握开源大模型部署的核心科技。文章最后为什么要做这样一个开源项目？
1.6K21编辑于 2024-04-24
来自专栏全栈程序员必看
大疆网上测评题库_大疆校招笔试实录
大疆笔试的体验很好，没有很为难应聘者，还有着自己鲜明的特点，我认为值得一说，特此写笔经记录一下，顺便攒攒RP，第一次笔经就献给大疆啦~ 笔试网站是大疆自己搭建的(UI设计炒鸡好看！！！) ，我猜题目也是大疆HR团队自己出的。从这点来看，大疆对人才的把控很严格，必须是自己经手选出来的人。我留意到业务决策的题目涉及到好几个岗位：PR、产品经理、销售、营销，题目应该是大疆团队在工作中遇到的真实问题，比如“一款运动型产品，从最大化公司效益出发，哪个选项的做法更合适？”。虽说解题方法应该是一样的，但是……T^T 大疆的笔试差不多就是这样啦，希望能有个好结果吧~ 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/148139.html原文链接
3.7K21编辑于 2022-07-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

YOLOv7-Pose尝鲜，基于YOLOv7的关键点模型测评

大疆测评攻略

测评混元大模型并且基于混元实战开发

多模态大模型能力测评：Bard 是你需要的吗？

详解：7大经典回归模型

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

为了测试大模型的「搜商」，OpenAI 开源了测评基准 BrowseComp

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

【分享】讯飞星火认知大模型Python调用上下文测评

大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7

. | 终结“AI模型选择焦虑”：RNA预训练大模型测评与分析Benchmark

星辰AI大模型TeleChat-7B评测

大模型下半场：7个趋势判断

【分享】百度千帆大模型Python调用上下文测评

腾讯混元大模型招募产品测评官，多重好礼等你来赢！

羊驼系列大模型和ChatGPT差多少？详细测评后，我沉默了

《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战

《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！

大疆网上测评题库_大疆校招笔试实录

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

YOLOv7-Pose尝鲜，基于YOLOv7的关键点模型测评

大疆测评攻略

测评混元大模型并且基于混元实战开发

多模态大模型能力测评：Bard 是你需要的吗？

详解：7大经典回归模型

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

为了测试大模型的「搜商」，OpenAI 开源了测评基准 BrowseComp

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

【分享】讯飞星火认知大模型Python调用上下文测评

大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7

. | 终结“AI模型选择焦虑”：RNA预训练大模型测评与分析Benchmark

星辰AI大模型TeleChat-7B评测

大模型下半场：7个趋势判断

【分享】百度千帆大模型Python调用上下文测评

腾讯混元大模型招募产品测评官，多重好礼等你来赢！

羊驼系列大模型和ChatGPT差多少？详细测评后，我沉默了

《书生·浦语大模型实战营》第7课 学习笔记：OpenCompass 大模型评测实战

《开源大模型食用指南》发布，7个小时，一杯奶茶速通大模型！

大疆网上测评题库_大疆校招笔试实录

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

《书生·浦语大模型实战营》第7课学习笔记：OpenCompass 大模型评测实战