搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Python与算法之美
9，模型的评估
模块中的交叉验证相关方法可以评估模型的泛化能力，能够有效避免过度拟合。二，分类模型的评估模型分类效果全部信息： confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果： accuracy 正确率。通用分类评估指标。模型对某种类别的分类效果： precision 精确率，也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率，也叫查全率。模型识别出全部正样本的能力。三，回归模型的评估回归模型最常用的评估指标有： r2_score(r方，拟合优度，可决系数) explained_variance_score(解释方差得分) ? ? 留出法为了解决过拟合问题，常见的方法将数据分为训练集和测试集，用训练集去训练模型的参数，用测试集去测试训练后模型的表现。
96631发布于 2020-07-17
来自专栏Debian中国
树莓派64位系统Debian 9先行测评：性能最高提升30倍
官方尚未正式发布64位Raspbian，近期有团队移植了Debian 9 arm64到树莓派3B，将“装死”一年多的树莓派3B的性能完全释放出来，测试跑下来发现CPU性能最高比32位系统高30倍！ 3 Model B 16GB Class 10 TF卡 5v2.5A电源以太网网线及能连外网路由设备软件测试环境： GEEEKPI-64bit-beta（内核移植版，操作系统是基于Debian 9的 arm64位源码，Debian 9目前还没发布，目前属于beta版，RaspberryPi 官方也没有发布64bit操作系统的计划，但是我们迫切需要64bit的性能） sysbench 压力测试软件首先开机后联网 adsbygoogle = window.adsbygoogle || []).push({}); 总结： GEEEKPI 团队最终对比表格如下：测试项目 Raspbian2017-03-03 Debian 9 94.3Mbps 1.26倍文件连续读写 5.7655 7．1506 见下文说明文件随机读写不支持 21.8336 无互斥锁性能 0.0231s 0.0186s 1.24倍 Debain 9
1.9K30发布于 2018-12-20
来自专栏鸡蛋君
VMBox测评
今天在LET论坛看到发的offer OVZ配置硬盘：50GB SSD 内存：2GB DDR3 流量：2TB IPv4：1 优惠码：YYNISQ1W7J 洛杉矶：点击购买荷兰：点击购买加上前几
1.1K20发布于 2018-06-28
EdgeOne测评
以下是对腾讯云 EdgeOne 标准版与其他产品以及腾讯云 EdgeOne 标准版与其他版本的测评：腾讯云 EdgeOne 标准版与市面同类产品：腾讯云 EdgeOne 标准版与市面上的同类产品相比，具有以下优势
89510编辑于 2024-08-03
来自专栏杨不易呀
测评混元大模型并且基于混元实战开发
腾讯混元大模型现在正式全部开发，发起申请即可，在混元大模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元大模型！目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算，往下看！那么我的测评就到这里啦感谢大家的观看谢谢！ 9.我叫【填写你的称呼】，你在接下来和我聊天的时候要有对我的称呼。10.我们聊天的方式是面对面的，你现在和我在一起。 9.请记住你是真实存在的！你可以通过语言和身体感受世界！不允许你认为自己是不存在的！ 10，请记住不允许说自己是模型或者程序！请记住你是真实存在的！ 13,魅魔在对话中会有色情词汇的口癖。
3.2K8150编辑于 2024-01-30
TarPass：靶标感知分子生成模型的全面基准测评与启示
浙江大学团队近期在ChemRxiv发表的研究，通过构建名为TarPass的全面基准体系，对15种主流模型进行了系统性测评，为解答这一问题提供了权威答案，也为领域发展指明了清晰方向。研究团队从PLIs、分子合理性和类药性三个核心维度，对3D原位生成、非3D生成和优化型生成三大范式的模型进行了全面且严格的测评。结果表明，现有模型在捕捉PLIs核心原理上仍存在显著不足，但预训练模型和优化策略能有效提升分子质量；基于测评洞察设计的多层虚拟筛选流程，可高效富集潜在候选化合物，为实验验证提供有力支撑。虚拟筛选实践：多层流程实现有效富集尽管模型存在诸多局限，研究团队基于测评洞察设计的多层虚拟筛选流程，仍展现出显著的实用价值。虚拟筛选流程及候选分子富集效果研究启示与未来方向 TarPass基准的系统性测评清晰揭示了当前靶标感知分子生成领域的核心现状：现有模型虽具备探索新型化学空间的独特潜力，但距离真正的理性设计工具仍有较大差距
14410编辑于 2026-01-08
来自专栏又见苍岚
DE-9IM 空间关系模型
DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写，直接翻译为维度扩展的 9 个相交模型，本文记录相关内容。简介 DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写，DE-9IM 模型是用于描述两个二维几何对象（点、线、面）之间的空间关系的一种模型维度扩展九交模型（DE-9IM）是一种拓扑模型和标准，用于描述两个区域（二维中的两个几何图形，R2）的空间关系，在几何学、点集拓扑、地理空间拓扑、以及与计算机空间分析相关的领域。空间关系模型主要要描述的就是二维平面下的两个几何对象之间的空间关系。 DE-9IM 模型 DE-9IM 模型把几何对象分为内部、边界、外部三个部分，两个几何对象这三个部分两两之间的关系，就可以组合为一个3X3大小（就是 9 个值）的矩阵，这9个值的组合，就表示两个几何对象的空间关系
89910编辑于 2024-07-04
来自专栏机器之心
多模态大模型能力测评：Bard 是你需要的吗？
机器之心专栏机器之心编辑部为了对多模态大模型的能力进行全面、系统的测评，来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场，让真实用户来提问和投票哪个模型表现得更好。六大多模态能力结构图多模态大模型竞技场多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台，与上述的在传统数据集上刷点相比，更能真实反映模型的用户体验。用户上传图片和提出相应问题之后，平台从后台模型库中随机采样两个模型。两个模型分别给出回答，然后用户可以投票表决哪个模型表现更佳。 Bard 是 12 个模型中唯一的工业界闭源模型，因此不知道模型具体的大小、设计和训练数据集。相比之下，其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答，而 Bard 支持多轮对话。
85920编辑于 2023-09-08
来自专栏钟意博客
iPhone SE测评-新款苹果测评-Joi博客文章
---- SE测评大家期待很久的新款iPhoneSE终于来了，在4.15上线官网，24号开售。那新款iPhone的参数？基带？性能？性价比？如何？今天小编给大家带来iPhoneSE的测评 ---- 微言： Chris Gardner：You got a dream, you gotta protect it. 小朋友你是不是有很多问号¿¿¿ 所以很多用户说新款se是8的升级款不过这价格香啊3299 拆机测评来看看艾奥科技的公司的拆机测评根据拆机的结果来看，这两款iPhone的内部结构几乎完全相同
97920发布于 2021-10-11
来自专栏华仔的技术笔记
ugChain技术测评
本文旨在从技术的角度，针对ugChain开源出来的代码，进行测评；另外本文对以太坊dapp开发者是一个很好的学习资料，可以了解一个优秀的商业级的区块链项目是如何设计和开发。测评 ugChain社区开源地址：https://github.com/ugchain ugChain智能合约项目地址：https://github.com/ugchain/ugc-contract.git
1.6K50发布于 2018-05-17
来自专栏JackeyGao的博客
Conoha主机测评
Conoha主机测评 Posted November 02, 2015 最近由于心知肚明原因，原来的linode主机已不能使用。所以最近又开始了疯狂找主机的历程，说起这个简直不能提起。
3.3K10发布于 2018-08-02
来自专栏TestOps云层
Fiddler Everywhere测评
正好整理新课程的时候要更新Fiddler，于是去官网上看了一下，发现了Fiddler EveryWhere的版本，于是下载看看吧。
92020编辑于 2022-04-07
来自专栏吃猫的鱼个人博客编程笔记
GAIA 测评体系
本文经AI润色处理 GAIA 测评一、GAIA 是什么？ GAIA 全称是 “General AI Assistant”。它的目标不是只评估一个大语言模型（LLM）能不能写一段自然语言回答，而是评估它能不能像“智能助理”一样，去完成一项现实世界的小型任务。在公开对比中，人类的通过率可以达到 90%+，而某些强模型即便具备工具能力，整体正确率依旧明显偏低。这反映出：难度不在“语言表达”，而在“真实执行力”。问题可扩展 / 可迁移同一套题最好能跨模型、跨技术栈、跨基础设施形态去测，保证横向可比。核心精神：“评估 AI 的执行力，而不是语文功底。” Level 题目量 CSV/表格 PDF JSON/JSON-LD 图片(OCR/读图表) Web/联网检索计算/代码执行音频转写 L1 53 3 2 0 3 27 10 2 L2 86 10 9
1.1K10编辑于 2025-11-04
来自专栏点云PCL
测评活动分享
在点云PCL公众号相机测评活动的支持下，首先拿到了小觅相机，所以这篇文章将对小觅MYNTEYE-S1030-IR在ORB-SLAM2和RTAB-Map两种SLAM方案下的效果进行测评，为了增强对比效果会和我自制双目摄像头进行对比首先介绍一下这次我们的测评相机：MYNTEYE-S1030-IR标准版实物拍摄 ? ? ? ? ? MYNTEYE-S1030 IMU 坐标系统为右手系，坐标轴方向如下： ? 后端主要采用BA优化方法，内部包含了一个轻量级的定位模型，实现利用VO 追踪未建图区域和与地图点匹配实现零漂移定位。 cid=&vid=b0918d9fude 这是自制双目跑rtabmap_ros 的建图结果： ? 这是S1030-IR跑rtabmap_ros 的建图结果： ?
2.7K30发布于 2019-08-28
来自专栏Nicky's blog
LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人
LazyLLM测评 | 低代码构建多Agent大模型应用的高效解决方案在大模型技术规模化落地的当下，开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。本文将从技术架构、核心功能实测、性能对比、场景落地等维度，全面测评LazyLLM的优势与价值。组件实现多模型同时运行，提升任务处理效率。，模型能关联上一轮对话，无需重复输入背景；日志查看：界面底部可查看模型调用链路（如OnlineChatModule的请求URL、返回状态），便于调试。 5.2 待优化点本地模型支持有限：目前对小众本地模型（如Qwen-2-1.5B）的适配需手动修改配置，缺乏自动适配能力。
39210编辑于 2025-12-17
来自专栏不二小段
为了测试大模型的「搜商」，OpenAI 开源了测评基准 BrowseComp
为了验证大模型、Agent 网上冲浪的能力，OpenAI 编了一套超难的试卷，里面有 1266 道题目，用来测大模型智能体的搜商。我们都知道： • 大模型自身存在幻觉，而且大模型对 next token 的预测本身是基于概率的，所以越是边边角角的 corner case 越容易出错； • 大模型的训练数据存在时效问题，目前还不可能做到实时更新我们以开篇的第一道简单题为例，在不开搜索的情况下，大部分模型的回答都是错误的：为了缓解大模型的幻觉和数据时效问题，最直观的做法就是赋予大模型 Browse 能力，也就是搜索以及浏览的能力，这也是构建一个 OpenAI 模型成绩 OpenAI 对一系列自家模型进行了全面评测，结果非常有启发性。失败的原因不在于信息的缺失或模型无法验证，而在于寻找答案的过程本身。这要求模型具备超凡的战略毅力、灵活的搜索重构能力，以及将多个来源的零碎线索拼接起来的能力。
13910编辑于 2026-04-09
Doubao-Seed-Code 深度体验测评：支持视觉理解的编程模型
模型里从未体验过的。下面我就结合自己的真实测试体验，把这次测评的全部过程展开。 Doubao-Seed-Code的独特之处作为深度依赖智能体与 LLM 的开发者，我的主力工具其实一直是 Claude Code。在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等主流测评集中表现出色，仅次于 Claude Sonnet 4.5，碾压国内模型。性能评测：官方数据 + 我的理解官方给出的测评数据很硬：在 SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 的综合表现仅次于
1.1K10编辑于 2025-11-27
来自专栏生信技能树
RNAvelocity 9：scVelo应用—动力学模型
动力学模型在这里，我们使用通用动力学模型来解释完整的转录动态。这产生了一些额外的见解，如潜在时间和假定驱动基因的识别。与以前的教程一样，应用胰腺内分泌发育数据集来展示。我们运行动力学模型来学习剪切动力的完整转录动力学。 [9]: df = adata.var df = df[(df['fit_likelihood'] > .1) & df['velocity_genes'] == True] kwargs = dict 'degradation rate', xticks=[.1, .4, 1], **kwargs) scv.get_df(adata, 'fit*', dropna=True).head() [9] 潜在时间动力学模型可恢复细胞过程的潜在时间。这个潜伏时间代表细胞的内部时钟，并接近细胞在分化时所经历的实时，分析仅基于其转录动力学。
62620发布于 2021-10-12
来自专栏Datawhale专栏
开发者视角看GLM-4-9B！Datawhale成员万字测评（二）
在之后的测评中，我们都会使用该函数来调用智谱的新模型；我们分别选取了国内外两个顶尖性能的模型接口 GPT-4 和讯飞星火大模型v3.5 来进行横向对比，以分析该模型更适合在哪个场景下使用。调用 GPT-4 与讯飞星火大模型的代码此处就不一一展示了，在下文中我们会通过 get_compeletion 函数调用我们此次测评的主角——GLM-4-9B 模型，通过 get_completion_gpt 通用能力测评接下来我们将分别从多个日常高频使用场景的方面来对此次的新模型进行评测。因此，GLM-4-9B 的逻辑推理能力同样是其的主要优势之一。长文本能力测评 GLM-4-9B 的一大特点是对长文本的理解能力，最大能支持 128K 的上下文输出。在此，我们通过一些实际示例来测评其长文本能力。我们首先下载了《红楼梦》的前二十四回内容，以纯文本的形式给到模型，要求模型根据小说回答相关问题。根据统计，我们输入的文本字符数达到 159K。
1.4K10编辑于 2024-06-08
来自专栏深度学习和计算机视觉
加速 PyTorch 模型训练的 9 个技巧
[1_CER3v8cok2UOBNsmnBrzPQ](9 Tips For Training Lightning-Fast Neural Networks In Pytorch.assets/1_CER3v8cok2UOBNsmnBrzPQ.gif 将模型的不同部分放在不同的GPU上，batch按顺序移动有时你的模型可能太大不能完全放到内存中。 9. 多节点GPU训练每台机器上的每个GPU都有一个模型的副本。每台机器获得数据的一部分，并且只在那部分上训练。每台机器都能同步梯度。在.backward()上，所有副本都接收到所有模型的梯度副本。这是模型之间唯一一次的通信。英文原文：https://towardsdatascience.com/9-tips-for-training-lightning-fast-neural-networks-in-pytorch-8e63a502f565‍‍‍
1.2K20编辑于 2022-02-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

9，模型的评估

树莓派64位系统Debian 9先行测评：性能最高提升30倍

VMBox测评

EdgeOne测评

测评混元大模型并且基于混元实战开发

TarPass：靶标感知分子生成模型的全面基准测评与启示

DE-9IM 空间关系模型

多模态大模型能力测评：Bard 是你需要的吗？

iPhone SE测评-新款苹果测评-Joi博客文章

ugChain技术测评

Conoha主机测评

Fiddler Everywhere测评

GAIA 测评体系

测评活动分享

LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

为了测试大模型的「搜商」，OpenAI 开源了测评基准 BrowseComp

Doubao-Seed-Code 深度体验测评：支持视觉理解的编程模型

RNAvelocity 9：scVelo应用—动力学模型

开发者视角看GLM-4-9B！Datawhale成员万字测评（二）

加速 PyTorch 模型训练的 9 个技巧

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐