首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸡蛋君

    VMBox测评

    今天在LET论坛看到发的offer OVZ配置 硬盘:50GB SSD 内存:2GB DDR3 流量:2TB IPv4:1 优惠码:YYNISQ1W7J 洛杉矶:点击购买 荷兰:点击购买 加上前几

    1.1K20发布于 2018-06-28
  • EdgeOne测评

    以下是对腾讯云 EdgeOne 标准版与其他产品以及腾讯云 EdgeOne 标准版与其他版本的测评:腾讯云 EdgeOne 标准版与市面同类产品:腾讯云 EdgeOne 标准版与市面上的同类产品相比,具有以下优势

    88010编辑于 2024-08-03
  • 来自专栏杨不易呀

    测评混元大模型并且基于混元实战开发

    前言 halo 我是杨不易呀,在混元大模型内测阶段就已经体验了一番当时打开页面的时候灵感模块让我大吃一惊这么多角色模型真的太屌了,随后我立马进行了代码处理水平和上下文的效果结果一般般但是到如今混元大模型代码处理水平提升超过 腾讯混元大模型现在正式全部开发,发起申请即可,在混元大模型内测阶段我就已经在使用接下来我们迎接代码能力全面升级的混元大模型! 目前官方内置了灵感模块(绘画)其中有: 赛博朋克、日漫动画、梵高、扁平插画、像素插画、马赛克等 11 种风格非常不错,我相信你看完这篇测评你会对混元大模型有着强烈的喜欢功能的强大你们说的算,往下看! 混元大模型对话页面 体验代码能力 我这里列举了不同的代码需求看看混元大模型提升了百分之二十的强悍之处!!!! 那么我的测评就到这里啦感谢大家的观看谢谢!

    3.2K8150编辑于 2024-01-30
  • TarPass:靶标感知分子生成模型的全面基准测评与启示

    浙江大学团队近期在ChemRxiv发表的研究,通过构建名为TarPass的全面基准体系,对15种主流模型进行了系统性测评,为解答这一问题提供了权威答案,也为领域发展指明了清晰方向。 研究团队从PLIs、分子合理性和类药性三个核心维度,对3D原位生成、非3D生成和优化型生成三大范式的模型进行了全面且严格的测评。 结果表明,现有模型在捕捉PLIs核心原理上仍存在显著不足,但预训练模型和优化策略能有效提升分子质量;基于测评洞察设计的多层虚拟筛选流程,可高效富集潜在候选化合物,为实验验证提供有力支撑。 虚拟筛选实践:多层流程实现有效富集 尽管模型存在诸多局限,研究团队基于测评洞察设计的多层虚拟筛选流程,仍展现出显著的实用价值。 虚拟筛选流程及候选分子富集效果 研究启示与未来方向 TarPass基准的系统性测评清晰揭示了当前靶标感知分子生成领域的核心现状:现有模型虽具备探索新型化学空间的独特潜力,但距离真正的理性设计工具仍有较大差距

    12910编辑于 2026-01-08
  • 来自专栏机器之心

    多模态大模型能力测评:Bard 是你需要的吗?

    机器之心专栏 机器之心编辑部 为了对多模态大模型的能力进行全面、系统的测评,来自上海 AI Lab、中国香港大学、北京大学、中国香港中文大学的多位研究者联合提出了全面评估框架 LVLM-eHub 和 Tiny 同时发布了模型间能力对比的众包式用户评测平台多模态大模型竞技场,让真实用户来提问和投票哪个模型表现得更好。 六大多模态能力结构图 多模态大模型竞技场 多模态大模型竞技场是一个模型间能力对比的众包式用户评测平台,与上述的在传统数据集上刷点相比,更能真实反映模型的用户体验。 用户上传图片和提出相应问题之后,平台从后台模型库中随机采样两个模型。两个模型分别给出回答,然后用户可以投票表决哪个模型表现更佳。 Bard 是 12 个模型中唯一的工业界闭源模型,因此不知道模型具体的大小、设计和训练数据集。相比之下,其他模型只有 7B-10B。当然我们目前的测试大都是单轮问答,而 Bard 支持多轮对话。

    84420编辑于 2023-09-08
  • 来自专栏钟意博客

    iPhone SE测评-新款苹果测评-Joi博客文章

    ---- SE测评 大家期待很久的新款iPhoneSE终于来了,在4.15上线官网,24号开售。 那新款iPhone的参数?基带?性能?性价比? 如何? 今天小编给大家带来iPhoneSE的测评 ---- 微言: Chris Gardner:You got a dream, you gotta protect it. 小朋友你是不是有很多问号¿¿¿ 所以很多用户说新款se是8的升级款 不过这价格香啊3299 拆机测评 来看看艾奥科技的公司的拆机测评 根据拆机的结果来看,这两款iPhone的内部结构几乎完全相同

    97720发布于 2021-10-11
  • 来自专栏JackeyGao的博客

    Conoha主机测评

    Conoha主机测评 Posted November 02, 2015 最近由于心知肚明原因, 原来的linode主机已不能使用。所以最近又开始了疯狂找主机的历程, 说起这个简直不能提起。

    3.3K10发布于 2018-08-02
  • 来自专栏华仔的技术笔记

    ugChain技术测评

    本文旨在从技术的角度,针对ugChain开源出来的代码,进行测评;另外本文对以太坊dapp开发者是一个很好的学习资料,可以了解一个优秀的商业级的区块链项目是如何设计和开发。 测评 ugChain社区开源地址:https://github.com/ugchain ugChain智能合约项目地址:https://github.com/ugchain/ugc-contract.git

    1.6K50发布于 2018-05-17
  • 来自专栏TestOps云层

    Fiddler Everywhere测评

    正好整理新课程的时候要更新Fiddler,于是去官网上看了一下,发现了Fiddler EveryWhere的版本,于是下载看看吧。

    91920编辑于 2022-04-07
  • 来自专栏点云PCL

    测评活动分享

    在点云PCL公众号相机测评活动的支持下,首先拿到了小觅相机,所以这篇文章将对小觅MYNTEYE-S1030-IR在ORB-SLAM2和RTAB-Map两种SLAM方案下的效果进行测评,为了增强对比效果会和我自制双目摄像头进行对比 首先介绍一下这次我们的测评相机:MYNTEYE-S1030-IR标准版 实物拍摄 ? ? ? ? ? MYNTEYE-S1030 IMU 坐标系统为右手系,坐标轴方向如下: ? 后端主要采用BA优化方法,内部包含了一个轻量级的定位模型,实现利用VO 追踪未建图区域和与地图点匹配实现零漂移定位。

    2.7K30发布于 2019-08-28
  • 来自专栏吃猫的鱼个人博客编程笔记

    GAIA 测评体系

    本文经AI润色处理 GAIA 测评 一、GAIA 是什么? GAIA 全称是 “General AI Assistant”。 它的目标不是只评估一个大语言模型(LLM)能不能写一段自然语言回答,而是评估它能不能像“智能助理”一样,去完成一项现实世界的小型任务。 在公开对比中,人类的通过率可以达到 90%+,而某些强模型即便具备工具能力,整体正确率依旧明显偏低。这反映出:难度不在“语言表达”,而在“真实执行力”。 问题可扩展 / 可迁移 同一套题最好能跨模型、跨技术栈、跨基础设施形态去测,保证横向可比。 核心精神:“评估 AI 的执行力,而不是语文功底。” 一个常见的通用流程大致如下: 遍历测评集 每道题包含题面、附件(可选)、难度等级、标准答案。 把题发给待测 Agent 题面+附件(附件通常会以可访问的 URL 形式提供给 Agent)。

    93110编辑于 2025-11-04
  • 来自专栏Nicky's blog

    LazyLLM测评 | 基于LazyLLM Agent大模型搭建聊天机器人

    LazyLLM测评 | 低代码构建多Agent大模型应用的高效解决方案 在大模型技术规模化落地的当下,开发者常面临多模型协同复杂、部署流程繁琐、性能优化困难等痛点。 本文将从技术架构、核心功能实测、性能对比、场景落地等维度,全面测评LazyLLM的优势与价值。 组件实现多模型同时运行,提升任务处理效率。 ,模型能关联上一轮对话,无需重复输入背景; 日志查看:界面底部可查看模型调用链路(如OnlineChatModule的请求URL、返回状态),便于调试。 5.2 待优化点 本地模型支持有限:目前对小众本地模型(如Qwen-2-1.5B)的适配需手动修改配置,缺乏自动适配能力。

    34410编辑于 2025-12-17
  • Doubao-Seed-Code 深度体验测评:支持视觉理解的编程模型

    模型里从未体验过的。 下面我就结合自己的真实测试体验,把这次测评的全部过程展开。 Doubao-Seed-Code的独特之处 作为深度依赖智能体与 LLM 的开发者,我的主力工具其实一直是 Claude Code。 在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等主流测评集中表现出色,仅次于 Claude Sonnet 4.5,碾压国内模型。 性能评测:官方数据 + 我的理解 官方给出的测评数据很硬: 在 SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 的综合表现仅次于

    95710编辑于 2025-11-27
  • 来自专栏DrugOne

    . | 终结“AI模型选择焦虑”:RNA预训练大模型测评与分析Benchmark

    近年来,借鉴自然语言处理技术的预训练基因组语言模型(gLMs) 迅速崛起。 面对琳琅满目的模型,研究者往往陷入“选择困难症”,难以判断哪个模型最适配自己的研究场景,这在很大程度上限制了gLMs的广泛应用。 同时,研究发现以往“模型越大越好”的观点并不绝对成立。例如,与应用场景语义适配的预训练数据,以及编码方式同样会对模型性能产生明显的影响。 研究深入揭示了模型性能背后的关键驱动因素:模型表现是预训练数据匹配度、输入长度和分词策略复杂交互的结果。 其次,任务类型决定输入长度需求(如剪接需长上下文),而多模态数据(如临床图像)可能需定制模型。计算资源也是关键:SpliceAI等CNN模型训练快50倍,适合初步验证。

    23720编辑于 2025-12-31
  • 来自专栏https://blog.csdn.net/xia

    JAVA技能树测评

    总的来说 还是很好的 可以给个五星好评哈哈哈 每天都会坚持 打卡 也是一种督促自己学习的软件!

    78710编辑于 2022-12-21
  • 来自专栏GiantPandaCV

    YOLOv7-Pose尝鲜,基于YOLOv7的关键点模型测评

    torch.exp(-d/(s*(4*sigmas**2)+1e-9)))*kpt_mask).mean() 相关性能如下: yolov7-pose 上个星期,YOLOv7的作者也放出了关于人体关键点检测的模型 ,该模型基于YOLOv7-w6, 目前作者提供了.pt文件和推理测试的脚本,有兴趣的童靴可以去看看,本文的重点更偏向于对yolov7-pose.pt进行onnx文件的抽取和推理。 【yolov7-pose + onnxruntime】 首先下载好官方的预训练模型,使用提供的脚本进行推理: % weigths = torch.load('weights/yolov7-w6-pose.pt nkpt表示人体的17个关键点 no=17*3=nkpt*(x+y+obj)=57 二、修改export脚本 如果直接使用export脚本进行onnx的抽取一定报错,在上一节我们已经看到pose.pt模型使用的检测头为 所得到的onnx相比原半精度模型大了将近三倍,后续排查原因 yolov7-w6-pose极度吃显存,推理一张960×960的图像,需要2-4G的显存,训练更难以想象

    3.5K10编辑于 2022-09-28
  • 来自专栏全栈程序员必看

    BeanCopier_contabo测评

    测试在两个简单的Bean之间转换的耗时,执行次数分别为10、100、1k、10k、100k,时间单位为ms。

    1K20编辑于 2022-10-04
  • 来自专栏新智元

    华人科学团队推出「思维链集」,全面测评模型复杂推理能力

    新智元报道 编辑:编辑部 【新智元导读】研究人员希望通过对大模型复杂推理能力的评测来充分发掘大模型未来执行各种复杂任务的潜力。 大模型能力涌现,参数规模越大越好? 谷歌的开发者对PaLM模型也进行了类似的观察,他们发现,大模型的思维链推理能力明显强于小模型。 这些观察都表明,执行复杂任务的能力,才是体现大模型能力的关键。 针对这些基础能力的测评,对于研究大模型未来发展似乎是有些不务正业。 论文地址:https://arxiv.org/pdf/2305.17306.pdf 大模型推理能力哪家强? 这些测试项目或者数据集都是针对大模型的复杂推理能力下手,没有那种谁来都能答得八九不离十的简单任务。 研究人员依然采用思维链提示(COT Prompt)的方式来对模型的推理能力进行测评。 更重要的是要囊括更多语言模型,例如基于 LLaMA 的指令微调模型,例如 Vicuna7等等开源模型。 还可以通过 API像 Cohere 8 一样访问PaLM-2 等模型的能力。

    88530编辑于 2023-08-07
  • Doubao-Seed-Code深度测评:国内首个支持视觉理解的编程模型

    一、Doubao-Seed-Code模型介绍1. 模型在全栈开发中表现良好,前端能力尤为突出。 与国内其他主流编程模型(如DeepSeek V3.1、Kimi K2、GLM 4.6、MiniMax M2等)相比,这些模型均不具备原生视觉理解能力,或需要依赖MCP工具调用将图片转化成语义描述供模型理解 在Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands等主流测评集中,Doubao-Seed-Code表现出色 2.流程图识别与代码生成视觉理解能力是Doubao-Seed-Code最核心的差异化特性,也是本次测评的重点。

    2K10编辑于 2025-12-04
  • 来自专栏全栈程序员必看

    大疆测评攻略

    听说大疆测评也刷人 比例还很高 总结来网上的有关注意事项 都是各方面搬一点,总结一下 测评的题主要为: 性格测试,逻辑测试,计算题,场景题。 DJI大疆2019在线测评-知乎 https://zhuanlan.zhihu.com/p/76053124 大疆招聘网申测评测试笔试题 https://zhuanlan.zhihu.com/p/ 157371591 大疆在线测试三段论 https://bbs.yingjiesheng.com/thread-2112581-1-1.html 大疆在线测评 – 逻辑题 https://zhuanlan.zhihu.com

    1.9K10编辑于 2022-07-21
领券