首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? 复盘7模型的推理过程,GLM-5.1的成功可以归结为三个关键决策:决策一:追踪代码而非猜测URL6个失败的模型都尝试了URL猜测策略——根据已知音频URL的模式(如/s■■■■/f■■■■/q■■■■ 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。

    25800编辑于 2026-04-23
  • 来自专栏毕业论文写作指南

    7款AI工具实测推荐!

    下面就为大家实测推荐7款超实用的AI工具,助你论文写作不再发愁。1. 瑞达写作:写论文从未如此简单工具简介:还在为对着空白文档写论文而发愁吗? 不妨试试这个平台——仅需输入题目,30分钟内就能一键生成5万字以上的论文初稿,从框架到内容直接落地,再也不用为“凑字数”而熬夜啦。 AI率和查重率双保障:生成内容的查重率与AI检测率通常控制在7%-25%之间,为后续润色与投稿留足空间。图片介绍:2. AI率和查重率双保障:生成内容的查重率与AI检测率通常控制在7%-25%之间,让你不用再担心论文查重。图片介绍:3. 图片介绍:结尾:以上就是这7款AI工具的详细介绍啦,希望能为你的论文写作提供有力帮助,祝大家都能顺利完成论文!

    78110编辑于 2025-08-04
  • 来自专栏机器学习与统计学

    腾讯混元OCR模型,本地部署,实测

    vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降

    1.6K10编辑于 2025-12-24
  • 实测模型谁更懂数据可视化?

    实测模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX 报错是颜色问题让其修复颜色问题后,输出如下,第四幅图没有依然没有完美复刻GPT-4.1绘制失败,换了 GPT-4o 依然失败Gemini 2.5 Pro第四张绘制失败第三题换个简单点的省点事儿,直接让模型用 model factor levels 对应: Blue, Green, Beige, Pinkcolor_palette <- c( "Qwen2.5-Coder-32B-Instruct" = "#2A<em>7</em>FFF ", # 鲜艳的蓝色 "DeepSeek-Coder-V2-Instruct" = "#<em>7</em>CFC00", # 亮绿色/酸橙绿 "DeepSeek-Coder-33B-Instruct" = "#E0C097 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、<em>大</em><em>模型</em>系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python

    63210编辑于 2025-05-29
  • 来自专栏老张的求知思考世界

    生产效率的革新:腾讯混元模型实测

    自从年初以ChatGPT为代表的人工智能模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的模型:混元。 性能测试是一个很重视团队协作和沟通配合的软件工程,而混元模型能给出这个建议,确实是超出我的预料。 下图是腾讯混元模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元模型后,我最近的几篇文章,配图和封面都是直接用模型直接生成的。只需要说明配图的要求,混元模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元模型官方入口:https://hunyuan.tencent.com/

    86310编辑于 2023-11-27
  • 来自专栏算法一只狗

    实测一手LLaVA-o1推理模型

    它基于Llama-3.2-Vision模型打造,也是在模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源模型(Gemini Pro 1.5、GPT-4o mini)。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1模型一样,所有阶段都由模型在单个推理过程中完成。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。 可以看到,整个过程很丝滑,同时对于图片的识别和理解也毕竟准确接着,我拿了一道2024年高考数学题目给它解答:先来看看正确的答案是:7/15由于它支持图片输入,因此直接用图片进行问答:下面是LLaVA-o1

    69510编辑于 2024-12-02
  • 来自专栏架构进阶

    实测|Mac本地Claude Code,4热门模型(minimaxqwenkimiglm)对比

    全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。 3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是模型能记住并处理的对话 / 文本长度,单位 token。 上述几种模型默认上下文长度: glm-4.7-flash(Ollama) 默认上下文:32768 (32K) tokens 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K 四 核心实测:4模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 如果大家在操作过程中遇到其他问题,或者有其他想测试的模型,欢迎在评论区留言,我会第一时间回复、补充实测

    53530编辑于 2026-05-06
  • 来自专栏AIGC1688

    实测腾讯模型(附申请内测)

    低调的鹅厂通用模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两页面。 腾讯表示,混元模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。 既然如此,我们就选择六个有代表性的维度,来看看它的生成效果。 语音功能只能算是人的语音输入,模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元模型中规中矩,有一些突出的亮点。 混元模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元模型效果如何?

    1.1K61编辑于 2023-11-13
  • DeepSeek V4 领衔实测:国产 AI 模型工程代码能力测评!

    随着 vibe coding 相关技术日趋成熟,模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。

    69520编辑于 2026-05-06
  • 来自专栏算法一只狗

    实测文心 4.5 模型

    百度终于在面对 DeepSeek 的爆火之后,重新发布新一代模型。分别包括了文心模型 4.5 和文心模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 (老实说,这波 DeepSeek 真的是无差别攻击了所有的闭源模型,使得它们不得不都开启免费了)从定位来看,文心 4.5 模型主要擅长多模态能力,而 X1 模型则像 DeepSeek-R1 模型一样, 在各基准测试的对比上,文心模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心模型 4.5 更加适用于广泛的多模态任务。 在纯文本能力上,文心模型 4.5 整体的平均值能力在 79.6,超过了 DeepSeek-V3 和 GPT-4.5 模型。 总的来说,百度为了能够在模型内卷阶段不掉队,还是需要不断的提升自己模型的能力,还要搞以前那套收费肯定是行不通的了~

    35620编辑于 2025-04-26
  • 来自专栏机器学习与统计学

    智谱GLM-4.5-Air量化模型,本地部署,实测

    大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global /models/cpatonn-mirror/GLM-4.5-Air-AWQ/files GLM-4.5系列模型是为智能代理设计的基础模型,GLM-4.5-Air 采用了更紧凑的设计,总共有1060 亿参数 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价

    2.8K10编辑于 2025-10-11
  • 来自专栏数据派THU

    详解:7经典回归模型

    来源:csdn 深度学习爱好者本文约2900字,建议阅读5分钟本文给大家介绍机器学习建模中7经典的回归分析模型。 什么是回归分析? 4.它需要的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的,即不具有多重共线性。 7.如果因变量是多类的话,则称它为多元逻辑回归。 3. Polynomial Regression多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。

    1.7K41编辑于 2023-04-18
  • 来自专栏机器之心

    现场实测,三能力超越ChatGPT,科大讯飞「星火」模型如约而至

    与之前其他公司模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验模型带来的神奇能力。  AI 模型将带来终端数量和产业规模 10 倍以上的提升,科大讯飞董事长刘庆峰在会上表示,未来,「星火」认知模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。 7 大类 481 个细分任务类型。 其中,7 个能力具体包括语言理解、知识问答、逻辑推理,数学能力、代码能力以及多模态能力。  先说结果:目前「星火」通用能力业内明显领先。 在认知模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为模型训练平台建设奠定了很好的硬件基石。 

    3K30编辑于 2023-05-09
  • 来自专栏机器学习与统计学

    字节跳动开源模型Seed-OSS-36B,本地部署,性能实测

    大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的模型包括 3 个版本: Seed-OSS-36B-Base(基础模型,含合成数据版本) Seed-OSS-36B-Base-woSyn(基础模型的"纯净版",不含合成数据版本) Seed-OSS-36B-Instruct (指令微调版本) 模型大小都是 36B。 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。

    1.5K10编辑于 2025-10-11
  • 来自专栏大模型应用

    模型应用:模型参数调优:结合本地模型对比多种组合探索差异.7

    引言 在模型的应用中,参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同,模型的生成参数更像是一组精密的调控旋钮,它们不改变模型的基础知识,而是影响模型如何思考和表达。 理解这些参数的本质,不仅能够提升模型输出的质量,更是将模型从玩具转变为工具的关键一步。 今天我们将从理论基础到实践应用,全面解析模型的核心参数体系,详细的介绍模型推理中常用的参数项,并通过本地模型示例展示参数调整对模型效能的影响。常见参数项:max_length:生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """模型参数测试器 分步调优流程图五、总结 模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。

    76932编辑于 2026-02-04
  • 来自专栏GiantPandaCV

    星辰AI模型TeleChat-7B评测

    前言 受中电信 AI 科技有限公司的邀请,为他们近期开源的TeleChat-7B模型做一个评测。 最后,我们可以从TeleChat-7B开源项目在文创方面展示的例子看到它具有不错的文创能力和一定的代码能力,可以作为开发者来使用的一个不错的基础模型。 在评论评语方面,TeleChat7B可能是因为SFT的缘故会拒答一些问题,以及对于上面的第二个prompt回答的质量比较低。而对于上面的第一个问题,也出现了经典的模型幻觉问题。 总结 总的来说,TeleChat-7B具有一定的文创能力和代码能力,对于本次测试的大多数prompt可以生成较为合理的答案。但模型本身也存在模型幻觉,指令跟随能力一般以及回答有概率重复的问题。 此外,TeleChat-7B在开源方面是相当有诚意的,将清洗之后的训练数据进行开源是在之前的模型开源中比较难见到的,如果想了解更多的数据清洗细节以及模型训练的细节可以阅读官方放出的技术报告:https

    70120编辑于 2024-02-22
  • 模型下半场:7个趋势判断

    推理模型能力的持续提升,推动模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了模型下半场的新赛程。个人智能体潜力初步显现,行业应用渐次走深,开源开放日益成为模型的核心竞争力组成。 用更大算力去探索模型的能力上限,仍是行业共识。预计今年上半年国外将推出GPT-5、Llama 4级别模型。 虽然去年以来,我国AI高端芯片企业数量和能力均有提升,华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片,但由于台积电暂停7nm产能供应及HBM禁令等限制,国产高端芯片的制造仍面临挑战 受DeepSeek效应刺激,国内外模型公司正加速推出下一代模型,如OpenAI的基础模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7; 模型的数据通信开放协议则可以让模型更方便地调用各种工具,从而自主完成各类任务。

    62620编辑于 2025-04-02
  • 来自专栏机器学习与统计学

    模型解决机器学习问题,实测,DeepSeek-R1 排名第9

    结果 该图提供了多个指标下模型性能的全面总结,适用于所有包含任务都有结果的模型。'跨任务平均准确率'列展示了整体平均准确率(粗体数字),它是每个任务的平均最大准确率的平均值。 虽然大多数模型通常只能略好于随机猜测,但最好的模型却能持续表现更好,而且我们几乎达到了90%的最佳得分。 来自“图像块洗牌(简单)”任务的示例数据。 图像块洗牌(困难版) 一个更具挑战性的版本,其中块是 RGB 格式,并且是从较大 64x64 图像的随机 27x27 子集提取的( 任务提示[7] )。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116 task_prompt_shapes_hard.html [6] 任务提示: https://htihle.github.io/prompts/task_prompt_shuffle_easy.html [7]

    24410编辑于 2025-07-21
  • 模型OCR识别能力实测:第一名你绝对想不到……

    写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态模型就能干。 一张学生作业本上的潦草手写,“7”会不会被读成“1”,“日”会不会被读成“曰”?一段竖式牌匾,模型能不能识别出“从右往左、从上往下”的阅读顺序?一张繁体字印刷品,会不会被简化、误识、或者干脆当成乱码? 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用模型过程中积累的真实中文 OCR 场景数据。 gpt 系列高端档的 1/10 到 1/20,准确率反而更高六、七子任务表现情况热力图比表格更直观——绿色越深的格子代表那个模型在那个任务上越强。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是模型走进真实办公场景的入口。

    23310编辑于 2026-05-06
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第7课 学习笔记:OpenCompass 模型评测实战

    其主要特点如下: 开源可复现:提供公平、公开、可复现的模型评测方案 全面的能力维度:五维度设计,提供 70+ 个数据集约 40 万题的的模型评测方案,全面评估模型能力 丰富的模型支持:已支持 20+ 评测对象 本算法库的主要评测对象为语言模型与多模态模型。我们以语言模型为例介绍评测的具体模型类型。 C-Eval 数据集上的性能 其他学习内容 参考文献 本人学习系列笔记 《书生·浦语模型实战营》第1课 学习笔记:书生·浦语模型全链路开源体系 《书生·浦语模型实战营》第2课 学习笔记:轻松玩转书生 ·浦语模型趣味 Demo 《书生·浦语模型实战营》第3课 学习笔记:搭建你的 RAG 智能助理(茴香豆) 《书生·浦语模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent 《书生·浦语模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践 《书生·浦语模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建 《书生·浦语模型实战营

    79910编辑于 2024-07-01
领券