首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与统计学

    腾讯混元OCR模型,本地部署,实测

    vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降

    1.6K10编辑于 2025-12-24
  • 实测模型谁更懂数据可视化?

    实测模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX 报错是颜色问题让其修复颜色问题后,输出如下,第四幅图没有依然没有完美复刻GPT-4.1绘制失败,换了 GPT-4o 依然失败Gemini 2.5 Pro第四张绘制失败第三题换个简单点的省点事儿,直接让模型用 ', y='value', data=df_rho, order=['ρ'], color=colors['ρ'], alpha=0.7, jitter=0.2, size=5, label='25%~75%'), Line2D([0], [0], color='black', lw=2, label='Mean ± 1 SD', marker='|', markersize=5, 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、模型系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python

    63210编辑于 2025-05-29
  • 来自专栏老张的求知思考世界

    生产效率的革新:腾讯混元模型实测

    自从年初以ChatGPT为代表的人工智能模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的模型:混元。 性能测试是一个很重视团队协作和沟通配合的软件工程,而混元模型能给出这个建议,确实是超出我的预料。 下图是腾讯混元模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元模型后,我最近的几篇文章,配图和封面都是直接用模型直接生成的。只需要说明配图的要求,混元模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元模型官方入口:https://hunyuan.tencent.com/

    86310编辑于 2023-11-27
  • 来自专栏算法一只狗

    实测一手LLaVA-o1推理模型

    它基于Llama-3.2-Vision模型打造,也是在模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源模型(Gemini Pro 1.5、GPT-4o mini)。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1模型一样,所有阶段都由模型在单个推理过程中完成。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。 同时对于图片的识别和理解也毕竟准确接着,我拿了一道2024年高考数学题目给它解答:先来看看正确的答案是:7/15由于它支持图片输入,因此直接用图片进行问答:下面是LLaVA-o1给出的答案,同时还有它的一些推理步骤:它的回答分开了5个步骤

    69510编辑于 2024-12-02
  • 来自专栏架构进阶

    实测|Mac本地Claude Code,4热门模型(minimaxqwenkimiglm)对比

    3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是模型能记住并处理的对话 / 文本长度,单位 token。 上述几种模型默认上下文长度: glm-4.7-flash(Ollama) 默认上下文:32768 (32K) tokens 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K 四 核心实测:4模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 案例4(多模态推理):上传一张包含简单表格的图片(表格内容为3列5行,包含姓名、年龄、职业),要求模型识别图片中的表格内容,提取数据,生成可编辑的Excel表格代码,并计算年龄平均值。 6.5 问题5:云端模型响应延迟、输出中断 解决方法:检查网络连接,确保网络稳定(建议500M以上宽带);关闭VPN,避免网络干扰;如果仍有延迟,切换到本地模型,或稍后再试。

    53530编辑于 2026-05-06
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? /c■■■■/15094d5bf256.mp3,直接下载了,没有验证这是否是当前诗文的音频。" 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。

    25800编辑于 2026-04-23
  • 来自专栏AIGC1688

    实测腾讯模型(附申请内测)

    低调的鹅厂通用模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两页面。 5 绘画能力 混元模型支持文字生成图像能力,首先在聊天界面输入“请画一幅古装美女在读书的场景”,一次生成了四张图片供我们选择,感觉色彩华丽,光线柔和,画面精致,比某言绘画能力更强大。 语音功能只能算是人的语音输入,模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元模型中规中矩,有一些突出的亮点。 混元模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元模型效果如何?

    1.1K61编辑于 2023-11-13
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.3K10编辑于 2025-05-07
  • DeepSeek V4 领衔实测:国产 AI 模型工程代码能力测评!

    随着 vibe coding 相关技术日趋成熟,模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 但考虑到 glm-5 的整体表现,后续值得持续关注。结语受限于样本规模与任务覆盖,且模型版本仍在持续迭代,本次测试的结论具有一定局限性。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。

    69520编辑于 2026-05-06
  • 来自专栏算法一只狗

    实测文心 4.5 模型

    百度终于在面对 DeepSeek 的爆火之后,重新发布新一代模型。分别包括了文心模型 4.5 和文心模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 (老实说,这波 DeepSeek 真的是无差别攻击了所有的闭源模型,使得它们不得不都开启免费了)从定位来看,文心 4.5 模型主要擅长多模态能力,而 X1 模型则像 DeepSeek-R1 模型一样, 在各基准测试的对比上,文心模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心模型 4.5 更加适用于广泛的多模态任务。 在纯文本能力上,文心模型 4.5 整体的平均值能力在 79.6,超过了 DeepSeek-V3 和 GPT-4.5 模型。 总的来说,百度为了能够在模型内卷阶段不掉队,还是需要不断的提升自己模型的能力,还要搞以前那套收费肯定是行不通的了~

    35620编辑于 2025-04-26
  • 来自专栏机器学习与统计学

    智谱GLM-4.5-Air量化模型,本地部署,实测

    大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global /models/cpatonn-mirror/GLM-4.5-Air-AWQ/files GLM-4.5系列模型是为智能代理设计的基础模型,GLM-4.5-Air 采用了更紧凑的设计,总共有1060 亿参数 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价

    2.8K10编辑于 2025-10-11
  • LLM模型 写代码靠谱吗?实测 5 种场景后,发现这些坑一定要避开!!!

    随着人工智能技术的飞速发展,LLM 模型逐渐走进了程序员的工作场景。“只需输入需求,就能生成可用代码”,这样的宣传让不少开发者心动不已。但 LLM 模型写代码真的靠谱吗? 带着这些疑问,我们对 5 种常见的编程场景进行了实测,结果发现其中暗藏不少 “坑”,今天就来一一揭晓,帮大家避避雷! 场景一:基础算法实现 在编程学习和日常开发中,基础算法的实现是很常见的需求。 我们选取了经典的快速排序算法作为测试对象,分别使用了 GPT - 4、Claude 3、文心一言、讯飞星火、通义千问这几款主流的 LLM 模型进行测试。 使用 LLM 模型写代码的建议 作为辅助工具而非替代:LLM 模型可以帮助开发者快速生成代码框架和一些简单的功能实现,提高开发效率,但不能完全依赖它来完成所有的编程工作,开发者仍需要对代码进行把控和优化 总之,LLM 模型在写代码方面有一定的辅助作用,但并不完全靠谱,存在诸多需要避开的坑。开发者在使用时要保持理性和谨慎,充分发挥其优势,同时规避其不足,让它真正成为提高开发效率的好帮手。

    69020编辑于 2025-08-27
  • 来自专栏机器之心

    现场实测,三能力超越ChatGPT,科大讯飞「星火」模型如约而至

    历时 5 个月、100 多天,5 月 6 日下午 2 点,科大讯飞「星火」认知模型如约而至。  发布会独具匠心,亮点一分为二:「1」 + 「N」。  上半场围绕「1」,聚焦「星火」通用能力展示。 与之前其他公司模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验模型带来的神奇能力。  刘聪现场也抛出了复杂的计算题:  「花坛里有三种花,一共 88 朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的 5 倍少 2 朵,那么请问花坛里一共有多少朵牡丹花?」  5、多模态输入和表达能力不断丰富。 在认知模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为模型训练平台建设奠定了很好的硬件基石。 

    3K30编辑于 2023-05-09
  • 来自专栏啄木鸟软件测试

    模型测试:性能优化的5实战策略

    引言 随着ChatGLM、Qwen、DeepSeek及Llama系列语言模型在金融、政务、医疗等关键场景加速落地,模型测试已远超传统‘功能是否正确’的范畴——性能成为决定能否上线的核心瓶颈。 这些并非个例,而是模型测试进入深水区的典型信号:性能不是附加项,而是可信AI的第一道防线。 一、明确性能基线:拒绝‘拍脑袋’指标 模型性能测试首要误区是套用小模型标准。 某车企实测发现,量化后INT4模型虽降低显存42%,但因解码器访存激增,实际能效比反降19%——这正是基线驱动测试的价值:用数据替代经验判断。 二、分层注入式压测:从单卡到集群的穿透验证 传统压力测试常止步于API层,而模型性能瓶颈常藏于框架底层。 结语 模型性能测试的本质,是构建‘可测量、可归因、可演进’的效能反馈闭环。

    25710编辑于 2026-03-31
  • 来自专栏机器学习与统计学

    字节跳动开源模型Seed-OSS-36B,本地部署,性能实测

    大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的模型包括 3 个版本: Seed-OSS-36B-Base(基础模型,含合成数据版本) Seed-OSS-36B-Base-woSyn(基础模型的"纯净版",不含合成数据版本) Seed-OSS-36B-Instruct (指令微调版本) 模型大小都是 36B。 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。

    1.5K10编辑于 2025-10-11
  • 模型微调】一文掌握5模型微调的方法

    (Prompt Tuning)在内的5种主流方法。 模型微调究竟是什么?直观上,模型微调即是指通过输入特定领域或任务的数据,并有选择性地调整模型参数的技术过程。 我们所讨论的5种微调方法,本质上都是对这个基础架构中自注意力机制与前馈神经网络等核心组件的参数进行优化的不同策略。 5、提示调整-轻量级的参数优化提示调整(Prompt Tuning)是一种“润物细无声”的微调,不改变模型自身,而是通过优化输入提示词的嵌入表示来引导模型输出。 四、模型微调赋能智能未来综上所述,模型微调是连接通用基座模型强大能力与具体业务需求的关键桥梁。

    3.8K40编辑于 2025-10-23
  • 来自专栏张俊红

    5 常用机器学习模型类型总结

    本文介绍了 5 常用机器学习模型类型:集合学习算法,解释型算法,聚类算法,降维算法,相似性算法,并简要介绍了每种类型中最广泛使用的算法模型。我们希望本文可以做到以下三点: 1、应用性。 所以我们希望通过给出模型的一般类别,让你更好地了解这些模型应当如何应用。 2、相关性。 因此,与其创建模型来预测响应变量的值,不如创建解释性模型来帮助我们理解模型中变量之间的关系。 如果你不能解释一个模型是如何工作的,那么这个模型就很难取信于人,自然也就不会被人们应用。 参考链接: https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f

    3.6K20编辑于 2022-03-29
  • 来自专栏机器学习与统计学

    模型解决机器学习问题,实测,DeepSeek-R1 排名第9

    也就是说,对于每个模型,我们取每次运行中每个任务的 5 次迭代中的最大准确率,然后计算给定任务(通常为 5 次运行/模型/任务)的所有运行的平均值,最后将这些结果平均值计算所有 19 个任务。 每次“运行”包含 5 次迭代,即 LLM 会收到 5 次提交,并进行 4 轮反馈,使其能够从反馈中学习并改进解决方案( 完整系统提示[3] )。 对于每个任务,我们为每个模型至少进行了 5 次运行(由于成本较高,o3-pro、claude-4-opus 和 gpt-4.5 每个任务只进行了 2 次运行),以考虑到我们在同一模型在同一任务上看到的性能差异很大 Shapes(Hard) 类似于 Shapes(Easy),但形状的位置、方向和大小是随机的( 任务提示[5] )。这测试了模型创建平移不变、旋转不变和尺度不变特征的能力。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116

    24410编辑于 2025-07-21
  • 模型OCR识别能力实测:第一名你绝对想不到……

    写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态模型就能干。 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用模型过程中积累的真实中文 OCR 场景数据。 三、Top 5 详读:到底哪个模型识字最准? 题,但准确率只有 33.6%Doubao-Seed-2.0-mini 是这次评测里唯一“又快又准”的模型——比国产其他模型快 4-5 倍,准确率仍能进入第一梯队。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是模型走进真实办公场景的入口。

    23310编辑于 2026-05-06
  • 来自专栏机器学习与统计学

    世界上最强大的开源模型,GLM-5实测,本地部署,Ollama免费提供云端模型

    模型春晚 2.0 世界上最强大的开源模型来了 没想到最先来的是 GLM-5,师承 DeepSeek,股价大涨 40% 正如前面推测的一样,它就是 GLM-5 本文只说三件事: 简介 本地部署/压缩 Claude Opus 4.5、Gemini 3 Pro、GPT-5.2 站一起了 Artificial Analysis 的测评数据,GLM-5 是目前世界上最领先的开源模型,分数逼近 Claude /glm-5 3、Ollama 免费云端模型 + 一键配置到 Claude Code、Codex、OpenCode、OpenClaw! -5:cloud Ollama 命令更新了 Ollama 近期重大更新:图片生成、Claude Code 兼容、一键启动 Agent OpenClaw 免费玩 ,Ollama 提供云模型支持,这可能是目前最简单的安装 、配置教程 GLM-5 绝对是个值得尝试的国产模型,我后续将在OpenCode中替换掉K2.5,深度感受一下 制作不易,如果这篇文章觉得对你有用,可否点个关注。

    5.7K10编辑于 2026-03-02
领券