vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:大模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降
实测,大模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX #FFB86CA6;">Gemini 2.5 Pro 是最强大的代码模型,毫无争议排名:Gemini 2.5 Pro > Claude 3.7 Sonnet > Kimi = Qwen3 报错是颜色问题让其修复颜色问题后,输出如下,第四幅图没有依然没有完美复刻GPT-4.1绘制失败,换了 GPT-4o 依然失败Gemini 2.5 Pro第四张绘制失败第三题换个简单点的省点事儿,直接让大模型用 " # 暗橄榄色 (用于背景轨道))# 3. 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python
自从年初以ChatGPT为代表的人工智能大模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的大模型:混元。 users = [ {'id': 1, 'name': 'Alice'}, {'id': 2, 'name': 'Bob'}, {'id': 3, 下图是腾讯混元大模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用大模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元大模型后,我最近的几篇文章,配图和封面都是直接用大模型直接生成的。只需要说明配图的要求,混元大模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元大模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元大模型官方入口:https://hunyuan.tencent.com/
首先 , 安装 Ollama 软件 , 到 https://ollama.com/ 下载安装 ; 然后 , 运行 ollama run llama3 命令 , 即可开始使用 Llama3 大模型 ; 一 、Meta Llama 3 大模型安装 1、Llama 3 大模型简介 Llama 3 大模型 是 Meta 公司 发布的 大模型 , Meta 公司 就是 Facebook ; Llama 3 大模型 Llama3 大模型 ; 下载的模型放在了 C:\Users\用户名.ollama 目录中 , 在我的电脑上的路径是 C:\Users\octop.ollama ; 这个模型很大 , 有 4.7 G 安装完成后的效果 for help) 二、Meta Llama 3 大模型使用 1、Llama 3 大模型在线使用 在命令行中 , 可以直接进行对话 , 下面是对话内容 : D:\Llama>ollama run llama3 for help) 2、Llama 3 大模型离线使用 Llama 3 大模型 联网时 , 可以访问云端服务 , 可以生成更加丰富的文本 ; Llama 3 大模型 在 断网后也可以使用 , 下面是断开网络后
它基于Llama-3.2-Vision模型打造,也是在大模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源大模型(Gemini Pro 1.5、GPT-4o mini)。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1大模型一样,所有阶段都由模型在单个推理过程中完成。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。 但是从后面的几个步骤来看,好像模型没有正确识别出图片中需要计算的背景是什么,导致只给出了一个平均值之差为3的结论。
全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。 3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是大模型能记住并处理的对话 / 文本长度,单位 token。 上述几种大模型默认上下文长度: glm-4.7-flash(Ollama) 默认上下文:32768 (32K) tokens 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K 四 核心实测:4大模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 如果大家在操作过程中遇到其他问题,或者有其他想测试的模型,欢迎在评论区留言,我会第一时间回复、补充实测!
2026年4月7款国产大模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产大模型同台竞技,最终只有1款完成了挑战。背景大模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给大模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? Qwen3-Coder-Next:快但粗Qwen3-Coder-Next只用了2分34秒,是最快的模型。但速度的代价是准确性——它在s■■■■.js的注释代码中找到了一个示例URL... 结论这次测试揭示了当前国产大模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。
低调的鹅厂通用大模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两大页面。 3 数学能力 给混元出了一道初三的数学题,结果得出了错误的答案,赶紧请大佬GPT-4来救场。 4 英语翻译 请将下面的英文翻译成地道的中文,感觉还不够地道。 语音功能只能算是人的语音输入,大模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元大模型中规中矩,有一些突出的亮点。 混元大模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元大模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元大模型效果如何?
随着 vibe coding 相关技术日趋成熟,大模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,大模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产大模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产大模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。
百度终于在面对 DeepSeek 的爆火之后,重新发布新一代大模型。分别包括了文心大模型 4.5 和文心大模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 (老实说,这波 DeepSeek 真的是无差别攻击了所有的闭源大模型,使得它们不得不都开启免费了)从定位来看,文心 4.5 模型主要擅长多模态能力,而 X1 模型则像 DeepSeek-R1 模型一样, 在各基准测试的对比上,文心大模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心大模型 4.5 更加适用于广泛的多模态任务。 在纯文本能力上,文心大模型 4.5 整体的平均值能力在 79.6,超过了 DeepSeek-V3 和 GPT-4.5 模型。 总的来说,百度为了能够在大模型内卷阶段不掉队,还是需要不断的提升自己模型的能力,还要搞以前那套收费肯定是行不通的了~
大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内大模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global /models/cpatonn-mirror/GLM-4.5-Air-AWQ/files GLM-4.5系列模型是为智能代理设计的基础模型,GLM-4.5-Air 采用了更紧凑的设计,总共有1060 亿参数 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用大模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价
与之前其他公司大模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验大模型带来的神奇能力。 AI 大模型将带来终端数量和产业规模 10 倍以上的提升,科大讯飞董事长刘庆峰在会上表示,未来,「星火」认知大模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。 3、「星火」的思维链推理能力如何?发布会上,刘庆峰继续给「星火」挖坑:孔子在 2008 年奥运会上说了些什么?结果人家不上当。 机器之心继续考验: 数理能力一定程度代表了一个大模型的聪明程度。 三、核心技术、数据与长期主义 2022 年 12 月,科大讯飞开始「星火」认知智能大模型的专项攻关,能在五个月里实现认知大模型的快速突破,和公司长期扎实积累密不可分。 在认知大模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了很好的硬件基石。
简单3步部署本地国产大模型DeepSeek大模型DeepSeek是最近非常火的开源大模型,国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 大模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的大模型? 它支持各种LLM,包括Llama 3、Mistral和Gemma。提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。 理论上就安装完成了,可以只在命令行中使用大模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。
,全程都不需要我自己一个一个资料去查:由于 o3 目前已经具备了工具调用能力,直接让它帮我生成一个雷达图:它在生成的过程中,本质上就是调用了 python 工具生成雷达图,这样的问题对于大模型确实已经比较简单了 最后结论已经是基本接近了,确实图片找地点感觉有点强过头了当然,其实很多多模态大模型都有根据图片识别位置的能力,GeoBench就是这样一个榜单目前 o3 排名在第 7 名。 在过去,我们常说“大模型是大脑,Agent 是身体”,但现在 o3 本身已经具备了感知环境、调用工具、决策执行的能力,一体化模型正在成为主流。 未来的趋势或许就是——你无需再训练自己的 Agent,只需要选一个能看图、能联网、能思考的大模型,它就是你的万能助手。 接下来的问题,不再是“谁家模型大”,而是“谁家的模型更聪明、更省钱、能替我解决更多问题”。
大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列大模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的大模型包括 3 个版本: Seed-OSS-36B-Base(基础模型,含合成数据版本) Seed-OSS-36B-Base-woSyn(基础模型的"纯净版",不含合成数据版本) Seed-OSS-36B-Instruct Qwen3-Next https://docs.vllm.ai/en/latest/models/supported_models.html#text-generation 我是使用 docker 部署的 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。 据我所知,很多公司级的知识库应用多是调用 Qwen3-32B,Seed-OSS-36B-Instruct 这个超长上下文还是很有优势的。
尤其是大模型竞技场的情况,之前就有传言说那俩叫lithiumflow和orionmist的模型可能是Gemini 3 pro,网上铺天盖地的全是看起来特酷炫的SVG图,声称这是Gemini 3 pro的水平 然后,从9月到10月再到现在,11月都过一半了,这俩模型也没啥人提了。 后来网上又出现了一个Gemini3候选选手,叫riftrunner。 又被很多网友称为Gemini 3。 这就是之前,最有人味、文笔最棒、创意最好的大模型。 虽然在人味上最近被GPT 5.1-Thinking有一点点超越,但是我还很喜欢。 但现在,在相隔了238天之后,Gemini 3 Pro,终于来了。 而在实测之后,可以说,这就是2025年,最牛逼的模型。 即使我对他已经抱有了极高的预期,我依然还是觉得,Google还是太强了。 ScreenSpot-Pro,一个专门用来折磨多模态模型的 GUI Grounding(界面定位)评测集,而且是偏专业场景+高分辨率大屏那种地狱难度。
GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。 在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,
一句话总结:OpenClaw 本身不内置任何大模型,而是通过灵活的配置机制对接各类模型服务。更换模型只需三步:选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。 但很多人忽略了一个关键问题:OpenClaw 本身不包含任何 AI 模型。就像一台性能再强的电脑,没有操作系统也无法工作。OpenClaw 的“大脑”完全来自你接入的大模型。 第一章:核心原理——OpenClaw 如何对接大模型?1.1 为什么需要更换模型?OpenClaw 的核心价值在于“连接”——连接大模型的思考能力与电脑的真实操作权限。 2.1 腾讯元宝模型配置(推荐中文场景)腾讯元宝基于混元大模型,提供强大的中文理解和多模态能力,2026 年推出免费额度方案,大幅降低使用门槛。 Q3:本地模型响应太慢怎么办?
每次“运行”包含 5 次迭代,即 LLM 会收到 5 次提交,并进行 4 轮反馈,使其能够从反馈中学习并改进解决方案( 完整系统提示[3] )。 对于每个任务,我们为每个模型至少进行了 5 次运行(由于成本较高,o3-pro、claude-4-opus 和 gpt-4.5 每个任务只进行了 2 次运行),以考虑到我们在同一模型在同一任务上看到的性能差异很大 虽然大多数模型通常只能略好于随机猜测,但最好的模型却能持续表现更好,而且我们几乎达到了90%的最佳得分。 来自“图像块洗牌(简单)”任务的示例数据。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、大模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116 htihle.github.io/weirdml.html [2] 下载完整的 WeirdML 数据(CSV): https://htihle.github.io/data/weirdml_data.csv [3]
写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态大模型就能干。 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用大模型过程中积累的真实中文 OCR 场景数据。 4、Qwen3.5-27B(63.0%):性价比标杆候选Qwen3.5-27B 是 Qwen 系最有意思的一个:参数量比 122B 小一大截,但准确率只低 3 个百分点,评测成本 ¥3.05(Qwen3.5 gpt 系列高端档的 1/10 到 1/20,准确率反而更高六、七大子任务表现情况热力图比表格更直观——绿色越深的格子代表那个模型在那个任务上越强。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是大模型走进真实办公场景的入口。