vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:大模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降
实测,大模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX 本文就测试一下他们在图表识别、复刻中的表现,看看谁更擅长干这件事备注:Kimi 开启了长思考,Qwen3 未开启深度思考,因为开启之后巨慢且失败 省流:<mark style="background: #FFB86CA<em>6</em>; 报错是颜色问题让其修复颜色问题后,输出如下,第四幅图没有依然没有完美复刻GPT-4.1绘制失败,换了 GPT-4o 依然失败Gemini 2.5 Pro第四张绘制失败第三题换个简单点的省点事儿,直接让<em>大</em><em>模型</em>用 绘制图表fig, ax = plt.subplots(figsize=(8, <em>6</em>))# 使用 seaborn 绘制# 为了实现雨云图的效果,我们会组合 stripplot, boxplot, 和 violinplot 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、<em>大</em><em>模型</em>系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python
自从年初以ChatGPT为代表的人工智能大模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的大模型:混元。 性能测试是一个很重视团队协作和沟通配合的软件工程,而混元大模型能给出这个建议,确实是超出我的预料。 下图是腾讯混元大模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用大模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元大模型后,我最近的几篇文章,配图和封面都是直接用大模型直接生成的。只需要说明配图的要求,混元大模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元大模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元大模型官方入口:https://hunyuan.tencent.com/
值得一提的是,通过使用T5模型进行模型大小的消融实验,我们展示了提示微调随着规模的增加变得更加具有竞争力:当模型参数超过数十亿时,我们的方法“缩小了差距”并达到了模型微调(即调整所有模型权重)的强大性能 input和target,则使用原始的input embedding(5) 使用方式离散和连续template token混合时,显示地插入一下anchor(离散的token)有助于template的优化(6) ,无需verbalizer(4) 特点在小、大模型上,效果均优于P-tuning。 当参数量达10B,效果相当于FT6.LoRA(2021)(1) 论文信息来自论文:《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》(2)摘要自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练 Model),学习目标为而加入LoRA后,学习目标为:(6) 配置在多个部位$(Q/K/V/Output)$同时添加$\bigtriangleup W$ ,会比只在单一部分上添加权重$\bigtriangleup
它基于Llama-3.2-Vision模型打造,也是在大模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源大模型(Gemini Pro 1.5、GPT-4o mini)。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1大模型一样,所有阶段都由模型在单个推理过程中完成。 模型训练中则用了Llama-3.2-11B-Vision-Instruct模型作为基础模型,使用LLaVA-o1-100k数据集进行监督微调(Supervised Fine-Tuning, SFT)。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。
全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。 3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是大模型能记住并处理的对话 / 文本长度,单位 token。 上述几种大模型默认上下文长度: glm-4.7-flash(Ollama) 默认上下文:32768 (32K) tokens 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K 四 核心实测:4大模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 如果大家在操作过程中遇到其他问题,或者有其他想测试的模型,欢迎在评论区留言,我会第一时间回复、补充实测!
2026年4月7款国产大模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产大模型同台竞技,最终只有1款完成了挑战。背景大模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给大模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? 复盘7个模型的推理过程,GLM-5.1的成功可以归结为三个关键决策:决策一:追踪代码而非猜测URL6个失败的模型都尝试了URL猜测策略——根据已知音频URL的模式(如/s■■■■/f■■■■/q■■■■ 结论这次测试揭示了当前国产大模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。
低调的鹅厂通用大模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两大页面。 腾讯表示,混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力。 既然如此,我们就选择六个有代表性的维度,来看看它的生成效果。 6 语音对话 来,请介绍一下你自己。语音功能只能算是人的语音输入,大模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元大模型中规中矩,有一些突出的亮点。 混元大模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元大模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元大模型效果如何?
随着 vibe coding 相关技术日趋成熟,大模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,大模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产大模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产大模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。
6G与AI融合的未来方向 6G 网络的内生 AI 设计将赋能网络的AI大模型,同时使网络能够支持 AI 大模型的训练和服务。 另外,从小模型到大模型,生产效率跨越式提升基础通用大模型具有泛化性,网络智能化将从用例驱动转变为能力驱动,迅速降低应用开发门槛,加速 AI 工程化、规模化落地。 6G 网络将承担数据采集、预处理等数据服务,为云AI训练提供更好的支持。此外,6G 网络的分布式部署将使得 AI 大模型更靠近用户侧,从而在时延方面具有潜在优势。 在数据获取和处理方面,与 ChatGPT 不同,网络中存在大量结构化数据,且网络不同问题间的共性不清晰,网络 AI 大模型面临较大挑战。6G 网络面临如何有效采集适合AI大模型训练的数据的挑战。 而在构建 AI 大模型的路径上,需要分阶段探索,从离线小规模模型开始,逐步过渡到实时大规模模型,最终实现统一的网络 AI 大模型。 本文摘自于中国移动的“6G内生AI架构及AI大模”汇报材料。
百度终于在面对 DeepSeek 的爆火之后,重新发布新一代大模型。分别包括了文心大模型 4.5 和文心大模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 (老实说,这波 DeepSeek 真的是无差别攻击了所有的闭源大模型,使得它们不得不都开启免费了)从定位来看,文心 4.5 模型主要擅长多模态能力,而 X1 模型则像 DeepSeek-R1 模型一样, 在各基准测试的对比上,文心大模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心大模型 4.5 更加适用于广泛的多模态任务。 在纯文本能力上,文心大模型 4.5 整体的平均值能力在 79.6,超过了 DeepSeek-V3 和 GPT-4.5 模型。 总的来说,百度为了能够在大模型内卷阶段不掉队,还是需要不断的提升自己模型的能力,还要搞以前那套收费肯定是行不通的了~
大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内大模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global /models/cpatonn-mirror/GLM-4.5-Air-AWQ/files GLM-4.5系列模型是为智能代理设计的基础模型,GLM-4.5-Air 采用了更紧凑的设计,总共有1060 亿参数 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用大模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价
历时 5 个月、100 多天,5 月 6 日下午 2 点,科大讯飞「星火」认知大模型如约而至。 发布会独具匠心,亮点一分为二:「1」 + 「N」。 上半场围绕「1」,聚焦「星火」通用能力展示。 与之前其他公司大模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验大模型带来的神奇能力。 AI 大模型将带来终端数量和产业规模 10 倍以上的提升,科大讯飞董事长刘庆峰在会上表示,未来,「星火」认知大模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。 2022 年,他们还开源了 6 个大类、超过 40 个通用领域的系列中文预训练语言模型,相关模型库月均调用量超 1000 万,在 Github 平台获得星标数位列同类中文预训练语言模型第一并远超第二名。 在认知大模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了很好的硬件基石。
以下为卡帕西年度回顾全文:《2025年大语言模型年度回顾》2025年是大语言模型领域大步跨越且充满变数的一年。 通过在数学、代码谜题等大量可自动验证奖励的环境中训练大语言模型,模型会自发形成人类视角下近似“推理”的策略。 Cursor与大语言模型应用的新层级Cursor最引人关注的点(除了其2025年的爆发式增长),在于它清晰揭示了大语言模型应用的一个全新层级,人们开始普遍讨论“某领域的Cursor模式”。 2025 年,行业内围绕这一新应用层的“厚度”展开了大量讨论:大语言模型实验室是否会通吃所有应用场景?还是说垂直领域的大语言模型应用仍有广阔蓝海? 我个人的观点是,大语言模型实验室更倾向于培育“通识能力极强的大学生”式模型,而大语言模型应用则通过整合私有数据、传感器、执行器及反馈闭环,对这些“大学生”进行针对性组织、微调,最终驱动它们成为特定垂直领域的
大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列大模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的大模型包括 (指令微调版本) 模型大小都是 36B。 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。
中小型公司大模型构建之路 如何选择 自己建立 二次开发 重新训练,消耗非常巨大 现有的大模型体系已经非常丰富 对话大模型已经白热化 •三天产生一个小应用 •两天产生一个新模型 中小公司的技术实力相对薄 微调 用 LoRA((Low-Rank Adaptation低秩适配) 2022年 Edward J.Hu PLM(Pre-trained Language Model 预训练语言模型) Redundancy Optimizer,ZeRO) •优化器状态分区(ZeRO-1) •梯度分区 (ZeRO-2) •参数分区(ZeRO-3) 压缩 剪枝 剪枝技术通过理结果产生重要影响,需要剔除冗余参数以提高模型训练效率 步骤 •1、训练一个原始模型,该模型具有较高的性能但运行速度较慢。 •2、确定哪些参数对输出结果的贡献较小,并将其设置为零。 •4、评估模型的大小、速度和效果等指标,如果不符合要求,那么继续进行剪枝操作直至满意为止。
ChatGLM-6B 开源模型旨在与开源社区一起推动大模型技术发展,恳请开发者和大家遵守开源协议,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务 尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性,但由于 ChatGLM-6B 模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确性,且模型易被误导(详见局限性)。 : 更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。 将模型下载到本地之后,将以上代码中的 THUDM/chatglm-6b 替换为你本地的 chatglm-6b 文件夹的路径,即可从本地加载模型。 Optional 模型的实现仍然处在变动中。 局限性 由于 ChatGLM-6B 的小规模,其能力仍然有许多局限性。以下是我们目前发现的一些问题: 模型容量较小:6B 的小容量,决定了其相对较弱的模型记忆和语言能力。
上篇我们已经具备了 ChatGLM-6B 初步的运行环境,这为实现完全属于自己的模型奠定了基础(快速部署ChatGLM-6B大模型实战总结),接下来将针对模型进行微调,以便让它真正成为一个定制化智能助手 在这个过程中,我将直接使用官方的P-Tuning v2工具对ChatGLM-6B模型进行参数微调。 /THUDM/chatglm-6b \ # 加载模型文件地址 --output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \ # 保存训练模型文件地址 在实践中,我们使用了 ChatGLM-6B 模型,并经历了模型的训练和推理过程。训练模型消耗了相当多的时间,但也让我们体会到了模型训练的复杂性和挑战性。 —扩 展 阅 读— 正在发生或即将发生的AI大模型应用,立帖为证 ChatGPT、Claude和Bard,三足鼎立之势已成 WPS Office AI实战总结,智能化办公时代已来 你对 ChatGPT
结果 该图提供了多个指标下模型性能的全面总结,适用于所有包含任务都有结果的模型。'跨任务平均准确率'列展示了整体平均准确率(粗体数字),它是每个任务的平均最大准确率的平均值。 虽然大多数模型通常只能略好于随机猜测,但最好的模型却能持续表现更好,而且我们几乎达到了90%的最佳得分。 来自“图像块洗牌(简单)”任务的示例数据。 图像块洗牌(简单) 模型必须排列 9 个洗牌的灰度图像块(每个 9x9 像素),以重建原始的 27x27 图像。所有块都保证来自同一张连贯的图像( 任务提示[6] )。训练集包含 1000 张图像。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、大模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116 task_prompt_shapes_easy.html [5] 任务提示: https://htihle.github.io/prompts/task_prompt_shapes_hard.html [6]
写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态大模型就能干。 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用大模型过程中积累的真实中文 OCR 场景数据。 4、Qwen3.5-27B(63.0%):性价比标杆候选Qwen3.5-27B 是 Qwen 系最有意思的一个:参数量比 122B 小一大截,但准确率只低 3 个百分点,评测成本 ¥3.05(Qwen3.5 gpt 系列高端档的 1/10 到 1/20,准确率反而更高六、七大子任务表现情况热力图比表格更直观——绿色越深的格子代表那个模型在那个任务上越强。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是大模型走进真实办公场景的入口。