3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是大模型能记住并处理的对话 / 文本长度,单位 token。 接下来,进入核心实测环节——4个模型的全方位对比,结合相同的测试案例,拆解各自的优缺点、适用范围,每一个结论都基于我实际操作的体验,不吹不黑,客观呈现。 四 核心实测:4大模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 七、最后总结 本次Mac本地基于Ollama安装Claude Code,以及4个热门模型的实测,到这里就全部结束了。 最后,希望这篇实测推文,能够帮到大家,无论是Ollama安装Claude Code的实操,还是4个模型的选择,都能让大家少走弯路。
2026年4月7款国产大模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产大模型同台竞技,最终只有1款完成了挑战。背景大模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给大模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? 2个模型下载了错误的文件,4个模型完全没下载成功。网站的真实漏洞是什么?在分析模型表现之前,先说清楚这个网站到底有什么问题。 结论这次测试揭示了当前国产大模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。
随着 vibe coding 相关技术日趋成熟,大模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,大模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产大模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 在这个层面,deepseek-v4-pro 和 deepseek-v4-flash 在国产模型里表现最佳,为第一梯队,其余模型都有一定差距。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产大模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。
vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:大模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降
实测,大模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX Pro第四张绘制失败第三题换个简单点的省点事儿,直接让大模型用 R 复刻用 R 复刻了一张图,附代码Kimi复刻失败Qwen-3-235B-A22B还行,有点丑Claude-3.7-sonnet“径向条形图 " = "#4A4A3B" # 暗橄榄色 (用于背景轨道))# 3. 在 GPT-4o 轨道上添加数值标签 geom_text(data = gpt4o_data, aes(x = benchmark, y = value + 4, label = 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python
自从年初以ChatGPT为代表的人工智能大模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的大模型:混元。 性能测试是一个很重视团队协作和沟通配合的软件工程,而混元大模型能给出这个建议,确实是超出我的预料。 下图是腾讯混元大模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用大模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元大模型后,我最近的几篇文章,配图和封面都是直接用大模型直接生成的。只需要说明配图的要求,混元大模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元大模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元大模型官方入口:https://hunyuan.tencent.com/
它基于Llama-3.2-Vision模型打造,也是在大模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源大模型(Gemini Pro 1.5、GPT-4o mini)。 具体LLaVA-o1在推理答案生成的过程当中,把问题进行了有效的拆分,构建了4个结构化的推理阶段:Summary Stage(总结阶段):在此初始阶段,LLaVA-o1提供问题的高层次总结解释,概述其打算解决的主要问题方面 使用GPT-4o和上面的四个阶段来进行生成。在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1大模型一样,所有阶段都由模型在单个推理过程中完成。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。
作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具 组件:大模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六大模块 模块 核心作用 Agent作为高级模块,可调用其他所有模块功能 大模型接入 接入示例 云服务和私有化大模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商大模型 较低,开箱即用 算力资源充足,大模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化大模型 较高,自建大模型网关、服务鉴权、可用性等 算力硬件投入成本高,大模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建大模型的方式 总结 LangChain 是什么?
低调的鹅厂通用大模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两大页面。 3 数学能力 给混元出了一道初三的数学题,结果得出了错误的答案,赶紧请大佬GPT-4来救场。 4 英语翻译 请将下面的英文翻译成地道的中文,感觉还不够地道。 语音功能只能算是人的语音输入,大模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元大模型中规中矩,有一些突出的亮点。 混元大模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元大模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元大模型效果如何?
百度终于在面对 DeepSeek 的爆火之后,重新发布新一代大模型。分别包括了文心大模型 4.5 和文心大模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 再来看看官方放出的能力测试图来看,在多模态测试上,新的4.5 模型在多个测试集上都已经超过了 GPT-4o 模型。 在平均值对比上,文心大模型4.5 的平均得分为 77.77,高于 GPT-4o 的 73.92,说明它整体表现更好。 在各基准测试的对比上,文心大模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心大模型 4.5 更加适用于广泛的多模态任务。 其中,文心 4.5 主要擅长多模态任务,在多个测试集中超越 GPT-4o,尤其在 DocVQA 和 MathVista 任务上表现突出。
大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内大模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global 但是 GLM-4.6 本地部署还是有点成本太高 原版 714GB、FP8 版本模型文件也 355GB 了 倒是 GLM-4.5-AIR 有了比较靠谱的量化版本——GLM-4.5-Air-AWQ-4bit 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用大模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价
在4月16日晚,OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。 它让语言模型不再只是单纯地处理文本,而是能像智能体一样感知环境、做出决策并执行任务。看来什么 Agent 都是炒作,只要大模型的推理能力够强,Agent 的能力确实不值得一提。 在过去,我们常说“大模型是大脑,Agent 是身体”,但现在 o3 本身已经具备了感知环境、调用工具、决策执行的能力,一体化模型正在成为主流。 未来的趋势或许就是——你无需再训练自己的 Agent,只需要选一个能看图、能联网、能思考的大模型,它就是你的万能助手。 接下来的问题,不再是“谁家模型大”,而是“谁家的模型更聪明、更省钱、能替我解决更多问题”。
与之前其他公司大模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验大模型带来的神奇能力。 刘聪现场也抛出了复杂的计算题: 「花坛里有三种花,一共 88 朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的 5 倍少 2 朵,那么请问花坛里一共有多少朵牡丹花?」 4、在多功能语言代码能力上,科大讯飞展示了「大模型+数字员工」,基于自然语言生成业务流程和 RPA,帮助企业员工完成大量重复性工作。 4 月,科大讯飞在 2022 年度业绩说明会答投资者问中提到,科大讯飞在 Transformer 深度神经网络算法方面已经拥有丰富经验,也广泛应用于科大讯飞的语音识别、图文识别、机器翻译等任务并达到国际领先水平 在认知大模型相关的算力上,科大讯飞在总部自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了很好的硬件基石。
MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的 LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。 开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【大模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former ; MINI-GPT4表现比BLIP2要强上许多? ① MiniGPT-4 使用的是 Vicuna(基于 LLaMA 的开源 ChatGPT 对话模型),具有更强的自然语言表达和指令理解能力;而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT
大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列大模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的大模型包括 (指令微调版本) 模型大小都是 36B。 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。 另外,它还有可控思维预算机制,用户可以根据任务复杂性灵活指定模型的推理长度,如设置为 512、1K、2K、4K、8K 或 16K 等。
Meta最新发布了原生多模态大模型 Llama 4,一经亮相即登上LMSYS大模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。 在模型规模方面,Llama 4系列的确非常庞大,尤其是Behemoth模型,远超业内主流,例如DeepSeek R1参数量仅为6710亿,只有Behemoth的约三分之一。 当前行业趋势多偏向小而高效的模型,Llama 4如此庞大的规模实属少见。 总结与展望Llama 4的发布,意味着Meta正式进入原生多模态大模型竞争核心领域。 相比Gemini系列、GPT-4o、Claude 3、DeepSeek等主流模型,Llama 4以务实高效的技术路线,突出计算成本、推理效率与多模态能力的平衡。
每次“运行”包含 5 次迭代,即 LLM 会收到 5 次提交,并进行 4 轮反馈,使其能够从反馈中学习并改进解决方案( 完整系统提示[3] )。 对于每个任务,我们为每个模型至少进行了 5 次运行(由于成本较高,o3-pro、claude-4-opus 和 gpt-4.5 每个任务只进行了 2 次运行),以考虑到我们在同一模型在同一任务上看到的性能差异很大 形状分类(简单) 一个形状分类任务( 任务提示[4] ),模型需要从一组 512 个 2D 坐标中识别出一个形状(圆形、正方形、三角形、五边形、星星),其中只有部分点构成了形状,其他点是噪声。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、大模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116 htihle.github.io/data/weirdml_data.csv [3] 完整系统提示: https://htihle.github.io/prompts/system_prompt_v2.html [4]
写在前面:为什么要做这件事OCR 这件事,听上去没什么悬念——“识图取字”嘛,是个多模态大模型就能干。 一、评测怎么做的数据来源:日常使用积累这次评测用到的数据,全部来自我们日常使用大模型过程中积累的真实中文 OCR 场景数据。 4、Qwen3.5-27B(63.0%):性价比标杆候选Qwen3.5-27B 是 Qwen 系最有意思的一个:参数量比 122B 小一大截,但准确率只低 3 个百分点,评测成本 ¥3.05(Qwen3.5 gpt 系列高端档的 1/10 到 1/20,准确率反而更高六、七大子任务表现情况热力图比表格更直观——绿色越深的格子代表那个模型在那个任务上越强。 这些模型推理慢可以理解,但gpt-5.4-high 既慢又不准还贵,当前的中文OCR场景建议不要选它。 八、写在最后OCR 这件事,看起来朴素,但它是大模型走进真实办公场景的入口。
多模态大模型核心技术 1多模态的困难 困难 数据集标志困难 人工标注生成 COCO Visual Genome ... OpenAl的DALL-E2和GPT4 谷歌大脑的 lmaen和Stable Diffusion 百度的文心一言 文本生成图像 基于GAN的文本生成图像方法 AlignDRAW:第一个现代文本生成图像模型 图像解码器 把隐信息还原成图像 4语音多模态技术 文本生成语音 以前技术:拼接法和参数法 基于非深度学习的文本生成语音技术 隐马尔可夫模型 (HMM) 文本信息提取模块 声学特征提取模块 可调整的低秩适配(Adaptive Low-Rank Adaptation,AdaLoRA)技术和量化压缩远程注意力(Quantized Long-Range Attention,QLoRA)技术 8 GPT-4多模型核心技术介绍 Transformer:编码器-解码器框架 编码器:衍生出了自编码大模型,如BERT、RoBERT和ALBERT 解码器:衍生出了自回归大模型,如GPT-1和GPT-2 整体衍生出:T5和GLM
5G即将普及,4G数据也基本能够满足需要,实测为日常使用地点(两处)和办公室WIFI,如果要求时延低,任何场合都推荐光钎,wifi和4g信号时延都要明显高于有线网络。 在线测网速链接:http://www.speedtest.cn/report_mobile/4G 移动(wifi+4G1+4G2): ~ ? ~ ? ~ ? ~ 联通(wifi+4g1+4g2): ~ ? ~ ? ~ ? ~ 电信(wifi+4g1+4g2): ~ ? ~ ? ~ ?