首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习与统计学

    腾讯混元OCR模型,本地部署,实测

    vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了:模型 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 0 \ --gpu-memory-utilization 0.2 安装及模型启动 - 我的方式 最省心,省事儿,离线最友好的方式必须是 Docker 第一步,拉取 vllm/vllm-openai 1.9GB,其他都是 KV cache 占用 官方教程中的模型调用貌似也不太友好啊,我还是用了为 DeeoSeekOCR 写的 API,简单修改后依然很好用 速度飞快,5 页的 PDF 也是秒秒钟搞定 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降

    1.6K10编辑于 2025-12-24
  • 实测模型谁更懂数据可视化?

    实测模型 LaTeX 公式识别,出乎预料前文,我用 Kimi、Qwen-3-235B-A22B、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro 测试了其在 LaTeX 报错是颜色问题让其修复颜色问题后,输出如下,第四幅图没有依然没有完美复刻GPT-4.1绘制失败,换了 GPT-4o 依然失败Gemini 2.5 Pro第四张绘制失败第三题换个简单点的省点事儿,直接让模型用 mean_rho_val], color='black', lw=1, linestyle='--')ax.plot(1, mean_rho_val, marker='*', markersize=10 Line2D([0], [0], marker='*', color='w', label='Mean', markerfacecolor='black', markersize=10 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、模型系列研究报告(50 个 PDF) 108 页 PDF 小册子:搭建机器学习开发环境及 Python

    63210编辑于 2025-05-29
  • 来自专栏老张的求知思考世界

    生产效率的革新:腾讯混元模型实测

    自从年初以ChatGPT为代表的人工智能模型爆火之后,市场上随之出现了很多大模型相关的工具。作为一个IT行业的技术人员,肯定不会放过这种对新技术尝鲜的机会。 最近腾讯推出了自己的模型:混元。 性能测试是一个很重视团队协作和沟通配合的软件工程,而混元模型能给出这个建议,确实是超出我的预料。 下图是腾讯混元模型帮我生成的图片: 文生图是一直是AIGC领域的核心技术之一,也是体现通用模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。 自从试用了混元模型后,我最近的几篇文章,配图和封面都是直接用模型直接生成的。只需要说明配图的要求,混元模型就能在几秒钟内生成我脑海中的配图,简单快捷还清晰。 如果要整体概括混元模型对日常工作和内容创作的帮助价值,我觉得那就是对生产效率的革新,最切中它的价值。 腾讯混元模型官方入口:https://hunyuan.tencent.com/

    86310编辑于 2023-11-27
  • 来自专栏算法一只狗

    实测一手LLaVA-o1推理模型

    它基于Llama-3.2-Vision模型打造,也是在模型的基础上,加入了“慢思考”思维链COT。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源模型(Gemini Pro 1.5、GPT-4o mini)。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1模型一样,所有阶段都由模型在单个推理过程中完成。 而在使用阶段级束搜索之后,可以得到正确的结果(下图绿色部分显示)实测模型能力首先给一个简单的加减题目减去图中闪亮的小球和紫色物体,剩下多少个?模型会把问题进行拆解,然后进行一步一步的分析。 第一步:分析了具体的问题,然后重点关注微小的闪亮球和紫色物体第二步:计算了图片中共有10个物体,然后减去那些闪亮的小球,接着也识别到了紫色物体,再进行相减第三步:最后得出了答案,从10个物体中减去2个,

    69510编辑于 2024-12-02
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? 2个模型下载了错误的文件,4个模型完全没下载成功。网站的真实漏洞是什么?在分析模型表现之前,先说清楚这个网站到底有什么问题。 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别 本文基于2026年4月23日的实测数据,测试环境为Trae企业版IDE模式。所有模型使用相同的提示词和工具集。

    25800编辑于 2026-04-23
  • 来自专栏架构进阶

    实测|Mac本地Claude Code,4热门模型(minimaxqwenkimiglm)对比

    全程无滤镜、无夸大,纯实测视角,把每个模型的优缺点、适用范围、实操体验一一拆解,文末还整理了模型选择速查表,新手也能快速对号入座。 3.4 几个大模型的默认上下文长度 相信大家都已经了解过,上下文是模型能记住并处理的对话 / 文本长度,单位 token。 上述几种模型默认上下文长度: glm-4.7-flash(Ollama) 默认上下文:32768 (32K) tokens 最大支持:198K tokens(官方标称 200K,Ollama 限制 198K 四 核心实测:4模型全方位对比(相同案例,公平PK) 本次测试选取了4类高频场景,覆盖编码、办公、推理等日常使用场景,每个场景设置相同的任务指令,从响应速度、输出质量、容错率、易用性4个维度进行评分( 满分10分),最终结合评分和实际体验,拆解每个模型的优缺点和适用范围。

    53530编辑于 2026-05-06
  • 来自专栏AIGC1688

    实测腾讯模型(附申请内测)

    低调的鹅厂通用模型,终于来了! 前天下午,AI智能解码收到了腾讯混元的内测资格,今天就来和大家分享一下初体验。 打开小程序后,从顶部菜单可以看到,其主要分为「聊天」和「灵感」两页面。 1 逻辑推理 先来初步挑战一下脑筋急转弯,树上有10只鸟,打死一只,还剩几只?混元准确理解了提问的意图,看起来脑筋还是挺会来事。 语音功能只能算是人的语音输入,模型输出文字。 其他的功能还有很多,就不一一展示了。 总体上感觉目前混元模型中规中矩,有一些突出的亮点。 混元模型逻辑推理和写作能力正常发挥,数学能力差强人意,英语翻译一般,绘画能力让我眼前一亮,腾讯混元模型文生图功能正式对外开放。 那么,你觉得鹅厂的混元模型效果如何?

    1.1K61编辑于 2023-11-13
  • DeepSeek V4 领衔实测:国产 AI 模型工程代码能力测评!

    随着 vibe coding 相关技术日趋成熟,模型辅助编程已经逐渐成为主流的开发方式。各大模型也在持续发力工程级代码能力,竞争愈发激烈。 在这个背景下,一个自然而然的问题出现了:对于 DolphinDB 这类深耕专业细分领域、自带编程语言的产品,模型的辅助效果到底如何?不同模型之间的差距有多大? 于是,我们跑了一轮系统性评测,覆盖当前主流的国产模型,并引入 gpt-5.4 作为能力基准线,看看国产模型的真实水位在哪里!测试框架和常见的问答式评测不同,这次我们刻意把测试环境做得更接近真实开发。 我们设置了八个维度进行打分:结果正确(30分)、代码风格(15分)、工具使用(15分)、文档查询(10分)、技能遵守(10分)、测试实验(10分)、调试效率(5分)、时间成本(5分)。 后续,我们也会持续跟进的模型的迭代,并增加更多测试样本。希望了解更多测试细节?点击国产模型在 DolphinDB 代码生成任务上的测评 - DolphinDB Blogs,进行跳转。

    69520编辑于 2026-05-06
  • 来自专栏算法一只狗

    实测文心 4.5 模型

    百度终于在面对 DeepSeek 的爆火之后,重新发布新一代模型。分别包括了文心模型 4.5 和文心模型 X1。同时在官网上已经上线了这两款模型,而且已经是全部免费了。 (老实说,这波 DeepSeek 真的是无差别攻击了所有的闭源模型,使得它们不得不都开启免费了)从定位来看,文心 4.5 模型主要擅长多模态能力,而 X1 模型则像 DeepSeek-R1 模型一样, 在各基准测试的对比上,文心模型4.5在大多数基准测试上优于 GPT-4o,特别是在 DocVQA 和 MathVista 任务上表现明显更好。说明文心模型 4.5 更加适用于广泛的多模态任务。 在纯文本能力上,文心模型 4.5 整体的平均值能力在 79.6,超过了 DeepSeek-V3 和 GPT-4.5 模型。 总的来说,百度为了能够在模型内卷阶段不掉队,还是需要不断的提升自己模型的能力,还要搞以前那套收费肯定是行不通的了~

    35620编辑于 2025-04-26
  • 来自专栏机器学习与统计学

    智谱GLM-4.5-Air量化模型,本地部署,实测

    大家好,我是 Ai 学习的老章 之前对智谱 AI 的关注比较少,最近发布的的 GLM4.6 非常能打 GLM-4.6 的代码生成能力已达到国际领先水平,与 Claude Sonnet 4 模型持平,是国内目前表现最优的编程专用模型 ,在综合性能评估中位列全球第四,与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首,同时摘得全球开源模型桂冠。 国内模型开源这一块,除了 DeepSeek 和 Qwen,其实智谱也很能打的 之前偶尔关注智谱,是看到美国商务部把它列为实体清单,还有 OpenAI 点名它是全球战略的竞争对手 OpenAI 旗下 Global /models/cpatonn-mirror/GLM-4.5-Air-AWQ/files GLM-4.5系列模型是为智能代理设计的基础模型,GLM-4.5-Air 采用了更紧凑的设计,总共有1060 亿参数 不要再用Ollama,不要再用llama.cpp 简单看下代码和现实世界理解能力:用模型生成人体器官结构图 GLM-4.5-air ChatGPT GLM-4.6 DeepSeek-V3.2 看官方测评数据和市面上的评价

    2.8K10编辑于 2025-10-11
  • 来自专栏机器之心

    现场实测,三能力超越ChatGPT,科大讯飞「星火」模型如约而至

    与之前其他公司模型发布活动不同,本次发布是一场产品级发布会——购买相应硬件产品,用户即可升级系统,立刻体验模型带来的神奇能力。  AI 模型将带来终端数量和产业规模 10 倍以上的提升,科大讯飞董事长刘庆峰在会上表示,未来,「星火」认知模型「1+N」的技术红利将通过「平台+赛道」的商业逻辑逐步兑现。 中文方面,当前讯飞星火认知模型已经在文本生成、知识问答、数学能力三能力上已超 ChatGPT,10 月底将整体赶超 ChatGPT。  10 月 24 日开发者大会上,「星火」要「对标 ChatGPT,在中文上超过,在英文上要达到跟它相当的水平。」刘庆峰在发布会上表示。  除了核心算法方面的积累,科大讯飞在多年认知智能系统研发推广中积累了超过50TB 的行业语料和每天超 10 亿人次用户交互的活跃应用。 

    3K30编辑于 2023-05-09
  • 来自专栏技术趋势

    windows10搭建llama模型

    背景 随着人工时代的到来及日渐成熟,模型已慢慢普及,可以为开发与生活提供一定的帮助及提升工作及生产效率。所以在新的时代对于开发者来说需要主动拥抱变化,主动成长。 LLAMA介绍 llama全称:Large Language Model Meta AI是由meta(原facebook)开源的一个聊天对话模型。 ~all~sobaiduend~default-1-106591160-null-null.142^v88^control,239^v2^insert_chatgpt&utm_term=windows10% Linux图: 下载羊驼模型(有点) 先建一个文件夹:path_to_original_llama_root_dir 在里面再建一个7B文件夹并把tokenizer.model挪进来。 -f prompts/alpaca.txt -ins -c 2048 --temp 0.2 -n 256 --repeat_penalty 1.3 结果 最后 我知道很多同学可能觉得学习模型需要懂

    1.6K30编辑于 2023-09-12
  • 来自专栏喔家ArchiSelf

    模型应用的10个架构挑战

    基于笔者近年来的探索与实践,这里列举了面向模型应用系统架构设计的10个挑战。 1. 生产环境的挑战——推理框架的选择 对于模型应用而言,生成环境的运行时是一个推理架构。 模型应用需要一个针对产品级大型语言模型的高效管理系统。 尽管我们已经有了一些探索,例如《模型应用的10个架构模式》(https://mp.weixin.qq.com/s? 适用性挑战——模型的应用边界 模型在人工智能领域确实展现出了强大的能力,它们在各种控制平面和应用场景中都发挥着重要作用。然而,尽管模型的应用范围广泛,但并不意味着它们是无所不能的。 虽然模型在人工智能领域具有广泛的应用前景,但并不是所有场景都适合使用模型。在设计系统架构时,我们需要根据具体需求和技术挑战来判断是否需要引入模型,以确保系统的高效性和可靠性。 10.

    1.2K10编辑于 2024-12-24
  • 来自专栏喔家ArchiSelf

    模型应用设计的10个思考

    技术不是万能的,但没有技术却可能是万万不能的,对于模型可能也是如此。 基于模型的应用设计需要聚焦于所解决的问题,在自然语言处理领域,模型本身在一定程度上只是将各种NLP任务统一成了sequence 到 sequence 的模型。 利用模型, 我们是在解决具体的生产和生活中的问题,产品和技术上的设计仍然不可或缺。 那么,如果模型正在重新构建软件工程的未来,我们是否应该遵循一些基本原则呢? 1. 因此,只要我们对模型进行适当的控制和引导,它就能成为我们工作中得力的“助手”。而这种控制的基础,就是我们对模型内部机制和特点的深入了解和掌握。 10. 因此,我们在使用模型时,应该保持理性和谨慎的态度,既要欣赏它们所带来的便利和进步,也要警惕它们的局限性和潜在风险。这样,才能更好地利用这些模型,推动基于模型应用的健康发展。

    62410编辑于 2023-12-04
  • 来自专栏机器学习/数据可视化

    机器学习分类模型10评价指标

    公众号:尤而小屋作者:Peter编辑:Peter大家好,我是Peter~机器学习分类模型的评价指标是在衡量模型在未知数据集上的性能表现,通常基于混淆矩阵和相关的评价指标。 样本的真实类别是负类,但模型将其识别为正类。True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。 ,精确率越高,表示模型越好。 ,也就是说精确率是模型在某个类别上的判断。 下图是来自维基百科对ROC-AUC的解释:图片通过对分类阈值$\theta$(默认情况下是0.5,范围是0到1)从到小或者从小到大排列,就可以得到多组TPR和FPR的取值,在二维坐标系中绘制出来就可以得到一条

    1.5K10编辑于 2023-10-13
  • 来自专栏机器学习与统计学

    字节跳动开源模型Seed-OSS-36B,本地部署,性能实测

    大家好,我是 Ai 学习的老章 字节跳动发布 Seed-OSS 系列模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况 Seed-OSS-36B 本地字节跳动发布的模型包括 3 个版本: Seed-OSS-36B-Base(基础模型,含合成数据版本) Seed-OSS-36B-Base-woSyn(基础模型的"纯净版",不含合成数据版本) Seed-OSS-36B-Instruct (指令微调版本) 模型大小都是 36B。 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。 ,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。

    1.5K10编辑于 2025-10-11
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. label] = metrics['f1-score'] if f1_scores: labels = list(f1_scores.keys())[:10 : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    48932编辑于 2026-02-07
  • 来自专栏机器学习与统计学

    模型解决机器学习问题,实测,DeepSeek-R1 排名第9

    结果 该图提供了多个指标下模型性能的全面总结,适用于所有包含任务都有结果的模型。'跨任务平均准确率'列展示了整体平均准确率(粗体数字),它是每个任务的平均最大准确率的平均值。 代码长度(行数)'列展示了每个模型生成的 Python 代码长度的分布情况,粗实线覆盖第 10 百分位到第 90 百分位,垂直线表示中位数行数。 在这个任务中,模型需要找到一种方法来编码数据,使得这种编码对点的排列变化具有不变性。形状上的点分布差异很大,因此模型需要结合来自多个点的信息来做出一个好的预测。 虽然大多数模型通常只能略好于随机猜测,但最好的模型却能持续表现更好,而且我们几乎达到了90%的最佳得分。 来自“图像块洗牌(简单)”任务的示例数据。 搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础 116

    24410编辑于 2025-07-21
  • 来自专栏喔家ArchiSelf

    模型应用的10种架构模式

    作为一位老码农,我在这里整理总结了一些针对模型应用的设计方法和架构模式,试图应对和解决模型应用实现中的一些挑战,如成本问题、延迟问题以及生成的不准确性等。 2.模型代理模式 想象一个生态系统,其中多个专门针对特定任务的生成式AI模型各自作为其领域内的专家,并行工作以处理查询。 10. 双重安全模式 围绕大型语言模型(LLM)的核心安全性至少包含两个关键组件:一是用户组件,我们将其称为用户Proxy代理;二是防火墙,它为模型提供了保护层。 随着我们们继续探索和创新,还会涌现出很多新的架构模式,而且这里的10个架构模式以及新涌现的架构模式可能成为人工智能服务的表现形态。 我希望能够持续更新本系列,也希望对此有兴趣的朋友联系我, 共同研究探索,致力于模型应用的架构模式。

    5.1K11编辑于 2024-04-03
  • 来自专栏对白的算法屋

    AI 模型创业的 10 个灵魂拷问

    下面就这 10 个灵魂拷问,分享一些我自己的观点。 做不做基础模型? 如果做基础模型,需要上亿美金的前期投入,如何融到这么多资,如何招到靠谱的算法、数据和 infra 团队? 但这样的模型推理成本会很高,就像现在 GPT-4 读一篇论文要 10 美金,只有高净值客户和探索科学前沿的场景才消费得起。 推理性能优化的空间更大,因为 Transformer 的结构,很多场景下有效算力只有 10%~20%。如果做 batching,时延和带宽又会成为 trade-off。 我认为,模型本身的智商固然重要,模型与外部环境交互的能力和模型之间协作的组织结构才能让模型走得更远。 第一,如果读一篇论文还是像 GPT-4 那样需要 10 美金,生成一段 7.5 分钟的视频还是像 Runway ML 一样需要 95 美金,大多数人就不可能用得起模型

    65530编辑于 2023-09-01
领券