ClaudeCode配置国产模型前段时间连续写了几篇ClaudeCode、Codex这类codingagent的用法和进阶配置,这次补一篇ClaudeCode接国产模型的配置方法。 为什么要接国产模型常见原因有:成本更低,适合把日常任务先跑起来国内访问更稳定,延迟和超时问题会少一些中文场景里,有些模型用起来更顺手第一种方案:用临时环境变量先装好ClaudeCode。 本地服务再把请求转发到你指定的国产模型。 Router负责决定什么任务走什么模型。 差异通常会落在:代码质量长上下文表现工具调用稳定性中文说明能力出错后的自我修复能力常见做法是:成本敏感、中文任务、普通生成任务:先用国产模型复杂重构、深度调试、难题攻坚:切回原版Claude免费额度和按
纵向对比,相继奔赴大模型创业的公司太多了。据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产大模型数量已超百家。 模型训练成本高、数据获取难、顶级技术人员奇货可居,一言以蔽之,想做大模型,必得花钱如流水。 现在还要面临转化为实际业务难等问题,方方面面禁锢着诸多大模型公司的技术商业化和进一步快速增长。 部分投资人干脆放弃看大模型项目,转向infra层面看芯片、看硬件的老路。 等年底他们发布模型,试过深浅再说。 8个月前,ChatGPT一石激起千层浪;6个月前,国内的大模型赛道开始备受瞩目,热度逐渐如日中天。 到现在,想走大模型路线通向AGI的人依旧络绎不绝。 大火热炒半年,大模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,大模型创投界渐渐迎来了第一波冷静期。
目前看,算力其实不是一个比较大的瓶颈,数据的有效性才是大模型能力提升的关键。比如最近的deepseek V3一发布,大家就发现其实能够用很低的成本就能够训练出一个媲美GPT-4o的模型。 用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。 用训练一个模型所花费的钱来说,训练一个DeepSeek V3只需要花费557.6万美元,相比之下,一个简单的7B Llama 3模型则需要花费76万美元。 这里训练这么省钱当然主要是因为该模型原生就是FP8,还有在模型架构上做了一些优化导致模型训练成本很低。为什么会这么省钱?DeepSeek V3除了使用了FP8之外,还有一些其他的模型细节。 写在最后其实国内的大模型能够追上来,算力落后不是一个关键,更为关键的原因在于能否获取到有用的数据集,来进一步提升模型的效果。
前言 本文介绍在macOS环境中搭建Claude Code接入国产大模型的详细步骤。 配置MiniMax国产大模型 访问MINIMAX官网,注册并登录账号,申请API key。 登录Claude Code 配置上述连接地址后,在终端执行 claude login,即可成功连接上大模型。 通过 claude -p 指令进行问答快速验证效果,参数-p表示不要进入交互式会话。 让它简要介绍下大模型,测试效果如下。
引言 MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 MiniMax M2 属于 Coding 第一梯队的模型 评测环境 • Code Agent:Claude Code v2.0.30 • LLM:Claude Sonnet 4.5 VS MiniMax 因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型 这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧
简单3步部署本地国产大模型DeepSeek大模型DeepSeek是最近非常火的开源大模型,国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 显示模型信息命令1:ollama show [模型名称]功能:显示特定模型的详细信息,如模型名称、版本等。 从注册表中拉取模型命令:ollama pull [模型名称]功能:从模型注册表中拉取一个模型到本地使用。 复制模型命令:ollama cp [原模型名称] [新模型名称]功能:复制一个模型到另一个位置或给定名称的地方。删除模型命令:ollama rm [模型名称]功能:删除一个已安装的模型。 模型运行与会话管理运行模型命令:ollama run [模型名称]功能:运行一个已安装的模型,执行某些任务。可以根据需要指定模型的参数和配置。
这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。 这俩问题想的不少,说得好的不多,姑且说说。 还没有最终定论,不过,我想主要是两个原因:开源模型和开源数据。 LLM的门槛主要是就是人工智能的三要素:算法、算力和数据。 算法本身算不上门槛。 何况现在还有一堆LLM的预训练模型排着队的开源呢。 最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。 越来越多的论文也一再证明,RL可以不用,甚至模型参数也未必要很大,早前对LLM总结的所谓“要素”都有可能被新的实验推翻,但唯独一样越发重要,那就是数据。 最后说说国产LLM的区别,其实这才是关键。 互联网企业大干快上已经上演了好几次,所以这次国产LLM的主要剧情也不难猜,技术上大差不差,基本都是上面这些,最终活下来的关键就是区别。
Ollama 大模型框架 Ollama 是一个新兴的大模型框架,旨在为机器学习和人工智能研究提供高效、灵活和可扩展的解决方案。 随着深度学习模型的复杂性和规模不断增加,开发者和研究人员需要更强大的工具来处理大规模数据和复杂的模型架构。Ollama 正是在这种需求下应运而生的。 这使得它能够处理大规模数据集和复杂的模型训练任务,大大缩短了训练时间。 我使用的是 Google 的 Gemma2 9b 大模型,速度还挺快。 如果你想尝试其它的大模型,可以去 ollama 的模型仓库看看。 小结 写到这里,是不是感觉到在 Deepin 系统上部署大模型太简单了?
科大讯飞的星星之火 5月6日,科大讯飞发布了对标GPT的产品 “星火认知大模型” 所谓认知,就像一个巨型百科全书 无论向它输入什么 都能得到有效的,甚至惊喜的反馈 结合科大讯飞的传统优势 在语音、语义方面具有同类产品无法比拟的优势 return curve; } } 效果挺好的 对话 问问它优势在哪 我:你和GPT相比有什么独特的地方 星火:ChatGPT是由OpenAI开发的交互式AI大模型,我是科大讯飞自主研发的认知智能大模型
GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,
在通用领域,以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力,受到国内外的广泛关注。垂直领域的GPT大模型同样拥有广阔的应用前景。 达观基于多年文本智能技术积累和垂直领域场景业务经验,正在积极探索大语言模型LLM的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用 达观自主研发的“曹植”垂直领域大语言模型将进一步夯实达观产业应用智能化基座,全面增强AI全产品矩阵能力。这也是国内大规模语言模型中首批可落地的产业应用级模型,目前已在金融领域AIGC多场景投入应用。 在算法方面,达观不断探索GPT3模型的原理验证和垂直行业知识的强化训练,不断提高模型的准确性和实用性。 会上达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索大语言模型的垂直化训练技术和应用为题,向听众展开介绍达观数据“曹植”垂直领域大语言模型的研发进展和工程化探索,这也是“曹植”首度面向公众亮相。
本文让我们一起在本地环境搭建泄露版,并配置国产大模型。 但是没有大模型接入,由于国外的模型我们注册比较困难,因此我们用国内的模型。 01创建API ●在智谱开放平台 (https://open.bigmodel.cn) 注册账号。
GPT-4 是一种专为语音理解和生成而设计的大型语言模型。 更多模型支持:我们在 Openai 之外提供了更多大型模型供用户选择,例如 Qwen(通义千问)、Kimi,而且还通过参数 base_url 提供了更多模型支持。 请选择您需要使用的模型:支持的模型列表。 请选择您需要使用的模型:支持的模型列表。 B cell'} 其他模型 您可以手动设置 base_url 参数来指定需要使用的其他模型,注意模型需要支持 Openai 的参数。
Moonshot AI 的核心团队曾参与开发Transformer XL、RoPE等关键算法,并且在大模型领域有着深厚的技术积累。 kimi 是他们家智能助手的名字,真正的大模型是叫 Moonshot。这一点我们从 API 的 model 参数中也能发现。因此后面谈到大模型时,就统一称呼为 Moonshot。 webman/openai 简介 传统php-fpm架构调用openai等大模型接口时只能做到阻塞调用,由于大模型接口返回速度很慢,一个php-fpm进程一分钟只能调用几次,几个人一刷系统就会明显的卡顿甚至不可用状态 ,所以php-fpm不适合做大模型调用,而webman这类的常驻内存类型的框架非常适合大模型应用的开发。 ); } } 请求参数 apikey : Moonshot开放平台申请到的Key api : Moonshot公开的服务地址 https://api.moonshot.cn model : 模型填写
国产AIGC视频大模型正加速落地,顶级消费级显卡凭借强大算力与大显存,成为本地部署腾讯混元、阿里通义万相等前沿视频生成模型的最佳选择,开启桌面级AI创作新时代。 四、部署与环境搭建:国产模型的本地化实践以下将分别详细介绍如何在高性能GPU工作站上,部署腾讯混元和阿里通义千问的最新开源视频模型。 :腾讯混元与阿里通义万相的本地化实战告别假设,我们直接上手目前最前沿的国产开源视频模型。 =generator(prompt="Anastronautonthemoon").frames六、实际应用场景:国产模型赋能创意工作流腾讯混元、阿里通义千问等国产大模型,结合RTX4090本地算力,正推动创意工作流的变革 七、挑战与优化经验:驾驭国产大模型的本地化之旅驾驭顶级显卡这匹性能猛兽运行国产大模型,也伴随挑战。显存溢出:24GB显存在高分辨率、长帧数下仍易触顶。
这个模型体系,包含学习了足够多数据与知识的基础大模型,面向常见AI任务专门学习的任务大模型,以及引入行业特色数据和知识的行业大模型。 基础大模型具有学习的数据、知识量大、参数规模大特点,通用性最高。 但直接使用基础模型往往会与场景上苛刻的应用需求会有一定差距,所以百度在通用模型基础上,增加了两类模型:任务大模型和行业大模型。 行业大模型,顾名思义,可以理解为针对特定行业进行知识增强后的大模型。 行业大模型基于通用的文心大模型挖掘相关的行业数据,再融合学习行业特有的大数据和知识,进一步提升大模型对行业应用的适配性。 相信依托文心大模型在开放生态上的持续发力,百度AI生态建设无论是在深度和广度上都将迈上了新的台阶。 国产模型配国产架构,一个字:香 有大模型,也必然会有相应的训练框架。 文心大模型的训练、推理都依托深度学习平台的支撑,同时,大模型作为飞桨平台中产业级模型库的重要一员,成为了飞桨平台支持AI创新必不可少的能力。 说回到模型上来,大模型可谓是成也「大」,难也「大」。
编辑:编辑部 【新智元导读】每家国产大模型都说自己是第一,该信谁的?最近,字节推出了扣子模型广场,全体国产LLM开启大混战!你一票,我一票,谁是第一,大众说了算。 投票连小朋友都能参与,模型生态从此彻底从黑盒到白盒。 只有打开黑盒,大模型应用生态才能从玄学变科学。 什么是扣子模型广场? 从字面上看,这是一个拥有众多模型的地方。 对此,扣子在模型广场提供了模型对战功能。 所谓对战功能,就是指用户可以通过与两个隐藏了模型的Bot实时对话(注意,这里Bot相同,只是模型不同),然后根据模型的回答进行投票,投票结束后系统才会揭示具体的模型。
直接执行 MCP 工具,查看工具的执行结果 测试模型调用工具。即通过需求发送给模型,查看、调用模型分析对应需求所需要的工具。 JSON 数据,AutoDev 将会自动将其发送给工具进行测试 测试 MCP Tool 联调 当你有测试多个工具的需求,即优化工具的 description,你可以在底部的输入框: 配置里选择合适的模型和对应的参数 其它 联调工具的提示词是基于 Anthropic 的提示词修改的,经测试国内的模型在前端场景上的效果还不错,当然你也可以使用其它的模型进行测试。
开源与闭源大模型的比赛从此刻开始正式打响。面对开源大模型更低的成本、更快的迭代速度、更高的定制化上限,闭源大模型的壁垒会由什么构建,成为一个问题。 大模型创业公司的危机 对大部分底层大模型创业公司来说,一条比较明确的商业化路径是效仿 OpenAI,通过自研大约 GPT-3.5 水平的模型,然后向客户提供 MaaS 服务,出售底层模型的能力。 在 Llama2 推出之前,开源社区最强的大模型 Llama 在商用许可上具有限制,而 OpenAI 的接口在国内面临着不确定的监管风险,因此相比于两者,国产大模型在市场竞争中的优势通常是「可商用」、「 Llama2 的释出削弱了国产大模型创业公司在市场上的竞争力。「从许多公开的测试集上,我们可以看到,国内大部分的大模型公司的水平距离 GPT-3.5 仍然有距离」,一位 AI 方向资深投资人称。 全球来看 GPT 的市场份额应当是最大的,而国内目前 Llama2 能够受影响的市场仅仅只是担心 GPT 受监管影响、且国产大模型都不适用的这部分客户,是一个「暂存市场」。
这2篇论文主要评估了DeepSeek大模型在医学临床应用中的能力,并与其他模型进行对比。 评估Deepseek在临床诊断与治疗的效果 LLM大模型正逐渐应用于医学领域,但专有模型 (如 GPT-4o) 因其隐私限制不能很好地应用在临床医学中,开源型大模型DeepSeek的出现为AI临床应用提供了一种新的解决方案 在诊断任务中,DeepSeek-R1和GPT-4o表现优于其他模型,且DeepSeek-R1和GPT-4o表现相当。 在治疗任务中,DeepSeek-R1和GPT-4o表现同样优于其他模型,且这两个模型之间没有显著差异。 从以上2篇论文研究可以看出,国产开源大模型DeepSeek已具备临床应用的能力,代表中国在医疗与人工智能领域的重要突破。