首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    最接近GPT-4国产模型诞生了

    机器之心报道 作者:杜伟、蛋酱 2024 年,国产模型的第一个重磅消息,来自智谱 AI。 综合能力全面跃升 国产基座模型比肩 GPT-4 一直以来,AI 领域内的研究者和从业者都以「GPT-4」作为模型技术的标杆。 而 GLM-4 的诞生,意味着国产模型的水平真正做到了「比肩 GPT-4」。 智谱不仅有意愿,而且有能力为打造繁荣的国产模型生态贡献自己的力量。」 GLM 系列模型的合作伙伴已达 2000 多家,其中 200 多家参与模型深度共创与共建。 2024 年伊始,智谱 AI 带来了国产模型带来了好消息,并以此为起点瞄准 AGI 之路。在未来的技术求索和产业应用道路上,智谱 AI 会成为最先赶超 OpenAI 的国内模型创业力量吗?

    63511编辑于 2024-01-17
  • 来自专栏量子位

    国产模型已无公司可投

    纵向对比,相继奔赴模型创业的公司太多了。据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产模型数量已超百家。 更别提光年之外这样的特例——被美团收购之前,在没有demo流出的情况下,用时4个月,估值超10亿美元。 明星耀眼,意味着它们将占据模型赛道上的绝大部分位置,剩余99%玩家的资源抢夺战,注定激烈。 毕竟拉起队伍后,模型商业模式不明确,盈利点不清晰,许多创业项目还停留在概念验证阶段。 到训出模型、拿出真产品,甚至赶上GPT-3.5,赛道上的国内选手们要走的路还挺长。 8个月前,ChatGPT一石激起千层浪;6个月前,国内的模型赛道开始备受瞩目,热度逐渐如日中天。 到现在,想走模型路线通向AGI的人依旧络绎不绝。 大火热炒半年,模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,模型创投界渐渐迎来了第一波冷静期。

    35210编辑于 2023-09-08
  • 来自专栏算法一只狗

    国产模型如何追上OpenAI

    目前看,算力其实不是一个比较大的瓶颈,数据的有效性才是模型能力提升的关键。比如最近的deepseek V3一发布,大家就发现其实能够用很低的成本就能够训练出一个媲美GPT-4o的模型。 目前看,算力其实不是一个比较大的瓶颈,数据的有效性才是模型能力提升的关键。比如最近的deepseek V3一发布,大家就发现其实能够用很低的成本就能够训练出一个媲美GPT-4o的模型。 通过上面几个简单的trick,就可以很好的训练出一个质量不出的模型出来,并且能够和GPT-4o和Claude 3.5相媲美。这个工作给很多公司提供了新的思路。 其下一代模型“猎户座”(Orion),对比于GPT-4来说提升效果不明显,同时还存在GPT-4上的一些明显错误。 主要是现在模型所需要的大规模数据集已经耗尽了,高质量的数据集其实没有多少。OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给模型进行学习。

    35320编辑于 2025-01-06
  • 来自专栏数据小冰

    Claude Code接入国产模型

    前言 本文介绍在macOS环境中搭建Claude Code接入国产模型的详细步骤。 配置MiniMax国产模型 访问MINIMAX官网,注册并登录账号,申请API key。 登录Claude Code 配置上述连接地址后,在终端执行 claude login,即可成功连接上模型。 通过 claude -p 指令进行问答快速验证效果,参数-p表示不要进入交互式会话。 让它简要介绍下模型,测试效果如下。

    1.7K10编辑于 2026-03-04
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 deepseek-r1的哪个版本的模型? 问deepseek得到的回答:最佳选择:优先尝试 DeepSeek-R1-7B 4-bit量化版,平衡速度和性能;若需要更高精度,可测试 DeepSeek-R1-13B 4-bit量化版(需确保显存无其他占用 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.3K33编辑于 2025-02-06
  • 来自专栏量子位

    国产GPTs来了,基于智谱第4模型模型性能均达GPT-4九成以上

    衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 国产模型玩家智谱AI,交出最新成绩单—— 发布全自研第四代基座模型GLM-4,且所有更新迭代的能力全量上线。 作为国内唯一一个产品线全对标OpenAI的模型公司,智谱年前攒了波的: 按官方说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)。 不过张鹏也表示,GLM-4在中文推理方面的能力,还有待进一步提升。 其次,在模型的“内存”能力方面,GLM-4系列支持128k上下文窗口长度,单次提示词可处理文本300页,比前作有所提升。 对GLM-4的发布,综合下来给人一种这样的感觉: 去年10月底第3代基座模型,该公司在模型产品线上和OpenAI逐一对齐;第4代是在拉齐模型能力和OpenAI GPT-4的能力水平线。 参数不强调了,外界的目光自然更加紧盯这一代基座模型的性能——这确实是智谱这回想要强调的东西。 接下来将主要发力三个方向 “模型的技术,不是说把原来系统里的小模型扔掉,换上模型的接口就行了。

    40110编辑于 2024-01-17
  • 来自专栏量子位

    GPT-4 Turbo首次被击败!国产模型拿下总分第一

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI长期霸榜的SuperCLUE(中文模型测评基准),终于被国产模型反将一军。 事情是这样的。 △图源:SuperCLUE官方公众号 而这位国产模型选手,正是来自商汤科技的日日新5.0(SenseChat V5)。 并且SuperCLUE还给出了这样的评价: 刷新了国内模型最好成绩。 SenseChat V5在文科上的成绩依然是打破了国内模型的纪录—— 以82.20分的成绩位居第一,同样超越了GPT-4 Turbo。 △图源:SuperCLUE官方公众号 在理科成绩上,虽然SenseChat V5此次并没有超越GPT-4-Turbo(低了4.35分),但整体来看,依旧在国内模型选手中首屈一指,位列国内第一。 其实对于这个问题,商汤在4月底将自家日日新模型SenseNova版本迭代到5.0之际,就已经有所透露;当时商汤锁定的定位就是全面对标GPT-4 Turbo。

    26110编辑于 2024-05-23
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    77820编辑于 2023-08-28
  • 来自专栏睡前机器学习

    国产模型井喷的原因及收场

    这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。 这俩问题想的不少,说得好的不多,姑且说说。 一些以前分明不是搞AI的企业,居然这波也说要推自己的模型。 事实啪啪打脸。这脸打得怎么说呢?痛快。 当然了,大家第一个问题就是,为什么LLM的门槛忽然就降低了呢? 对于宣布搞自家LLM的企业来说,最不差的恐怕就是钱了。何况现在还有一堆LLM的预训练模型排着队的开源呢。 最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。 规模、质量高的数据集很可能才是ChatGPT取得惊人成功的真正秘诀。 然而,人工标一个规模、质量高的数据集需要花很多的钱,更重要的是需要花很多的时间。 最后说说国产LLM的区别,其实这才是关键。 互联网企业大干快上已经上演了好几次,所以这次国产LLM的主要剧情也不难猜,技术上大差不差,基本都是上面这些,最终活下来的关键就是区别。

    40420编辑于 2023-09-09
  • 来自专栏大龄程序员的人工智能之路

    国产系统上部署开源模型

    Ollama 模型框架 Ollama 是一个新兴的模型框架,旨在为机器学习和人工智能研究提供高效、灵活和可扩展的解决方案。 启动一个模型非常简单,比如我想运行 gemma2 27b 参数的模型: (base) alex@alex-deepin-os:~$ ollama run gemma2:27b pulling manifest pulling d7e4b00a7d7a... 4% ▕█ ▏ 655 MB/ 15 GB ollama 我使用的是 Google 的 Gemma2 9b 模型,速度还挺快。 如果你想尝试其它的模型,可以去 ollama 的模型仓库看看。 小结 写到这里,是不是感觉到在 Deepin 系统上部署模型太简单了?

    82510编辑于 2024-07-18
  • LMArena中文榜洗牌:国产模型包揽前列,GPT-4 Turbo跌出百名开外

    这份发布于2025年11月初的榜单显示,国产模型在中文竞技场上实现了对国际顶尖模型的全面反超,这一突破性进展恰如其时地展现了中国AI技术的迅猛发展。 而曾经的现象级产品GPT-4Turbo中文得分仅为1308±8分,排名跌至第99位左右,与头部国产模型的差距超过150分。 这一数据对比,清晰地勾勒出中文AI竞技场的格局巨变——GPT-4Turbo已经从"天花板",变成了"上一代标杆"。技术突破:从追赶到领跑的三重驱动这一历史性突破的背后,是国产模型在技术上的多重突破。 国产模型在LMArena上的突破性表现,标志着中文AI领域迎来了从量变到质变的关键转折。 对于广大开发者和企业而言,现在正是拥抱国产模型、构建下一代AI应用的最佳时机。

    1.7K10编辑于 2025-11-14
  • 来自专栏新智元

    模型只有参数和算力?这款国产模型证明:落地为王!

    这个模型体系,包含学习了足够多数据与知识的基础模型,面向常见AI任务专门学习的任务模型,以及引入行业特色数据和知识的行业大模型。 基础模型具有学习的数据、知识量大、参数规模特点,通用性最高。 为了尽可能地实现这个目标,本次百度与10个模型一同发布的,还有一套全方位的工具和平台,包括模型开发套件、模型API、内嵌了模型能力的EasyDL和BML开发平台,面向不同类型的开发者,全面释放大模型的使用效能 开放生态促创新 在生态系统搭建上,文心模型共创共享飞桨生态,同时为促进模型惠及最广泛的行业与人群,新发布基于文心模型的创意社区——「旸谷」模型创意与探索社区。 相信依托文心模型在开放生态上的持续发力,百度AI生态建设无论是在深度和广度上都将迈上了新的台阶。 国产模型国产架构,一个字:香 有模型,也必然会有相应的训练框架。 文心模型的训练、推理都依托深度学习平台的支撑,同时,模型作为飞桨平台中产业级模型库的重要一员,成为了飞桨平台支持AI创新必不可少的能力。 说回到模型上来,模型可谓是成也「」,难也「」。

    2.1K20编辑于 2022-05-30
  • 来自专栏Java面试教程

    免费注册目前最好用的国产模型

    科大讯飞的星星之火 5月6日,科大讯飞发布了对标GPT的产品 “星火认知模型” 所谓认知,就像一个巨型百科全书 无论向它输入什么 都能得到有效的,甚至惊喜的反馈 结合科大讯飞的传统优势 在语音、语义方面具有同类产品无法比拟的优势 比起其他同类产品 发布之后又要邀请、又要排队 科大讯飞这次做的大气 五星好评 难怪次日股票直接涨停 人工智能的变革 我们最近在一轮轮被GPT普及轰炸 百度文心、商汤商量、阿里通义千问 还有领头羊的GPT4 return curve; } } 效果挺好的 对话 问问它优势在哪 我:你和GPT相比有什么独特的地方 星火:ChatGPT是由OpenAI开发的交互式AI模型,我是科大讯飞自主研发的认知智能模型

    64930编辑于 2023-07-08
  • 来自专栏后台技术汇

    模型应用之(4):Langchain架构与模型接入

    作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具 组件:模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六模块 模块 核心作用 Agent作为高级模块,可调用其他所有模块功能 模型接入 接入示例 云服务和私有化模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商模型 较低,开箱即用 算力资源充足,模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化模型 较高,自建模型网关、服务鉴权、可用性等 算力硬件投入成本高,模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建模型的方式 总结 LangChain 是什么?

    73710编辑于 2025-08-04
  • 来自专栏kali blog

    Claude Code 泄露版安装及配置国产模型

    本文让我们一起在本地环境搭建泄露版,并配置国产模型。 但是没有模型接入,由于国外的模型我们注册比较困难,因此我们用国内的模型。 01创建API ●在智谱开放平台 (https://open.bigmodel.cn) 注册账号。

    55410编辑于 2026-04-15
  • 来自专栏生信技能树

    使用国产模型完成单细胞自动注释

    GPT-4 是一种专为语音理解和生成而设计的大型语言模型。 Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,语言模型 在 omicverse 中实现的 gptcelltype 支持几乎所有支持 openai API 格式的模型。 请选择您需要使用的模型:支持的模型列表。 请选择您需要使用的模型:支持的模型列表。

    67910编辑于 2024-05-31
  • 来自专栏开源技术小栈

    Openai 异步客户端接入国产模型 Kimi

    Moonshot AI 的核心团队曾参与开发Transformer XL、RoPE等关键算法,并且在模型领域有着深厚的技术积累。 kimi 是他们家智能助手的名字,真正的模型是叫 Moonshot。这一点我们从 API 的 model 参数中也能发现。因此后面谈到模型时,就统一称呼为 Moonshot。 webman/openai 简介 传统php-fpm架构调用openai等模型接口时只能做到阻塞调用,由于模型接口返回速度很慢,一个php-fpm进程一分钟只能调用几次,几个人一刷系统就会明显的卡顿甚至不可用状态 ,所以php-fpm不适合做大模型调用,而webman这类的常驻内存类型的框架非常适合模型应用的开发。 ); } } 请求参数 apikey : Moonshot开放平台申请到的Key api : Moonshot公开的服务地址 https://api.moonshot.cn model : 模型填写

    2.6K31编辑于 2024-03-20
  • 来自专栏大模型成长之路

    模型学习 | MINIGPT-4原理】

    MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的 LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。 开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former ; MINI-GPT4表现比BLIP2要强上许多? ① MiniGPT-4 使用的是 Vicuna(基于 LLaMA 的开源 ChatGPT 对话模型),具有更强的自然语言表达和指令理解能力;而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT

    74810编辑于 2025-07-02
  • 来自专栏智能文本处理

    达观数据研发“曹植”语言模型,致力于国产GPT模型

    在通用领域,以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力,受到国内外的广泛关注。垂直领域的GPT模型同样拥有广阔的应用前景。 达观基于多年文本智能技术积累和垂直领域场景业务经验,正在积极探索语言模型LLM的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用 在产品应用层面,以“曹植”模型作为支撑,为达观全栈AIGC智能产品带来革命性效果提升。 未来达观将建立多个垂直领域的专用语言模型,为各行业的智能化需求提供更加专业和高效的解决方案。 会上达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索语言模型的垂直化训练技术和应用为题,向听众展开介绍达观数据“曹植”垂直领域语言模型的研发进展和工程化探索,这也是“曹植”首度面向公众亮相。

    69930编辑于 2023-04-12
  • 来自专栏机器之心

    Llama2开源后,国产模型在卷什么?

    开源与闭源模型的比赛从此刻开始正式打响。面对开源模型更低的成本、更快的迭代速度、更高的定制化上限,闭源模型的壁垒会由什么构建,成为一个问题。 在 Llama2 推出之前,开源社区最强的模型 Llama 在商用许可上具有限制,而 OpenAI 的接口在国内面临着不确定的监管风险,因此相比于两者,国产模型在市场竞争中的优势通常是「可商用」、「 Llama2 的释出削弱了国产模型创业公司在市场上的竞争力。「从许多公开的测试集上,我们可以看到,国内大部分的模型公司的水平距离 GPT-3.5 仍然有距离」,一位 AI 方向资深投资人称。 「国内已经在牌桌上的模型公司对如何做到 GPT-3.5 大多已经没有什么疑问,但下一步如何做到 GPT-4 仍然需要花大力气探索,因此 Llama2 在技术上对大厂没有什么参考意义」。 全球来看 GPT 的市场份额应当是最大的,而国内目前 Llama2 能够受影响的市场仅仅只是担心 GPT 受监管影响、且国产模型都不适用的这部分客户,是一个「暂存市场」。

    66760编辑于 2023-09-08
领券