首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏量子位

    国产模型已无公司可投

    纵向对比,相继奔赴模型创业的公司太多了。据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产模型数量已超百家。 毕竟拉起队伍后,模型商业模式不明确,盈利点不清晰,许多创业项目还停留在概念验证阶段。 到训出模型、拿出真产品,甚至赶上GPT-3.5,赛道上的国内选手们要走的路还挺长。 部分投资人干脆放弃看模型项目,转向infra层面看芯片、看硬件的老路。 等年底他们发布模型,试过深浅再说。 8个月前,ChatGPT一石激起千层浪;6个月前,国内的模型赛道开始备受瞩目,热度逐渐如日中天。 到现在,想走模型路线通向AGI的人依旧络绎不绝。 大火热炒半年,模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,模型创投界渐渐迎来了第一波冷静期。

    35010编辑于 2023-09-08
  • 来自专栏算法一只狗

    国产模型如何追上OpenAI

    其高效的训练方法和较低的计算成本,可以给其他没有资源的公司借鉴一下,也验证了大规模的GPU集群不是训练模型的必要条件。数据集才是关键?之前就曾经有爆料称,OpenAI的下一代模型效果不及预期。 这可能就说明,为什么迟迟不出来GPT-5了,因为提升幅度有限,所以把GPT-5改名成立了Orion目前最主流的说法认为,模型的scaling raw正在慢慢失效,也就是目前的模型尽管有着大量的数据集进行训练 主要是现在模型所需要的大规模数据集已经耗尽了,高质量的数据集其实没有多少。OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给模型进行学习。 而如果能够源源不断的提供给模型一个高质量的数据集,那么确实有可能会进一步提升要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的语言模型生成合成数据。 写在最后其实国内的模型能够追上来,算力落后不是一个关键,更为关键的原因在于能否获取到有用的数据集,来进一步提升模型的效果。

    34720编辑于 2025-01-06
  • 来自专栏数据小冰

    Claude Code接入国产模型

    前言 本文介绍在macOS环境中搭建Claude Code接入国产模型的详细步骤。 配置MiniMax国产模型 访问MINIMAX官网,注册并登录账号,申请API key。 登录Claude Code 配置上述连接地址后,在终端执行 claude login,即可成功连接上模型。 通过 claude -p 指令进行问答快速验证效果,参数-p表示不要进入交互式会话。 让它简要介绍下模型,测试效果如下。

    1.7K10编辑于 2026-03-04
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 引发伦理监管讨论:国际社会对AI伦理问题关注度提升,数据安全、隐私保护和内容监管等问题成为焦点,促使各国制定更严格的AI模型监管政策。 deepseek-r1的哪个版本的模型? 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.3K33编辑于 2025-02-06
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 具体来说,GLM通过随机遮盖文本中连续的标记,并训练模型按顺序重新生成这些遮盖的部分。这种自回归的空白填充目标使得GLM能够更好地捕捉上下文中标记之间的依赖关系,并且能够处理可变长度的空白。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    77620编辑于 2023-08-28
  • 来自专栏睡前机器学习

    国产模型井喷的原因及收场

    这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。 这俩问题想的不少,说得好的不多,姑且说说。 一些以前分明不是搞AI的企业,居然这波也说要推自己的模型。 事实啪啪打脸。这脸打得怎么说呢?痛快。 当然了,大家第一个问题就是,为什么LLM的门槛忽然就降低了呢? 对于宣布搞自家LLM的企业来说,最不差的恐怕就是钱了。何况现在还有一堆LLM的预训练模型排着队的开源呢。 最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。 规模、质量高的数据集很可能才是ChatGPT取得惊人成功的真正秘诀。 然而,人工标一个规模、质量高的数据集需要花很多的钱,更重要的是需要花很多的时间。 最后说说国产LLM的区别,其实这才是关键。 互联网企业大干快上已经上演了好几次,所以这次国产LLM的主要剧情也不难猜,技术上大差不差,基本都是上面这些,最终活下来的关键就是区别。

    39920编辑于 2023-09-09
  • 来自专栏大龄程序员的人工智能之路

    国产系统上部署开源模型

    本地部署模型的方法很多,一般选择 docker 容器部署,或者使用本地服务框架。这里介绍使用本地服务框架 Ollama 部署。 Ollama 模型框架 Ollama 是一个新兴的模型框架,旨在为机器学习和人工智能研究提供高效、灵活和可扩展的解决方案。 启动一个模型非常简单,比如我想运行 gemma2 27b 参数的模型: (base) alex@alex-deepin-os:~$ ollama run gemma2:27b pulling manifest 我使用的是 Google 的 Gemma2 9b 模型,速度还挺快。 如果你想尝试其它的模型,可以去 ollama 的模型仓库看看。 小结 写到这里,是不是感觉到在 Deepin 系统上部署模型太简单了?

    82110编辑于 2024-07-18
  • 来自专栏新智元

    模型只有参数和算力?这款国产模型证明:落地为王!

    这个模型体系,包含学习了足够多数据与知识的基础模型,面向常见AI任务专门学习的任务模型,以及引入行业特色数据和知识的行业大模型。 基础模型具有学习的数据、知识量大、参数规模特点,通用性最高。 为了尽可能地实现这个目标,本次百度与10个模型一同发布的,还有一套全方位的工具和平台,包括模型开发套件、模型API、内嵌了模型能力的EasyDL和BML开发平台,面向不同类型的开发者,全面释放大模型的使用效能 开放生态促创新 在生态系统搭建上,文心模型共创共享飞桨生态,同时为促进模型惠及最广泛的行业与人群,新发布基于文心模型的创意社区——「旸谷」模型创意与探索社区。 相信依托文心模型在开放生态上的持续发力,百度AI生态建设无论是在深度和广度上都将迈上了新的台阶。 国产模型国产架构,一个字:香 有模型,也必然会有相应的训练框架。 文心模型的训练、推理都依托深度学习平台的支撑,同时,模型作为飞桨平台中产业级模型库的重要一员,成为了飞桨平台支持AI创新必不可少的能力。 说回到模型上来,模型可谓是成也「」,难也「」。

    2.1K20编辑于 2022-05-30
  • 来自专栏Java面试教程

    免费注册目前最好用的国产模型

    科大讯飞的星星之火 5月6日,科大讯飞发布了对标GPT的产品 “星火认知模型” 所谓认知,就像一个巨型百科全书 无论向它输入什么 都能得到有效的,甚至惊喜的反馈 结合科大讯飞的传统优势 在语音、语义方面具有同类产品无法比拟的优势 return curve; } } 效果挺好的 对话 问问它优势在哪 我:你和GPT相比有什么独特的地方 星火:ChatGPT是由OpenAI开发的交互式AI模型,我是科大讯飞自主研发的认知智能模型

    64830编辑于 2023-07-08
  • 来自专栏kali blog

    Claude Code 泄露版安装及配置国产模型

    本文让我们一起在本地环境搭建泄露版,并配置国产模型。 但是没有模型接入,由于国外的模型我们注册比较困难,因此我们用国内的模型。 01创建API ●在智谱开放平台 (https://open.bigmodel.cn) 注册账号。

    50510编辑于 2026-04-15
  • 来自专栏生信技能树

    使用国产模型完成单细胞自动注释

    Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,语言模型 更多模型支持:我们在 Openai 之外提供了更多大型模型供用户选择,例如 Qwen(通义千问)、Kimi,而且还通过参数 base_url 提供了更多模型支持。 在 omicverse 中实现的 gptcelltype 支持几乎所有支持 openai API 格式的模型。 请选择您需要使用的模型:支持的模型列表。 请选择您需要使用的模型:支持的模型列表。

    67710编辑于 2024-05-31
  • 来自专栏开源技术小栈

    Openai 异步客户端接入国产模型 Kimi

    Moonshot AI 的核心团队曾参与开发Transformer XL、RoPE等关键算法,并且在模型领域有着深厚的技术积累。 kimi 是他们家智能助手的名字,真正的模型是叫 Moonshot。这一点我们从 API 的 model 参数中也能发现。因此后面谈到模型时,就统一称呼为 Moonshot。 webman/openai 简介 传统php-fpm架构调用openai等模型接口时只能做到阻塞调用,由于模型接口返回速度很慢,一个php-fpm进程一分钟只能调用几次,几个人一刷系统就会明显的卡顿甚至不可用状态 ,所以php-fpm不适合做大模型调用,而webman这类的常驻内存类型的框架非常适合模型应用的开发。 ); } } 请求参数 apikey : Moonshot开放平台申请到的Key api : Moonshot公开的服务地址 https://api.moonshot.cn model : 模型填写

    2.6K31编辑于 2024-03-20
  • 来自专栏智能文本处理

    达观数据研发“曹植”语言模型,致力于国产GPT模型

    在通用领域,以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力,受到国内外的广泛关注。垂直领域的GPT模型同样拥有广阔的应用前景。 达观基于多年文本智能技术积累和垂直领域场景业务经验,正在积极探索语言模型LLM的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用 在产品应用层面,以“曹植”模型作为支撑,为达观全栈AIGC智能产品带来革命性效果提升。 未来达观将建立多个垂直领域的专用语言模型,为各行业的智能化需求提供更加专业和高效的解决方案。 会上达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索语言模型的垂直化训练技术和应用为题,向听众展开介绍达观数据“曹植”垂直领域语言模型的研发进展和工程化探索,这也是“曹植”首度面向公众亮相。

    69430编辑于 2023-04-12
  • 来自专栏机器之心

    Llama2开源后,国产模型在卷什么?

    开源与闭源模型的比赛从此刻开始正式打响。面对开源模型更低的成本、更快的迭代速度、更高的定制化上限,闭源模型的壁垒会由什么构建,成为一个问题。 在 Llama2 推出之前,开源社区最强的模型 Llama 在商用许可上具有限制,而 OpenAI 的接口在国内面临着不确定的监管风险,因此相比于两者,国产模型在市场竞争中的优势通常是「可商用」、「 Llama2 的释出削弱了国产模型创业公司在市场上的竞争力。「从许多公开的测试集上,我们可以看到,国内大部分的模型公司的水平距离 GPT-3.5 仍然有距离」,一位 AI 方向资深投资人称。 不过,对于头部模型公司来说,「自研」路线上的摇摆现象概率要低得多。昆仑万维从 2020 年开始筹备模型,已经对外推出了成熟可商用的模型产品。 全球来看 GPT 的市场份额应当是最大的,而国内目前 Llama2 能够受影响的市场仅仅只是担心 GPT 受监管影响、且国产模型都不适用的这部分客户,是一个「暂存市场」。

    66560编辑于 2023-09-08
  • 来自专栏MavenTalk

    8家国产AI模型开放使用,人手一个模型的时代来临

    之前一直处于需要内测申请才能体验的国产AI模型们终于开放使用,对大众来说是一个好事,对模型也是个利好,不公测就无法接受市场的检验,每家都是王婆卖瓜,自说自夸,到底好不好,观众说了算。 什么是模型 先做个扫盲,AI模型是“人工智能预训练模型”的简称。语言模型是一种人工智能模型,它被训练成理解和生成人类语言。 这8家分别是谁 百度(文心一言) 抖音(云雀模型) 智谱AI(GLM模型) 中科院(紫东太初模型) 百川智能(百川模型) 商汤(日日新模型) MiniMax(ABAB模型) 上海人工智能实验室 (书生通用模型) 书生通用模型与云雀模型我确实是第一次听说,国内模型再现当年百团「团购」大战的身影,截至2023年7月,中国累计已经有130个模型问世。 MiniMax(ABAB模型) https://www.sensetime.com/ 商汤(日日新模型) https://intern-ai.org.cn 上海人工智能实验室(书生通用模型

    3.1K40编辑于 2023-09-06
  • 来自专栏机器之心

    ChatGPT国产化:ChatYuan元语对话模型升级

    国产自研功能对话模型元语 ChatYuan 于 2022 年 12 月发布测试版本后,引起社会各界人士的广泛讨论,并且收到了用户的大量反馈和宝贵建议。 欢迎各位朋友积极参与内测,国产通用模型已成为势在必行的必备能力,欢迎大家一起共建和督促。 ChatYuan 社群用户热烈讨论    【开源进展】 元语智能一直致力于推动中文模型开源事业,目前已开源的模型包括 PromptCLUE 和 ChatYuan-large-V1,在 Huggingface 【欢迎有识之士】 元语智能团队欢迎所有对模型有热情、有信仰的朋友加入。 可以通过元语智能公众号,后台留言【加入】联系元语团队,或发送邮件至 connect@yuanyu.ai 元语智能团队其他技术和产品介绍,可以阅读「首个中文版ChatGPT来了:模型的中国元“Yuan”

    84220编辑于 2023-02-23
  • 来自专栏机器之心

    最接近GPT-4的国产模型诞生了

    机器之心报道 作者:杜伟、蛋酱 2024 年,国产模型的第一个重磅消息,来自智谱 AI。 综合能力全面跃升 国产基座模型比肩 GPT-4 一直以来,AI 领域内的研究者和从业者都以「GPT-4」作为模型技术的标杆。 而 GLM-4 的诞生,意味着国产模型的水平真正做到了「比肩 GPT-4」。 智谱不仅有意愿,而且有能力为打造繁荣的国产模型生态贡献自己的力量。」 GLM 系列模型的合作伙伴已达 2000 多家,其中 200 多家参与模型深度共创与共建。 2024 年伊始,智谱 AI 带来了国产模型带来了好消息,并以此为起点瞄准 AGI 之路。在未来的技术求索和产业应用道路上,智谱 AI 会成为最先赶超 OpenAI 的国内模型创业力量吗?

    63111编辑于 2024-01-17
  • 来自专栏编程教程

    DeepSeek使用终极指南:解锁国产模型的隐藏实力

    引言 在人工智能领域,DeepSeek作为国产语言模型的佼佼者,正在改变人机交互的方式。它不仅支持文本、代码、文件解析等多种交互形式,更在数学、编码、逻辑推理等任务中展现出超越GPT的惊艳表现。 一、认识DeepSeek:国产模型的逆袭 1.1 技术底座解析 多模态支持:能同时处理文本、代码、表格、图像(识别文字内容) 中文优化:针对中文语境训练,在中文任务中表现显著优于国际模型 编码神器:官方宣称编码任务成功率达 如破解软件) 医疗建议需咨询专业医生 5.3 性能优化 长文本处理:超过500字建议分段提问 复杂任务:拆分为"分析→建议→执行"三步走 实时性要求:联网版可获取最新资讯 结语 DeepSeek作为国产模型的代表

    51310编辑于 2025-08-28
  • 来自专栏AI科技评论

    别再说国产模型技术突破要靠 Llama 3 开源了

    但其实,经过一年的辛苦磨练和积累,如 Llama 这样的国外模型一直很强的同时,国产模型也可以后来者居上,变得很强,甚至在 Llama 3 发布之前,国产模型就已经进化到 Llama 3 的效果, 根据 SuperBench 标准测试结果可以发现,国产模型早已有能强过 Llama 3 的模型国产模型 GLM-4 和文心一言早就达到了 Llama 3 的实力,属于全球模型竞争第一梯队。 而刷榜风盛行引发的一恶果是,外界对国产模型的实力难以分辨,鱼目混珠中,一些真正有实力的模型创业公司,应该融到的钱、吸引的人才却被那些擅长宣传、造势的给抢走了,引发劣币驱逐良币,影响了整个国产模型的发展 甚至如引言所述,一提到国产模型,有部分人觉得反正都是刷榜刷出来的,有什么值得关注的?反正都比不上国外,妄自菲薄之下,给国产模型喝倒彩的很多。 过去一直强调要睁开眼看世界,学习国外,但模型时代,看看国产模型过去一年的变化,我们更多缺少的是正视国产技术的进步。

    77110编辑于 2024-05-06
  • 来自专栏NAS原来这么有用

    国产AI崛起!谈谈我的24年模型工作流,NAS部署

    提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,轻松构建和运营生成式 AI 原生应用。比 LangChain 更易用。 另一方面它的功能性也是目前为止最为全面的LLM平台之一,支持设置前置领域条件的AI助理、不限长度的文档生成、知识库的链接、搜索以及问答、半自助Agent以及全球模型调用等等,而Dify如今在github 首次使用dify并不能直接运行模型,所以这里我们需要让其对接模型的API。 在首页的设置中选择模型供应商,可以看到,提供了非常多的模型对接,包括Ollama自部署的模型,选择你需要的模型,设置好对应的对接地址和API,随后点击保存即可。 API设置设置好大模型之后,随后就是智能体以及工作流和知识库的使用了,在创建空白应用中,我们可以选择基础的AI对话机器人,也可以创建具备推理和工具调用的智能助手,甚至可以设置对应的工作流。

    90911编辑于 2025-02-02
领券