首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏量子位

    国产模型已无公司可投

    纵向对比,相继奔赴模型创业的公司太多了。据不完全统计,包含通用与垂直、开源与闭源不同类型在内,国产模型数量已超百家。 如上文所言,资本集中押注,狩猎目标集中在3-5个选手身上,通往成功的机会被极限压缩。 马太效应的加剧,让有望突围的创业公司数量更进一步缩小,但纵观市场上叫得上名字的公司,要价都扶摇直上。 毕竟拉起队伍后,模型商业模式不明确,盈利点不清晰,许多创业项目还停留在概念验证阶段。 到训出模型、拿出真产品,甚至赶上GPT-3.5,赛道上的国内选手们要走的路还挺长。 8个月前,ChatGPT一石激起千层浪;6个月前,国内的模型赛道开始备受瞩目,热度逐渐如日中天。 到现在,想走模型路线通向AGI的人依旧络绎不绝。 大火热炒半年,模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,模型创投界渐渐迎来了第一波冷静期。

    35510编辑于 2023-09-08
  • 来自专栏算法一只狗

    国产模型如何追上OpenAI

    后期训练:使用了 5K GPU 小时,成本约为 1,000 美元。总成本:2788K(278.8 万)GPU 小时,总费用为 557.6 万美元。 其高效的训练方法和较低的计算成本,可以给其他没有资源的公司借鉴一下,也验证了大规模的GPU集群不是训练模型的必要条件。数据集才是关键?之前就曾经有爆料称,OpenAI的下一代模型效果不及预期。 这可能就说明,为什么迟迟不出来GPT-5了,因为提升幅度有限,所以把GPT-5改名成立了Orion目前最主流的说法认为,模型的scaling raw正在慢慢失效,也就是目前的模型尽管有着大量的数据集进行训练 主要是现在模型所需要的大规模数据集已经耗尽了,高质量的数据集其实没有多少。OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给模型进行学习。 而如果能够源源不断的提供给模型一个高质量的数据集,那么确实有可能会进一步提升要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的语言模型生成合成数据。

    35620编辑于 2025-01-06
  • 来自专栏数据小冰

    Claude Code接入国产模型

    前言 本文介绍在macOS环境中搭建Claude Code接入国产模型的详细步骤。 配置MiniMax国产模型 访问MINIMAX官网,注册并登录账号,申请API key。 登录Claude Code 配置上述连接地址后,在终端执行 claude login,即可成功连接上模型。 通过 claude -p 指令进行问答快速验证效果,参数-p表示不要进入交互式会话。 让它简要介绍下模型,测试效果如下。

    1.8K10编辑于 2026-03-04
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 引发伦理监管讨论:国际社会对AI伦理问题关注度提升,数据安全、隐私保护和内容监管等问题成为焦点,促使各国制定更严格的AI模型监管政策。 deepseek-r1的哪个版本的模型? 理论上就安装完成了,可以只在命令行中使用模型了。修改路径文件保存路径可以不用改,如果C盘空间不够用,建议修改。

    6.4K33编辑于 2025-02-06
  • 来自专栏Soul Joy Hub

    模型AIGC系列课程 3-2】国产开源模型:ChatGLM

    GLM https://arxiv.org/pdf/2103.10360.pdf GLM是General Language Model的缩写,是一种通用的语言模型预训练框架。 这个图示说明了GLM预训练的过程,具体解释如下: a) 原始文本:给定一个原始文本,例如[x1, x2, x3, x4, x5, x6]。 在这个例子中,我们随机选择了两个连续的词片段[x3]和[x5, x6]作为样本。 b) 替换和洗牌:在Part A中,我们将被选择的词片段替换为[M](表示遮盖)。 在这个例子中,我们将[x3]和[x5, x6]洗牌为[x5, x6]和[x3]。 c) 自回归生成:GLM使用自回归的方式生成Part B。 在生成过程中,模型可以根据之前生成的词片段和Part A中的上下文来预测下一个词片段。 d) 自注意力掩码:为了限制模型的注意力范围,

    78220编辑于 2023-08-28
  • 来自专栏大龄程序员的人工智能之路

    国产系统上部署开源模型

    本地部署模型的方法很多,一般选择 docker 容器部署,或者使用本地服务框架。这里介绍使用本地服务框架 Ollama 部署。 Ollama 模型框架 Ollama 是一个新兴的模型框架,旨在为机器学习和人工智能研究提供高效、灵活和可扩展的解决方案。 启动一个模型非常简单,比如我想运行 gemma2 27b 参数的模型: (base) alex@alex-deepin-os:~$ ollama run gemma2:27b pulling manifest 我使用的是 Google 的 Gemma2 9b 模型,速度还挺快。 如果你想尝试其它的模型,可以去 ollama 的模型仓库看看。 小结 写到这里,是不是感觉到在 Deepin 系统上部署模型太简单了?

    82810编辑于 2024-07-18
  • 来自专栏睡前机器学习

    国产模型井喷的原因及收场

    这俩月我一直在想俩问题,一个是为什么这俩月突然多了这么多国产LLM,另一个是这么多国产LLM有什么区别。 这俩问题想的不少,说得好的不多,姑且说说。 谷歌很狼狈,ChatGPT是22年12月发布,谷歌直到23年5月,也就是用了整整半年,才搞出来一个看起来总算有点谷歌样子的Palm 2。 为什么说“看起来总算有点谷歌样子”? 一些以前分明不是搞AI的企业,居然这波也说要推自己的模型。 事实啪啪打脸。这脸打得怎么说呢?痛快。 当然了,大家第一个问题就是,为什么LLM的门槛忽然就降低了呢? 对于宣布搞自家LLM的企业来说,最不差的恐怕就是钱了。何况现在还有一堆LLM的预训练模型排着队的开源呢。 最后是数据。数据很容易被人忽略,但我从一开始就认为,数据才是真正的隐性门槛。 规模、质量高的数据集很可能才是ChatGPT取得惊人成功的真正秘诀。 然而,人工标一个规模、质量高的数据集需要花很多的钱,更重要的是需要花很多的时间。

    40620编辑于 2023-09-09
  • 来自专栏新智元

    模型只有参数和算力?这款国产模型证明:落地为王!

    这个模型体系,包含学习了足够多数据与知识的基础模型,面向常见AI任务专门学习的任务模型,以及引入行业特色数据和知识的行业大模型。 基础模型具有学习的数据、知识量大、参数规模特点,通用性最高。 为了尽可能地实现这个目标,本次百度与10个模型一同发布的,还有一套全方位的工具和平台,包括模型开发套件、模型API、内嵌了模型能力的EasyDL和BML开发平台,面向不同类型的开发者,全面释放大模型的使用效能 开放生态促创新 在生态系统搭建上,文心模型共创共享飞桨生态,同时为促进模型惠及最广泛的行业与人群,新发布基于文心模型的创意社区——「旸谷」模型创意与探索社区。 相信依托文心模型在开放生态上的持续发力,百度AI生态建设无论是在深度和广度上都将迈上了新的台阶。 国产模型国产架构,一个字:香 有模型,也必然会有相应的训练框架。 文心模型的训练、推理都依托深度学习平台的支撑,同时,模型作为飞桨平台中产业级模型库的重要一员,成为了飞桨平台支持AI创新必不可少的能力。 说回到模型上来,模型可谓是成也「」,难也「」。

    2.1K20编辑于 2022-05-30
  • 来自专栏Java面试教程

    免费注册目前最好用的国产模型

    科大讯飞的星星之火 5月6日,科大讯飞发布了对标GPT的产品 “星火认知模型” 所谓认知,就像一个巨型百科全书 无论向它输入什么 都能得到有效的,甚至惊喜的反馈 结合科大讯飞的传统优势 在语音、语义方面具有同类产品无法比拟的优势 ("sm2p256v1"); // SM2椭圆曲线参数对象名称为"sm2p256v1" curve.decodePoint(Hex.decode("0488e36f70d890ac1a5ff41b1732178875835dd1 return curve; } } 效果挺好的 对话 问问它优势在哪 我:你和GPT相比有什么独特的地方 星火:ChatGPT是由OpenAI开发的交互式AI模型,我是科大讯飞自主研发的认知智能模型 看得出,它算到一半 居然自己否定,并修改了 结果是对的,但其实不是最优解 最简单的算法是: 7 × 18- 5 × 20,7个数减5个数,结果就是被去掉的2个数字 写诗 我:写一个七言藏头诗,包括“小丽我爱你

    64930编辑于 2023-07-08
  • 2025年5国产ETL工具横向评测

    这几年,国产ETL工具进步飞快,给大家提供了不少靠谱的选择。今天,咱们就来实实在在聊聊5款主流的国产ETL工具,帮你挑到最趁手的那一个。 希望这份实实在在的对比,能帮你拨开迷雾,在2025年找到最趁手的国产ETL伙伴!选对了工具,数据才能真正为你所用。

    67610编辑于 2025-07-17
  • 来自专栏强人工智能之路

    5道推理题测试国产模型与GPT差距

    目前国产模型可谓百花齐放,有些模型甚至自称达到或者超过GPT3.5的水平,那实际情况究竟如何,我用5道推理题测试了GPT4、GPT3.5、 百度文心一言、讯飞星火大模型的表现,以下是测试过程。 360智脑:3次回答仍然错误 图片 问题五 5,5,5,1这4个数字,在中间添加四则运算符号(+-*/)和括号,在所有的可能方案中,找出一个方案,让计算结果等于24. GPT4: 正确 ? 360智脑:拒绝回答 图片 得分评估 模型 题1 题2 题3 题4 题5 总分 GPT4 10 10 9.5 10 10 49.5 GPT3.5 8 0 6.7 9.5 0 24.2 文心一言 10 8 5 0 10 33 讯飞星火 10 0 5 10 0 20 360智脑 0 0 1.6 0 0 1.6 总结 针对5道推理题测试比较,国产模型推理能力已经和GPT3.5差不多,甚至文心一言还略有超过 一个月前我测试过这些问题,GPT和国产模型都没有今天回答的好,说明它们还在迭代进化。 陆奇说世界上只有2个国产能做出模型:美国、中国,我相信中国会做出对标GPT4的模型。 ----

    2.5K42编辑于 2023-07-18
  • 来自专栏LLM应用开发实践笔记

    首批国产AI模型已开放?开发者不容忽视的 5 个问题!

    国内各大厂商的模型服务纷纷上线,应用密集落地应该是接下来的主旋律,将之前看过的 LLM Bootcamp 系列视频[1](由 The Full Stack 出品,内容由 11 节 talk 组成,质量很高 本篇主要是 LLMOps 这节讲座的笔记,包括如何选择基础模型、如何评估模型性能、模型的部署、如何管理 Prompt 的迭代过程、监控和持续改进,以及最后提出的测试驱动 LLM 应用开发的理念,比我之前这篇更详尽基于语言模型的智能问答系统应该包含哪些环节 如何选择语言模型 兼顾需求和可用模型的优缺点 不同任务对模型质量、速度、成本、可定制化以及数据安全和许可的需求不同 目前闭源模型质量比较高,但开源模型更容易定制 许可限制会影响商业化应用 闭源模型与开源模型的比较标准 -3.5 相近,全面训练数据 Cohere 等其他模型:便宜且快但质量下降 开源模型具体对比 开源模型具体对比 Flan-T5:许可符合要求,质量较好 LLama 系列:社区生态完善,但许可有限制 OPT 提高输出质量 提高输出质量 自我批评(self-critique):使用第二个语言模型检验第一个模型的输出 多采样:对同一输入进行多次采样,选择最佳输出 模型集成:使用多个语言模型,对结果集成 开源模型部署

    35110编辑于 2024-03-15
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.2K10编辑于 2025-05-07
  • 来自专栏kali blog

    Claude Code 泄露版安装及配置国产模型

    本文让我们一起在本地环境搭建泄露版,并配置国产模型。 但是没有模型接入,由于国外的模型我们注册比较困难,因此我们用国内的模型。 01创建API ●在智谱开放平台 (https://open.bigmodel.cn) 注册账号。

    60910编辑于 2026-04-15
  • 来自专栏生信技能树

    使用国产模型完成单细胞自动注释

    Mailman School of Public Health)的 Wenpin Hou 和杜克大学医学院(Duke University School of Medicine)的 Zhicheng Ji 证明,语言模型 更多模型支持:我们在 Openai 之外提供了更多大型模型供用户选择,例如 Qwen(通义千问)、Kimi,而且还通过参数 base_url 提供了更多模型支持。 在 omicverse 中实现的 gptcelltype 支持几乎所有支持 openai API 格式的模型。 请选择您需要使用的模型:支持的模型列表。 请选择您需要使用的模型:支持的模型列表。

    68010编辑于 2024-05-31
  • 来自专栏开源技术小栈

    Openai 异步客户端接入国产模型 Kimi

    Moonshot AI 的核心团队曾参与开发Transformer XL、RoPE等关键算法,并且在模型领域有着深厚的技术积累。 kimi 是他们家智能助手的名字,真正的模型是叫 Moonshot。这一点我们从 API 的 model 参数中也能发现。因此后面谈到模型时,就统一称呼为 Moonshot。 webman/openai 简介 传统php-fpm架构调用openai等模型接口时只能做到阻塞调用,由于模型接口返回速度很慢,一个php-fpm进程一分钟只能调用几次,几个人一刷系统就会明显的卡顿甚至不可用状态 ,所以php-fpm不适合做大模型调用,而webman这类的常驻内存类型的框架非常适合模型应用的开发。 ); } } 请求参数 apikey : Moonshot开放平台申请到的Key api : Moonshot公开的服务地址 https://api.moonshot.cn model : 模型填写

    2.6K31编辑于 2024-03-20
  • 2026年4月 7款国产模型能力实测

    2026年4月7款国产模型推理能力实测:谁能发现网站付费墙的漏洞?一次真实的代码安全分析任务,7款国产模型同台竞技,最终只有1款完成了挑战。背景模型的代码能力评测很多,但跑分和实战是两回事。 我们想回答一个更实际的问题:给模型一个真实的代码安全分析任务,它能不能像安全工程师一样思考,从蛛丝马迹中推理出漏洞? /c■■■■/15094d5bf256.mp3,直接下载了,没有验证这是否是当前诗文的音频。" 1.09MtokensvsGLM-5.1的0.20M,5倍的消耗,0倍的核心产出。推理的深度比广度更重要。GLM-4.7:同门差距GLM-4.7与GLM-5.1同属一个系列,但表现差距显著。 结论这次测试揭示了当前国产模型在代码推理能力上的几个关键差异:推理链完整性是分水岭:能从HTML源码一路追踪到API接口再到CDN资源的模型(GLM-5.1),与在中间某个环节断裂的模型,产出质量天差地别

    3600编辑于 2026-04-23
  • 来自专栏智能文本处理

    达观数据研发“曹植”语言模型,致力于国产GPT模型

    在通用领域,以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力,受到国内外的广泛关注。垂直领域的GPT模型同样拥有广阔的应用前景。 达观基于多年文本智能技术积累和垂直领域场景业务经验,正在积极探索语言模型LLM的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅能实现专业领域的AIGC智能化应用 在产品应用层面,以“曹植”模型作为支撑,为达观全栈AIGC智能产品带来革命性效果提升。 未来达观将建立多个垂直领域的专用语言模型,为各行业的智能化需求提供更加专业和高效的解决方案。 会上达观数据董事长兼CEO、复旦大学计算机博士陈运文以探索语言模型的垂直化训练技术和应用为题,向听众展开介绍达观数据“曹植”垂直领域语言模型的研发进展和工程化探索,这也是“曹植”首度面向公众亮相。

    70030编辑于 2023-04-12
  • 来自专栏机器之心

    Llama2开源后,国产模型在卷什么?

    今年5月份,谷歌一位工程师在内部撰文直言称,当免费的、不受限制的替代品(开源模型)与闭源模型质量相当时,人们不会为受限制的模型付费。 两个月以后,这一预测变成现实。 在 Llama2 推出之前,开源社区最强的模型 Llama 在商用许可上具有限制,而 OpenAI 的接口在国内面临着不确定的监管风险,因此相比于两者,国产模型在市场竞争中的优势通常是「可商用」、「 Llama2 的释出削弱了国产模型创业公司在市场上的竞争力。「从许多公开的测试集上,我们可以看到,国内大部分的模型公司的水平距离 GPT-3.5 仍然有距离」,一位 AI 方向资深投资人称。 全球来看 GPT 的市场份额应当是最大的,而国内目前 Llama2 能够受影响的市场仅仅只是担心 GPT 受监管影响、且国产模型都不适用的这部分客户,是一个「暂存市场」。 这个观点来自于今年5月谷歌一位工程师在内网发布的文件。

    67160编辑于 2023-09-08
  • 来自专栏MavenTalk

    8家国产AI模型开放使用,人手一个模型的时代来临

    之前一直处于需要内测申请才能体验的国产AI模型们终于开放使用,对大众来说是一个好事,对模型也是个利好,不公测就无法接受市场的检验,每家都是王婆卖瓜,自说自夸,到底好不好,观众说了算。 什么是模型 先做个扫盲,AI模型是“人工智能预训练模型”的简称。语言模型是一种人工智能模型,它被训练成理解和生成人类语言。 这8家分别是谁 百度(文心一言) 抖音(云雀模型) 智谱AI(GLM模型) 中科院(紫东太初模型) 百川智能(百川模型) 商汤(日日新模型) MiniMax(ABAB模型) 上海人工智能实验室 (书生通用模型) 书生通用模型与云雀模型我确实是第一次听说,国内模型再现当年百团「团购」大战的身影,截至2023年7月,中国累计已经有130个模型问世。 MiniMax(ABAB模型) https://www.sensetime.com/ 商汤(日日新模型) https://intern-ai.org.cn 上海人工智能实验室(书生通用模型

    3.1K40编辑于 2023-09-06
领券