首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 3.资源共享与独占优势: 开源模型在资源共享方面表现突出,任何人都可以利用这些开源资源进行学习和研究,促进技术的普及和应用。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.8K10编辑于 2024-10-09
  • 来自专栏星哥的AI自留地

    OpenAI发布最新模型GPT5、本地部署GPT开源模型

    OpenAI发布最新模型GPT5、本地部署GPT开源模型GPT-5概述北京时间 2025年8月8日 凌晨1点 OPENAI举行了1个小时的线上发布会,正式推出了其史上最聪明、最强大的模型GPT-5 开源模型 gpt-oss-20b 与 gpt-oss-120bOpenAI 开源 gpt-oss-20b 与 gpt-oss-120b 两款模型,Apache 2.0 许可证,水平与 o4-mini 相当 gpt-oss-20b 与 gpt-oss-120b 最低硬件要求来自ChatGPT5的回答来自本地gpt-oss-20b的回答如何在本地安装开源的GPT-oss-20b星哥的测试环境系统:Windows11 Ollama的Turbo服务Ollama 推出了名为 “Turbo” 的付费服务,旨在解决本地运行超大模型的性能瓶颈,让用户在数据中心级的硬件上运行大型开源模型,服务月费为 20 美元。 最后以上就是全部内容,GPT-5的简介和在本地搭建使用OpenAI的GPT-oss的开源模型。写文不易,如果你都看到了这里,请点个赞和在看,分享给更多的朋友;也别忘了关注星哥玩云!

    2K10编辑于 2025-08-27
  • 来自专栏睡前机器学习

    开源模型到底开源什么?

    语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源语言模型打个Call吧,能讲中文还开源语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。 最后就是开源数据集了,这项工作很重要,但也很容易被圈外忽视。现在中文语言模型缺的东西很多,抱怨的也很多,还有一票人天天平替这个平替那个,实在不知道怎么想。

    1.7K20编辑于 2023-09-09
  • 来自专栏机器学习入门

    【AI模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 掌握ChatGLM、LLaMA、Bloom等基础模型的原理 LLM主流模型类别 随着ChatGPT迅速火爆,引发了模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款模型发布及应用 目前,市面上已经开源了各种类型的语言模型,本章节我们主要介绍其中的三类: ChatGLM-6B:衍生的模型(wenda、ChatSQL等) LLaMA:衍生的模型(Alpaca、Vicuna 、BELLE、Phoenix、Chimera等) Bloom:衍生的模型(Bloomz、BELLE、Phoenix等) ChatGLM-6B模型 ChatGLM-6B 是清华大学提出的一个开源 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.3K10编辑于 2024-09-24
  • 来自专栏技术趋势

    google开源模型-gemini

    官网:https://deepmind.google/technologies/gemini/#introduction 简介 Gemini是谷歌公司发布的人工智能模型,能够在从数据中心到移动设备等不同平台上运行 “双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科 https://baike.baidu.com/item/Gemini/63729669? Whisper v3 文本能力 能力 标准 介绍 Gemini ultra GPT-4 总体 MMLU 57个学科(包括数学、物理、历史、法律、医学和伦理学等) 90.0%CoT@32* 86.4%5- HellaSwag 日常情景下的常识推理 87.8%10-shot* 95.3%10-shot*(reported) 数学 Gsm8K 基础算术操作(包括小学数学题) 94.4%maj1@32 92%5- 随着未来模型的普及我们的工作肯定有一部分会通过AI来提高效率,所以可以提升了解并实践

    2.5K10编辑于 2024-01-15
  • 来自专栏DevOps

    AI模型开源语言模型bloom学习

    作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源语言模型bloom及其问答系列模型bloomz。 一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本,本文中出于让大家都能动手实践的考虑,选择最小号的bloom-1b1版本,其他模型请自行尝试。 (checkpoint) #下载模型 网速足够快的情况下等一会就下载好了,但通常情况下我们得ctrl+c打断代码运行,手动下载模型存放到对应位置,即.cache\huggingface\hub\models–bigscience–bloom 下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件(不包含这个flax_model.msgpack)

    1K10编辑于 2024-03-29
  • 来自专栏AI工程落地

    语言模型--开源数据集

    Huggingface排行榜默认数据集 Huggingface开源模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4 本文主要介绍Huggingface开源模型排行榜上默认使用的数据集以及如何搭建自己的模型评估工具 搭建模型评估工具 1.下载数据集到本地 from datasets import load_dataset 2110.14168.pdf (arxiv.org) 数据集地址:gsm8k · Datasets at Hugging Face 语言:English 介绍:GSM8K是一个包含8.5k的小学数学题,主要用于测试模型的数学和逻辑推理能力 arxiv.org/abs/2107.03374 数据集地址:openai/openai_humaneval · Datasets at Hugging Face 语言:English 介绍:OpenAI发布的测试模型编程能力的数据集 模型需要根据prompt生成对应的代码,并且执行模型生成的代码,看是否能跑通。

    2.1K20编辑于 2024-09-18
  • 来自专栏科技云报道

    开源才是模型的未来?

    9月,百川智能宣布开源Baichuan-7B、13B两款模型,其下载量目前已经突破500万,200多家企业申请部署开源模型。 有业内人士认为,未来90%的企业会倾向基于开源模型发展。那么,开源是否真的是模型的未来? 开源模型快速赶超 开源模型的核心理念是开放源代码,允许公众访问、使用、修改和分发模型的源代码。 开源模型的商业化挑战 尽管开源已成为现阶段模型发展的一种主流趋势,开源模型的发展速度也远快于封闭生态系统,但并非所有的厂商都选择开源路线,也并不代表厂商会一直开源所有的模型。 比如,以开源切入模型赛道的百川智能,在发布完Baichuan-7B、Baichuan-13B开源模型后,参数更大的Baichuan-53B模型则选择了闭源。 开源与闭源模型 的协同演化 实际上,开源模型和闭源模型各有优劣,且在不同的应用场景和需求下各有其适用性,两者并非绝对的对立面,而是可以在某些方面相互借鉴和融合。

    51710编辑于 2023-12-26
  • 来自专栏机器学习AI算法工程

    开源语言模型LLMs汇总

    语言模型 语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。 2023年3月15日,Open AI发布了多模态预训练模型GPT4.0。 2023年2月,谷歌发布会公布了聊天机器人Bard,它由谷歌的语言模型LaMDA驱动。 开源语言模型 本文列举了截止到 2023 年 6 月 8 日开源语言模型 1、LLaMA 简介 meta 开源的 LLaMA LLaMA完全是在公共开源预训练数据上训练。 //arxiv.org/abs/2212.10560 代码:https://github.com/tatsu-lab/stanford_alpaca 4、PandaLLM 简介 Panda: 海外中文开源语言模型 骆驼(Luotuo)项目是由冷子昂 @ 商汤科技, 陈启源 @ 华中师范大学 以及 李鲁鲁 @ 商汤科技 发起的中文语言模型开源项目,包含了一系列语言模型

    2.9K10编辑于 2023-09-04
  • 来自专栏Python进阶之路

    开源教育对话模型 EduChat

    EduChat 是华东师范大学计算机科学与技术学院的 EduNLP 团队开发的开源教育对话模型。 该项目主要研究以预训练模型为基底的教育对话模型相关技术,融合多样化的教育垂直领域数据,辅以指令微调、价值观对齐等方法,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师 在未来,开发者们将持续投入对基础模型的研究,并持续推出更为强大的 EduChat 版本,以丰富全球教育模型生态,加速全球教育信息化进程。 鉴于上述模型的局限性,我们要求开发者仅将开源的代码、数据、模型以及由该项目生成的衍生物仅用于研究目的,禁止用于商业用途,以及其他可能对社会带来危害的用途。 ---- ️ 参考链接: EduChat - 探索了针对教育垂直领域的对话模型相关项目研发 EduChat 模型 - 在 educhat-base-002-7b 基础上,使用构建的教育领域多技能数据微调后得到

    2K30编辑于 2023-07-10
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.6K10编辑于 2025-05-07
  • 来自专栏数据派THU

    中文对话模型BELLE全面开源

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话模型开源社区迎来了一名浓眉大眼的新成员! 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 他们已经开源其中的150万数据。 模型模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。 为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。 轻量化:为了便于模型的部署和试用,BELLE团队同时开源了对话模型的量化版本。 总结 可以说BELLE的出现,大大促进了中文开源对话模型的发展,基于他们开源的数据和模型,更多的人可以尝试这些模型,更多的研究工作可以更快捷的展开。

    1K20编辑于 2023-04-05
  • 来自专栏陈冠男的游戏人生

    使用ollama本地部署开源模型

    chatGPT 刚出来没多久的时候,openai 时不时的限制使用频率,当时我想要是能本地部署一个模型,无限制的使用该多好哇。 后来有很多团队/公司陆陆续续在 github 开源了他们自己训练的模型,但是部署使用的操作门槛比较高,曾经试图部署过一个,报了几个错也没时间折腾就放弃了 前几天我发现了一个叫 ollama 的项目,根据介绍 ,一条命令就能跑起来一个模型,因此实际体验了一下,项目地址: https://github.com/ollama/ollama 先说一下使用体验,极其丝滑,完全没有报错,感觉就像是刚开始学 web 安全 ,下载甚至不需要挂代理,很舒适: 等模型下载结束后会自动进入命令行的交互模式,此时就已经部署结束了 可以在:https://ollama.com/library 找到更多的模型 但是在命令行中直接交互里很多格式解析不出来 /openai-translator/openai-translator 直接去 release 下载安装包后运行,在设置中选择本地大模型,并选择 API 模型为你已经下载好的本地模型保存即可 使用效果

    3.2K20编辑于 2024-03-05
  • 来自专栏睡前机器学习

    为什么巨头开始开源模型

    先说结论:商业大模型范式可能发生改变,7B模型标配开源成为免费体验版。 最开始ChatGPT刚出来的时候,我们都以为未来NLP甚至AI的开发范式是:巨头炼丹,虾米调参。 总之,后端模型从此与散户无缘 。 后来买它开源了Llama,点开了开源模型这条科技树,然后一发不可收拾。初代Llama其实不怎样样,但架不住开源的buf太强,巨头都瑟瑟发抖。 Llama点开的开源模型科技树也颠覆了模型原本应该出现的巨头炼丹、虾米调参范式,也颠覆了巨头想靠炼丹躺赢的预定路线。 ChatGPT刚出来的那段时间,国内好几家巨头都说要搞模型,但是有两点我认为当时是恨不明朗的,第一点就是炼好了产品怎么用。这一点现在我看还似懂非懂。 第二点就是开源。 最初的想法,应该也是认为世界线会朝巨头炼丹、虾米调参收束,有了模型,未来总会有办法卖钱。 但是,在开源模型用爱发电的冲击下,这条世界线崩塌了。

    44820编辑于 2023-09-09
  • 来自专栏机器学习AI算法工程

    AI模型开源与闭源

    首先我们还是对 模型以及开源闭源进行一定的分析。 模型是指具有大规模参数和复杂计算结构的机器学习模型。通常基于深度学习技术。 开源模型 开源模型近年来在人工智能领域取得了显著的进展,许多开源模型在学术研究、工业应用和社区创新中发挥了重要作用。 T5的设计理念是将所有的自然语言处理任务转化为文本到文本的形式。T5的代码和预训练模型也是开源的。 特点 统一框架:T5将不同的任务(如翻译、摘要、分类)统一为文本生成问题,这使得模型架构更加简洁。 开源模型与闭源模型,你更看好哪一方? 回到我们的主题。评价一个AI模型“好不好”“有没有发展”,首先就躲不开“开源”和“闭源”两条发展路径。 例如,BERT和T5开源模型不仅提供了卓越的自然语言处理能力,还能让用户和开发者通过自主检查,确保没有隐藏的安全风险。 然而,闭源模型则在数据隐私控制上更为严格。

    1.3K10编辑于 2024-07-04
  • 来自专栏AI

    开源网络安全模型 - SecGPT

         网络安全模型是指使用大量数据和参数来训练的人工智能模型,它可以理解和生成与网络安全相关的内容,例如漏洞报告、利用代码、攻击场景等。     目前各家网络安全厂商也纷纷跟进在模型方面的探索,但可供广大从业者研究的特有网络安全模型屈指可数,最近,云起无垠开源了他们的网络安全模型SecGPT,该模型基于Baichuan-13B训练,目前已接近 为防止灾难性遗忘,有监督数据喂通用能力数据+安全能力数据,数据占比5:14. 开放问题 可以见到,对于一些特别的问题,模型的回答还是很接地气的,不过对现实世界中的梗的理解能力还有待提高,这可能也是很多目前模型的普遍存在的问题。 总之,网络安全与模型的结合必将是未来发展的重要趋势之一,我们也期待能看到更多的安全模型和数据集被开源出来,更多安全相关的创新应用面向市场。

    1.5K10编辑于 2024-08-27
  • 来自专栏有文化的技术人

    模型微调开源框架推荐

    Unsloth 「GitHub」: https://github.com/unslothai/unsloth 「特点」: 训练速度提升 2-5 倍,显存减少 80% 支持 LLaMA、Mistral、Gemma 等模型 对 QLoRA 优化极佳 5. DeepSpeed 「GitHub」: https://github.com/microsoft/DeepSpeed 「特点」: 微软出品,专注大规模分布式训练 ZeRO 优化器大幅降低显存需求 适合超大模型训练 Swift (ModelScope) 「GitHub」: https://github.com/modelscope/swift 「特点」: 阿里达摩院出品 对国产模型(Qwen、ChatGLM)支持好 快速选择建议 场景 推荐框架 新手入门、零代码 LLaMA-Factory Hugging Face 生态 PEFT 显存有限、追求速度 Unsloth 超大规模分布式训练 DeepSpeed 国产模型微调

    34410编辑于 2026-04-09
  • 来自专栏子晓AI量化

    开源项目】常见的金融领域开源模型整理

    周末有同学问金融领域有哪些开源模型,我之前收藏夹里并不少,这里一并梳理下,不让收藏夹吃灰。 在金融行业数字化转型的浪潮中,语言模型(LLM)正逐步成为智能投研、风险控制、合规管理等场景的核心工具。 面对金融文本的高专业性、数据敏感性和逻辑复杂性,开源社区涌现出一批针对金融场景优化的模型框架。 一、综合型金融语言模型 轩辕(XuanYuan)系列 作为国内首个千亿级中文金融对话模型,轩辕系列基于国际主流架构进行深度本地化改造。 开源地址:https://github.com/FudanDISC/DISC-FinLLM 通义点金(Tongyi-Finance) 阿里云推出的金融模型解决方案,通过三阶段训练策略实现能力跃升: 基座预训练 (聚宝盆) 针对中小企业开发的轻量级解决方案,基于LLaMA-7B架构进行三方面优化: 知识蒸馏:将轩辕70B的金融知识迁移至小规模模型 指令优化:构建中文金融问答数据集FinQA-5K 工具链封装:提供

    53210编辑于 2026-04-23
  • 来自专栏NewBeeNLP

    苹果卷开源模型,OpenELM亮相

    后台留言『交流』,加入NewBee讨论组 苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。 要说 ChatGPT 拉开了模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。 不过,苹果最新放出的论文,我们看到其在开源领域做出的贡献。 因此,在表 4 的主要评估、表 5 的指令调优实验和表 6 的参数效率调优实验中,研究者使用了平均检查点。 表 4 中的结果横跨各种评估框架,突出了 OpenELM 相对于现有方法的有效性。 如图 5 所示,在不同的评估框架中,指令微调始终能将 OpenELM 的平均准确率提高 1-2%。 参数高效微调(PEFT)结果。研究者使用常识推理的训练和评估设置。

    30510编辑于 2024-04-26
  • 瑞士开源语言模型今夏发布

    开源瑞士语言模型今夏发布由瑞士联邦理工学院与苏黎世联邦理工学院联合开发的语言模型(LLM)即将在今夏公开发布。 该模型在瑞士国家超算中心的"阿尔卑斯"超级计算机上完成训练,标志着开源AI与多语言处理技术的重大进展。 开放生态建设近期在日内瓦举办的国际开源LLM构建者峰会上,50余家全球领先机构共同探讨了开源基础模型的协作生态。 该模型作为峰会焦点,由瑞士多所高校与超算中心工程师联合开发,具有以下核心特性:完全开源模型源代码、权重及训练数据全部公开多语言支持:覆盖1500多种语言(60%英语+40%非英语)合规设计:严格遵循瑞士数据保护法及欧盟 AI法案技术架构模型提供两个版本:80亿参数版:满足常规需求700亿参数版:全球性能最强的完全开源模型之一undefined训练使用超过15万亿高质量token,采用100%碳中和电力在配备10,000

    16200编辑于 2025-08-04
领券