首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏睡前机器学习

    开源模型到底开源什么?

    但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 算法的核心部分主要包括有模型结构和训练方法,这两部分都有对应的源码。哪天OpenAI公开源码,我们应该就能看到的也就是模型结构和训练方法两部分。 当然,这只是核心部分。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司大机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源大语言模型打个Call吧,能讲中文还开源的大语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。

    1.6K20编辑于 2023-09-09
  • 来自专栏学习

    开源模型与闭源大模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,大模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的大模型开发模式:开源模型和闭源大模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 优点: 1.透明性和可验证性: 开源模型的代码和数据完全公开,任何人都可以检查模型的构建和训练过程,确保其行为的透明性。 三、开源模型与闭源大模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 3.资源共享与独占优势: 开源模型在资源共享方面表现突出,任何人都可以利用这些开源资源进行学习和研究,促进技术的普及和应用。

    1.6K10编辑于 2024-10-09
  • 来自专栏DevOps

    AI模型开源大语言模型bloom学习

    作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源大语言模型bloom及其问答系列模型bloomz。 一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的大语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本,本文中出于让大家都能动手实践的考虑,选择最小号的bloom-1b1版本,其他模型请自行尝试。 (checkpoint) #下载模型 网速足够快的情况下等一会就下载好了,但通常情况下我们得ctrl+c打断代码运行,手动下载模型存放到对应位置,即.cache\huggingface\hub\models–bigscience–bloom 下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件(不包含这个flax_model.msgpack)

    88110编辑于 2024-03-29
  • 来自专栏技术趋势

    google开源模型-gemini

    官网:https://deepmind.google/technologies/gemini/#introduction 简介 Gemini是谷歌公司发布的人工智能大模型,能够在从数据中心到移动设备等不同平台上运行 Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini “双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科 https://baike.baidu.com/item/Gemini/63729669? embed_other.whitelist&vd_source=7d0e42b081e08cb3cefaea55cc1fa8b7 相关能力对比 能力 基准 描述 Gemini GPT-4V(当GPT-4V不支持此功能时,列出了先前的SOTA模型 随着未来大模型的普及我们的工作肯定有一部分会通过AI来提高效率,所以可以提升了解并实践

    2.3K10编辑于 2024-01-15
  • 来自专栏xiaosen

    LLM主流开源代表模型

    LLM主流开源模型介绍 1 LLM主流大模型类别 随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。 目前,市面上已经开源了各种类型的大语言模型,本章节我们主要介绍其中的三大类: ChatGLM-6B:衍生的大模型(wenda、ChatSQL等) LLaMA:衍生的大模型(Alpaca、Vicuna 、BELLE、Phoenix、Chimera等) Bloom:衍生的大模型(Bloomz、BELLE、Phoenix等) 2 ChatGLM-6B模型 ChatGLM-6B 是清华大学提出的一个开源 训练数据以英文为主,不包含中韩日文,所有训练数据都是开源的。 小结 主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    61310编辑于 2024-06-04
  • 来自专栏机器学习入门

    【AI大模型】LLM主流开源模型介绍

    学习目标 了解LLM主流开源模型. 目前,市面上已经开源了各种类型的大语言模型,本章节我们主要介绍其中的三大类: ChatGLM-6B:衍生的大模型(wenda、ChatSQL等) LLaMA:衍生的大模型(Alpaca、Vicuna 、BELLE、Phoenix、Chimera等) Bloom:衍生的大模型(Bloomz、BELLE、Phoenix等) ChatGLM-6B模型 ChatGLM-6B 是清华大学提出的一个开源 训练数据以英文为主,不包含中韩日文,所有训练数据都是开源的。 小结 本小节主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    1.2K10编辑于 2024-09-24
  • 来自专栏DeepHub IMBA

    开源大型语言模型(llm)总结

    研究人员努力解决模型在生成结果时可能存在的性别、种族、文化等偏见问题,以确保模型的输出更加公正和中立。 本文将总结目前能见到的所有开源的大语言模型。 位于阿布扎比的技术创新研究所(TII)宣布了其开源大型语言模型(LLM)——Falcon-40B。 TII还将模型的权重包含在开源包中,这将增强模型的功能并允许更有效的微调。 自2023年3月亮相以来,Falcon-40B的表现令人印象深刻。 Vicuna Vicuna是一个开源聊天机器人,通过从ShareGPT收集的用户共享对话进行训练。 除了以上6个比较好的开源大语言模型外,还有各种不同版本,所以HuggingFace创建了一个排行榜(leaderboard) 有兴趣的可以看看: https://huggingface.co/spaces

    75642编辑于 2023-08-30
  • 来自专栏科技云报道

    开源才是大模型的未来?

    目前,国内也有近一半的大模型选择了开源的方式: 今年7月,智谱AI宣布开源模型ChatGLM-6B和ChatGLM2-6B,这两个模型的下载量已经先后超过300万和120万。 8月,阿里宣布开源通义千问70亿参数模型Qwen-7B,一个多月下载量破100万;12月,阿里持续开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio 有业内人士认为,未来90%的企业会倾向基于开源模型发展。那么,开源是否真的是大模型的未来? 开源模型快速赶超 开源模型的核心理念是开放源代码,允许公众访问、使用、修改和分发模型的源代码。 “开源人工智能模型正走在超越专有模型的路上”,他感概道。 有网友甚至表示,我们正在接近一个临界点。以目前开源社区项目的发展速度,开源模型将在未来12个月内达到GPT-4的水平。 开源模型的商业化挑战 尽管开源已成为现阶段大模型发展的一种主流趋势,开源模型的发展速度也远快于封闭生态系统,但并非所有的厂商都选择开源路线,也并不代表厂商会一直开源所有的大模型

    45710编辑于 2023-12-26
  • 来自专栏AI工程落地

    大语言模型--开源数据集

    Huggingface排行榜默认数据集 Huggingface开源模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4 本文主要介绍Huggingface开源模型排行榜上默认使用的数据集以及如何搭建自己的大模型评估工具 搭建大模型评估工具 1.下载数据集到本地 from datasets import load_dataset human-eval: Code for the paper "Evaluating Large Language Models Trained on Code" (github.com) 对比自己的实现和开源分数差异 为了在这个测试中获得高精度,模型必须具有广泛的世界知识和解决问题的能力。 模型需要根据prompt生成对应的代码,并且执行模型生成的代码,看是否能跑通。

    1.9K20编辑于 2024-09-18
  • 来自专栏机器学习AI算法工程

    开源大语言模型LLMs汇总

    开源大语言模型 本文列举了截止到 2023 年 6 月 8 日开源的大语言模型 1、LLaMA 简介 meta 开源的 LLaMA LLaMA完全是在公共开源预训练数据上训练。 llama 2、ChatGLM - 6B 简介 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。 我们的 Panda 模型以及训练涉及的中文数据集将以开源形式发布,任何人都可以免费使用并参与开发。我们欢迎来自全球的开发者一起参与到该项目中,共同推动中文自然语言处理技术的发展。 本项目开源了经过中文金融知识指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。 骆驼(Luotuo)项目是由冷子昂 @ 商汤科技, 陈启源 @ 华中师范大学 以及 李鲁鲁 @ 商汤科技 发起的中文大语言模型开源项目,包含了一系列语言模型

    2.9K10编辑于 2023-09-04
  • 来自专栏Python进阶之路

    开源教育对话大模型 EduChat

    EduChat 是华东师范大学计算机科学与技术学院的 EduNLP 团队开发的开源教育对话大模型。 在未来,开发者们将持续投入对基础模型的研究,并持续推出更为强大的 EduChat 版本,以丰富全球教育大模型生态,加速全球教育信息化进程。 模型回复可能存在偏见,有可能生成危险性言论。 在某些场景中,比如推理、代码、多轮对话等方面,模型的能力仍有待提高。 鉴于上述模型的局限性,我们要求开发者仅将开源的代码、数据、模型以及由该项目生成的衍生物仅用于研究目的,禁止用于商业用途,以及其他可能对社会带来危害的用途。 EduChat 数据 - 混合多个开源中英指令、对话数据,并去重后得到,约 400W

    1.8K30编辑于 2023-07-10
  • 来自专栏开源社

    试论开源生态的经济模型

    目标非常清楚:通过创建一种经济模型,来分析开源生态中的各种问题。 上一次在CHAOSS china的一档播客节目里,我们在讨论关于“指标”的问题。 关键在于:我们缺少一组明白无误的概念,并且这些概念能够组成一个可以理解并且切合实际的模型。更进一步的关键在于:我们对于开源软件,乃至对于开源的本质,缺乏理解。 这方面有两个参考,一个是过去经常听到的,基于功能点(Function point)的开发成本估算,另一种是我在适兕的新书《开源之迷》里看到的,构造性成本模型(Constructive Cost Model :P 总结 通过以上的分析,我们基本上可以得到一个开源生态的经济模型的全貌了。 –> PageRank –> 生态关联度 · 价值流网络 –> 开源软件的生态总价值 –> 使用价值 基于以上的模型,我们也许可以展开进一步的分析了。

    54910编辑于 2022-02-25
  • 来自专栏开源服务指南

    目前最强大语言模型!谷歌开源 | 开源日报 No.196

    gemma_pytorchhttps://github.com/google/gemma_pytorch Stars: 3.4k License: Apache-2.0 gemma_pytorch 是 Google Gemma 模型的官方 提供了 Gemini 模型技术的轻量级、最新开放模型 支持文本到文本、仅解码器大语言模型 提供英文版本,包含开源权重、预训练变体和指导调整变体 支持 PyTorch 和 PyTorch/XLA 实现,可在 lowRISC/opentitanhttps://github.com/lowRISC/opentitan Stars: 2.2k License: Apache-2.0 opentitan 是一个开源的硅芯片信任根基项目

    53110编辑于 2024-02-26
  • 重磅开源:OpenCSG再次推出100%开源模型推理项目

    不管是商业化模型,还是开源模型,如何让其发挥最大的价值并降本增效已成为困扰开发者的问题,工程师们持续探索着大模型的应用场景开发者们一边开发将大模型的能力转化为应用,如建立企业智能知识库和智能问答系统,智能生成图片和视频 OpenCSG集众家之所长,为大模型的发展添砖加瓦,勇当头排兵,于近日重磅开源LLM推理服务的杀手锏技术——LLM-Inference。 此项目携带一些业界常用的开源模型部署配置文件,同时用户可以通过YAML的方式,快速定制自己的LLM部署,在定义自有模型时,用户可借助于模版,轻松完善部署配置信息、模型配置信息和扩展配置信息即可。 OpenCSG的开源人将一如既往的奉行开源精神,开源仅是发展的重要一步,在国际大模型竞争如此激烈的情况下,OpenCSG将肩负持续引导和赋能,使得LLM-Inference越来越完善。 聚焦打造中国第一大模型开源生态。众人拾柴火焰高,诚挚的欢迎业界专家的贡献。OpenCSG将不忘初心,砥砺前行,长路漫漫,未来可期,让我们相识相知于开源江湖。

    63220编辑于 2024-03-06
  • 来自专栏数据派THU

    中文对话大模型BELLE全面开源

    来源:高能AI本文约1000字,建议阅读5分钟模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。 中文对话大模型开源社区迎来了一名浓眉大眼的新成员! 但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话大模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。 他们已经开源其中的150万数据。 模型:大模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。 为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。 轻量化:为了便于模型的部署和试用,BELLE团队同时开源了对话模型的量化版本。 总结 可以说BELLE的出现,大大促进了中文开源对话模型的发展,基于他们开源的数据和模型,更多的人可以尝试这些模型,更多的研究工作可以更快捷的展开。

    97220编辑于 2023-04-05
  • 来自专栏xiaosen

    国内开源医疗模型研究报告

    国内主要开源医疗模型概览 京医千询 京医千询是京东健康旗下的医疗大模型,是国内医疗行业首个全面开源的垂类大模型。 国内开源医疗模型的技术特点与优势 多模态数据处理能力 国内开源医疗模型普遍具备处理多模态数据的能力,能够整合文本、图像、视频等多种形式的医疗数据。 高度的开源性和可扩展性 国内开源医疗模型普遍具有高度的开源性和可扩展性,允许开发者和研究人员自由访问和修改源代码,从而推动医疗AI技术的创新和发展。 例如,京医千询是国内医疗行业首个全面开源的垂类大模型[30]。 这种开源性和可扩展性使得医疗AI模型能够不断进化和改进,适应医疗领域的新需求和新挑战。 开源生态的建设与完善 未来,国内开源医疗模型将更加注重开源生态的建设与完善,吸引更多的开发者和研究人员参与医疗AI技术的创新和发展。例如,京医千询是国内医疗行业首个全面开源的垂类大模型[30]。

    98810编辑于 2025-04-16
  • 来自专栏机器之心

    快手Agents系统、模型、数据全部开源

    机器之心专栏 机器之心编辑部 快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了! 7B 大小的模型也能玩转 AI Agents 了?近期,快手开源了「KwaiAgents」,问它周末滑雪问题,它不但帮你找到场地,连当天的天气都帮你考虑周到了。 这一次,快手联合哈尔滨工业大学研发的「KwaiAgents」,使 7B/13B 的 “小” 大模型也能达到超越 GPT-3.5 的效果,并且这些系统、模型、数据、评测都开源了! 本次开源 KAgentSys 的部分能力,系统将逐步进行升级和开放。 团队调优了一些热门开源模型如 Qwen-7B、Baichuan2-13B 等,供大家使用和参考,后续还会陆续放出其他热门模型

    75610编辑于 2023-12-28
  • 来自专栏腾讯技术工程官方号的专栏

    开源图像模型Stable Diffusion入门手册

    装配模型 可在如Civitai上下载标注有CKPT的模型,有模型才能作画。下载的模型放入下载后文件路径下的models/Stable-diffusion目录。 模型:放入 embeddings 目录 模型使用 Checkpoint(ckpt)模型 对效果影响最大的模型。 一些模型会有触发词,即在提示词内输入相应的单词才会生效。 Lora 模型 / LoHA 模型 / LoCon 模型 对人物、姿势、物体表现较好的模型,在 ckpt 模型上附加使用。 LoHA 模型是一种 LORA 模型的改进。 LoCon 模型也一种 LORA 模型的改进,泛化能力更强。 Embedding 对人物、画风都有调整效果的模型。在提示词中加入对应的关键词即可。 模型越复杂,模型的泛化能力越差,要达到相同的泛化能力,越复杂的模型需要的样本数量就越多,为了提高模型的泛化能力,需要正则化来限制模型复杂度。

    10.1K1721编辑于 2023-04-14
  • 来自专栏机器学习AI算法工程

    AI大模型开源与闭源

    首先我们还是对 大模型以及开源闭源进行一定的分析。 大模型是指具有大规模参数和复杂计算结构的机器学习模型。通常基于深度学习技术。 这些模型在AI的发展中起到了至关重要的作用,尤其是在自然语言处理(NLP)、计算机视觉和语音识别等领域。 以下是开源模型和闭源大模型的基本简介。 开源模型 开源模型近年来在人工智能领域取得了显著的进展,许多开源模型在学术研究、工业应用和社区创新中发挥了重要作用。 开源模型与闭源大模型,你更看好哪一方? 回到我们的主题。评价一个AI模型“好不好”“有没有发展”,首先就躲不开“开源”和“闭源”两条发展路径。 另一方面,开源模型在商业化上面临一些挑战。尽管开源模型通常是免费的,降低了开发者的进入门槛,但其商业化模式可能更复杂,主要依赖于服务和支持等增值业务。

    1.1K10编辑于 2024-07-04
  • 来自专栏睡前机器学习

    为什么巨头开始开源模型

    先说结论:商业大模型范式可能发生改变,7B大模型标配开源成为免费体验版。 最开始ChatGPT刚出来的时候,我们都以为未来NLP甚至AI的开发范式是:巨头炼丹,虾米调参。 总之,后端模型从此与散户无缘 。 后来买它开源了Llama,点开了开源模型这条科技树,然后一发不可收拾。初代Llama其实不怎样样,但架不住开源的buf太强,巨头都瑟瑟发抖。 Llama点开的开源模型科技树也颠覆了大模型原本应该出现的巨头炼丹、虾米调参范式,也颠覆了巨头想靠炼丹躺赢的预定路线。 最初的想法,应该也是认为世界线会朝巨头炼丹、虾米调参收束,有了大模型,未来总会有办法卖钱。 但是,在开源模型用爱发电的冲击下,这条世界线崩塌了。 你花老大价钱搞个大模型,最后无非三种情况:如果性能还不如开源模型,那炼了等于白炼。如果性能稳赢开源模型,那你已经甩开了OpenAI和谷歌,因为这两家也没这种信心。

    39820编辑于 2023-09-09
领券