首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏程序随笔

    聊聊GLM-4-9B开源模型的微调loss计算

    网上已经有很多关于微调的文章,介绍各种方式下的使用,这里不会赘述。我个人比较关心的是微调时的loss计算逻辑,这点在很多的文章都不会有相关的描述,因为大多数人都是关心如何使用之类的应用层,而不是其具体的底层逻辑,当然咱也说不清太底层的计算。

    48410编辑于 2024-06-13
  • 来自专栏Python与算法之美

    9模型的评估

    模块中的交叉验证相关方法可以评估模型的泛化能力,能够有效避免过度拟合。 二,分类模型的评估 模型分类效果全部信息: confusion_matrix 混淆矩阵,误差矩阵。 ? 模型整体分类效果: accuracy 正确率。通用分类评估指标。 模型对某种类别的分类效果: precision 精确率,也叫查准率。模型不把正样本标错的能力。“不冤枉一个好人”。 recall 召回率,也叫查全率。模型识别出全部正样本的能力。 三,回归模型的评估 回归模型最常用的评估指标有: r2_score(r方,拟合优度,可决系数) explained_variance_score(解释方差得分) ? ? 留出法 为了解决过拟合问题,常见的方法将数据分为训练集和测试集,用训练集去训练模型的参数,用测试集去测试训练后模型的表现。

    96631发布于 2020-07-17
  • 来自专栏猫头虎博客专区

    开源模型DeepSeek.ai火遍全球:9条让DeepSeek颠覆通用大模型的事实

    在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 ( 数据, 训练了 R1-Zero 模型, 探索了模型不依赖人类标注数据微调、自主推演的能力, 打开了新的思路。 几个观点: DeepSeek 代表的是整个开源相对闭源的一次胜利, 对社区的贡献会快速转化为整个开源社区的繁荣, 我相信包括 Meta 在内的开源力量, 会在此基础上进一步发展开源模型, 开源就是一个众人拾柴火焰高的事情 OpenAl 这种大力出奇迹的路径暂时看显得有点简单粗暴, 但也不排除到了一定的量又出现了新的质变, 那闭源和开源又将拉开差距, 这也不好说。 DeepSeek 让开源模型和闭源模型一样好, 并且效率还更高, 花钱买 OpenAI 的 API 的必要性降低了, 私有部署和自主微调会为下游应用提供更大的发展空间, 未来一两年, 大概率将见证更丰富的推理芯片产品

    1.1K10编辑于 2025-02-02
  • 来自专栏A周立SpringCloud

    9 个 Java 开源项目 yyds

    开源中国里,不知道大家有没有留意到一个Java开源组织——Dromara? 这个组织是由 Apache ShenYu(前身是Soul网关)的作者创立,多位 Java 开源作者参与的一个Java开源组织。 在开源中国社区,很多 Java 开源作者都是各自为战,独立运营项目。 目前 Dromara 社区拥有 9 个 GVP 项目,和一些 Star 数量很高的项目。这些开源项目社区都很活跃,每一个都是能提高工作效率的精品开源作品。 下面就来盘点下 Dromara 组织其中的这 9开源项目,都是非常实用的工具,用好这些将会让你的生产效率大大提升! 1. 8.3 效率提升 通过对 Graphics2D 的封装和元素模型的提炼,屏蔽了图像处理细节,把复杂的编码简化为设置各个元素的位置、属性即可。

    94920发布于 2021-12-01
  • 来自专栏睡前机器学习

    开源模型到底开源什么?

    但大语言模型的“开源”完全不是这么一回事。先别管OpenAI现在名叫钮钴禄氏·CloseAI,就算哪天良心发现,真的要找回自己做一个名副其实的OpenAI,洗心革面把GPT-4给开源了。 算法的核心部分主要包括有模型结构和训练方法,这两部分都有对应的源码。哪天OpenAI公开源码,我们应该就能看到的也就是模型结构和训练方法两部分。 当然,这只是核心部分。 那么,现在很多研究者在呼吁的开源,到底是要开源什么呢?开源模型,具体来说,是开源训练好的模型参数。模型参数拿到手,基本上就能完整复现能力了。 前面说过,模型这玩意距离能力复现就一步之遥,有很多人爱开源模型,也有很多人不爱开源模型,原因和上面差不多,还有一种是大公司大机构才敢用,官方辞令很多,譬如“出于社会责任考虑”,或者“安全伦理存在巨大风险 这里为咱们的中文开源大语言模型打个Call吧,能讲中文还开源的大语言模型真的不多,清华放出来的ChatGLM-6B应该是佼佼者,而是真·单卡就能运行。这里说的是消费级显卡。

    1.6K20编辑于 2023-09-09
  • 来自专栏前端迷

    9个不错的前端开源项目

    以React为例,它是四年前才由Facebook开源的,它已经成为全球JavaScript开发人员的第一选择。 当然,Vue和Angular也有其合法的追随者群体。 为了帮助你在2020年成为前端大师,我收集了9个不同的项目,每个项目都有不同的主题和不同的JavaScript框架或库作为技术栈,您可以构建它们并将它们添加到学习计划中。 https://www.telerik.com/blogs/building-a-blog-with-vue-and-markdown-using-gridsome 9.使用Quasar构建类似SoundCloud 总结 在本文中,我向您展示了可以构建的9个项目,每个项目都专注于另一个JavaScript框架或库。 现在,选择权全由您自己决定:您是否会使用以前未使用的框架来尝试一些新的东西?

    8.3K30发布于 2020-05-26
  • 来自专栏猿天地

    9 个 Java 开源项目 yyds

    开源中国里,不知道大家有没有留意到一个Java开源组织——Dromara? 这个组织是由 Apache ShenYu(前身是Soul网关)的作者创立,多位 Java 开源作者参与的一个Java开源组织。 在开源中国社区,很多 Java 开源作者都是各自为战,独立运营项目。 目前 Dromara 社区拥有 9 个 GVP 项目,和一些 Star 数量很高的项目。这些开源项目社区都很活跃,每一个都是能提高工作效率的精品开源作品。 下面就来盘点下 Dromara 组织其中的这 9开源项目,都是非常实用的工具,用好这些将会让你的生产效率大大提升! 1. 8.3 效率提升 通过对 Graphics2D 的封装和元素模型的提炼,屏蔽了图像处理细节,把复杂的编码简化为设置各个元素的位置、属性即可。

    1.2K10编辑于 2021-12-02
  • 来自专栏DevOps

    开源KMS之vault part9

    启用transit引擎$ export VAULT_ADDR='http://192.168.31.181:8200' $ vault login hvs.BwHLss1Dmh9Be30uKVHAAlD5 /QpHHP06xCJcVfjDn3RRs=key_version 1可以看到,给出明文Abcd@1234,我们得到的了密文vault:v1:Kz38wR3kWN+xHcW9MHEKT7FQbRTNuV 我们使用Root Token登录,再查看一下当前密钥环的信息:$ vault login hvs.BwHLss1Dmh9Be30uKVHAAlD5查看秘钥的版本$ vault read transit/ /JaC4nuuKqTjUs8=vault:v1:DSwrID5mjj2onmX7o35xMj8A6elIE9DSdirtXb7k0MyqLcC1gEE=执行下面的rewrap命令即可$ vault write transit/rewrap/orders ciphertext="vault:v1:Kz38wR3kWN+xHcW9MHEKT7FQbRTNuV/QpHHP06xCJcVfjDn3RRs="Key

    60110编辑于 2024-06-03
  • 来自专栏新智元

    1.6万亿参数,等于9个GPT-3 谷歌开源巨无霸语言模型Switch Transformer

    ---- 新智元报道 来源:外媒 编辑:yaxin 【新智元导读】「上个月,谷歌重磅推出的语言模型Switch Transformer代码已经开源,该模型可谓迄今最大语言模型,有1.6万亿参数 万亿级参数模型Switch Transformer开源了! 距GPT-3问世不到一年的时间,谷歌大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数。 ? 比之前由谷歌开发最大的语言模型T5-XXL足足快了4倍,比基本的T5模型快了7倍,简直秒杀GPT-3! GPT-3使用了惊人的1750亿参数,堪称史上最大AI模型。 结果得到一个稀疏激活(sparsely activated)模型——仅使用模型的权值子集,或仅转换模型中输入数据的参数。该参数数量惊人,但计算成本恒定。 ? 数据和权重划分策略图示 此前,谷歌当时的T5组合模型曾在SuperGLUE霸榜。 这一模型在语言模型基准测试榜SuperGLUE上得分超过T5的基础水平,也算是正常发挥。 ?

    57730发布于 2021-03-10
  • 来自专栏又见苍岚

    DE-9IM 空间关系模型

    DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,直接翻译为 维度扩展的 9 个相交模型,本文记录相关内容。 简介 DE-9IM 是Dimensionally Extended 9-Intersection Model 的缩写,DE-9IM 模型是用于描述两个 二维几何对象(点、线、面) 之间的空间关系的一种模型 维度扩展九交模型(DE-9IM)是一种拓扑模型和标准,用于描述两个区域(二维中的两个几何图形,R2)的空间关系,在几何学、点集拓扑、地理空间拓扑、以及与计算机空间分析相关的领域。 空间关系 模型主要要描述的就是二维平面下的两个几何对象之间的空间关系。 DE-9IM 模型 DE-9IM 模型把几何对象分为 内部、边界、外部 三个部分,两个几何对象这三个部分两两之间的关系,就可以组合为一个3X3大小(就是 9 个值)的矩阵,这9个值的组合,就表示两个几何对象的空间关系

    89910编辑于 2024-07-04
  • 来自专栏腾讯开源的专栏

    开源公告】WCDB(WeChat Database)于6月9日正式对外开源

    可用于修复损坏数据库 针对占用空间大小优化的数据库备份/恢复功能 日志输出重定向以及性能跟踪接口 内建用于全文搜索的 mmicu FTS3/4 分词器 WCDB(WeChat Database)于6月9日在 GMTC全球移动技术大会上正式对外开源 官方开源地址: https://github.com/Tencent/wcdb 来给Github给WCDB一个star吧!

    1.6K50发布于 2018-03-02
  • 来自专栏社区动态

    AI日报|智谱AI再降价,同时开源9B系列模型;国内外气象大模型竞逐升级

    文章推荐AI日报|国产大模型迎来新卷王,天工MoE全球首用4090推理,马斯克计划豪掷90亿购买GPUAI日报|斯坦福团队被曝抄袭国内大模型已删库跑路! 英伟达打破摩尔定律,机器人时代到来智谱AI全模型矩阵进行降价,最低可至0.06元/百万Tokens智谱AI在6月5日举办的Open Day上宣布对其全模型矩阵进行降价调整,显著降低了用户使用大模型的成本门槛 另外,智谱AI宣布开源GLM-4-9B系列模型,这一系列不仅涵盖基础模型、视觉模型,还特别设计了多种上下文长度的Chat模型,极大地丰富了应用场景。 GLM-4V-9B具备1120 * 1120高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B号称可表现出超越GPT-4-turbo https://www.ithome.com/0/773/278.htm复旦大学发布“伏羲”2.0气象大模型,还能服务新能源、航空运输等行业相较于去年推出的1.0系列,“伏羲”2.0的中期天气预报大模型和次季节大模型

    31910编辑于 2024-06-07
  • 来自专栏顶级程序员

    GitHub 上 9 月份最火的开源项目

    今天我们将继续介绍 GitHub 上 9 月份最受欢迎的 11 个开源项目,在这些项目中,你有在用或用过哪些呢? Node.js 使用高效、轻量级的事件驱动、非阻塞 I/O 模型。Node.js 的生态系统是目前最大的开源包管理系统。 BRPC 即 Baidu-RPC ,是百度开源的 RPC 框架,在百度内部被大量采用,拥有超过 60 万个实例和 500 多种服务。 9 构建 iOS 和 Android 应用的框架 matcha https://github.com/gomatcha/matcha Star 2377 Matcha 是一款在基于 Go 构建 iOS 11 开放大数据服务引擎 vespa https://github.com/vespa-engine/vespa Star 2157 Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。

    1.6K40发布于 2018-04-26
  • 来自专栏学习

    开源模型与闭源大模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,大模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的大模型开发模式:开源模型和闭源大模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 优点: 1.透明性和可验证性: 开源模型的代码和数据完全公开,任何人都可以检查模型的构建和训练过程,确保其行为的透明性。 三、开源模型与闭源大模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 3.资源共享与独占优势: 开源模型在资源共享方面表现突出,任何人都可以利用这些开源资源进行学习和研究,促进技术的普及和应用。

    1.7K10编辑于 2024-10-09
  • 来自专栏DevOps

    AI模型开源大语言模型bloom学习

    作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源大语言模型bloom及其问答系列模型bloomz。 一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的大语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本,本文中出于让大家都能动手实践的考虑,选择最小号的bloom-1b1版本,其他模型请自行尝试。 (checkpoint) #下载模型 网速足够快的情况下等一会就下载好了,但通常情况下我们得ctrl+c打断代码运行,手动下载模型存放到对应位置,即.cache\huggingface\hub\models–bigscience–bloom 下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件(不包含这个flax_model.msgpack)

    90810编辑于 2024-03-29
  • 来自专栏机器学习算法与Python学习

    【Github】9月最热门的Python开源项目

    (给机器学习算法与Python学习加星标,提升AI技能) 本文由开源最前线(ID:OpenSourceTop) 整编 9月份GitHub上最热门的Python开源项目排行已经出炉啦,一起来看看上榜详情吧 InfoSpider https://github.com/kangvcar/InfoSpider InfoSpider是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源 Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客 6 eat_pytorch_in_20_days https://github.com/lyhue1991/eat_pytorch_in_20_days 如何在20天拿下Pytorch,这本开源电子书可以告诉你答案 9 PayloadsAllTheThings https://github.com/swisskyrepo/PayloadsAllTheThings Payloads All The Things 收录可用于

    1K31发布于 2020-10-30
  • 来自专栏技术趋势

    google开源模型-gemini

    官网:https://deepmind.google/technologies/gemini/#introduction 简介 Gemini是谷歌公司发布的人工智能大模型,能够在从数据中心到移动设备等不同平台上运行 Gemini包括一套三种不同规模的模型:Gemini Ultra是最大、功能最强大的类别,被定位为GPT-4的竞争对手;Gemini Pro是一款中端型号,能够击败GPT-3.5,可扩展多种任务;Gemini “双子座”Ultra版本是首个在“大规模多任务语言理解”(MMLU)领域超越人类专家的模型。---百度百科 https://baike.baidu.com/item/Gemini/63729669? embed_other.whitelist&vd_source=7d0e42b081e08cb3cefaea55cc1fa8b7 相关能力对比 能力 基准 描述 Gemini GPT-4V(当GPT-4V不支持此功能时,列出了先前的SOTA模型 随着未来大模型的普及我们的工作肯定有一部分会通过AI来提高效率,所以可以提升了解并实践

    2.4K10编辑于 2024-01-15
  • 来自专栏xiaosen

    LLM主流开源代表模型

    LLM主流开源模型介绍 1 LLM主流大模型类别 随着ChatGPT迅速火爆,引发了大模型的时代变革,国内外各大公司也快速跟进生成式AI市场,近百款大模型发布及应用。 目前,市面上已经开源了各种类型的大语言模型,本章节我们主要介绍其中的三大类: ChatGLM-6B:衍生的大模型(wenda、ChatSQL等) LLaMA:衍生的大模型(Alpaca、Vicuna 、BELLE、Phoenix、Chimera等) Bloom:衍生的大模型(Bloomz、BELLE、Phoenix等) 2 ChatGLM-6B模型 ChatGLM-6B 是清华大学提出的一个开源 显存(推理) 最低GPU显存(高效参数微调) FP16(无量化) 13GB 14GB INT8 10GB 9GB INT4 6GB 7GB 2.5 模型特点 优点: 较低的部署门槛: INT4 精度下 小结 主要介绍了LLM主流的开源模型,对不同模型架构、训练目标、优缺点进行了分析和总结。

    63810编辑于 2024-06-04
  • 来自专栏CDA数据分析师

    9月机器学习开源项目Top10

    Mybridge 译者 | 王天宇 整理 | Jane 出品 | AI科技大本营 本文转自 AI 科技大本营,转载需授权 【导读】我们从过去一个月近 250 个有关机器学习的开源项目中 对于程序员来说,开源项目是十分有帮助的。希望你能从中找到可以激发你灵感的有趣项目。最后祝大家节日快乐! 你可以在以下几种场景使用该框架: 在几小时内建立可投入使用的机器学习应用,无需几个月的时间 轻松创建机器学习模型,即使你不是机器学习专业的 Ph.D 建立模块化的、可重复利用的机器学习工作流 ? utm_source=mybridge&utm_medium=blog&utm_campaign=read_more ▌No.8 AIF360:用于检测并去除机器学习模型偏差的开源库 这个 AI Fairness 360 Python 库包含一整套用于测量偏差的数据集和模型的指标,全部指标的解释,以及减小偏差的算法。

    59940发布于 2018-10-25
  • 来自专栏测试开发技术

    9开源自动化测试框架!

    虽然技术团队可以构建复杂的自动化测试框架,但是当可以选择现有的开源工具,库和测试框架获时,则可以选择适合自己的框架,来节省开发成本和时间。 在选择开源的自动化测试框架时,务必关注这些关键要素,比如可重用、易于维护、最少的人工干预、稳定性、可扩展等。 如何选择测试自动化框架? 4、对最新平台功能的支持:开源测试框架应定期更新,并应与最新的操作系统功能兼容。 下面根据我们的经验,为大家推荐9开源的自动化测试框架,方便朋友们参考。 07Selenium Selenium是最流行的Web应用程序开源自动化测试框架。因为它在多个操作系统之间具有交叉兼容性,所以可以用多种语言编写测试脚本。 它基于两个开源工具Selenium和Appium构建,其目标是吸引新测试人员,并允许他们使用常用的自动化操作运行测试。

    4.1K10编辑于 2021-12-13
领券