首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏FreeBuf

    AI领域的预训练与自训练

    最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。 01 使用监督学习获得预训练模型 作为实验,研究者首先在Imagenet上训练分类网络作为预训练模型,之后监督得到的预训练模型作为骨干网络在COCO数据集上进行训练。 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 统一实验条件下三种预监督方法对比 作为与监督预训练与无监督预训练的对比,对照实验表明使用自训练方法得到的预训练模型在各种数据增强模式,不同主任务训练集尺寸的情况下都能获得明显受益,且显著优于基线(不使用预训练模型 在语义分割方面,研究者也证明了自训练的预训练方式比监督式预训练可以达到更好的效果: ?

    1.8K10发布于 2020-11-16
  • 来自专栏AI

    AI训练师入行指南(四):模型训练

    ——从璞玉到珍宝:数据雕刻师的终极修炼 一、开篇在《指南(三)》中,我们根据场景选择了合适的AI模型——就像选定了雕刻和田玉的工具与技法。 现在,我们正式进入训练阶段:用特定数据集将模型从粗坯打磨成传世珍宝。 “用翡翠原石雕佛像,用和田玉刻印章——特定数据集就是AI模型的专属玉料。” 数据集的核心价值领域适配性:用医疗影像数据训练的模型,能识别癌症结节;用电商评论训练的模型,能感知用户情绪波动。 质量决定上限:标注精准的1000条数据,胜过混乱的10万条噪声数据。 成熟AI模型案例解析(1) DeepSeek-Chat(深度求索)数据燃料:千万级高质量中文对话数据(含代码、百科、小说) 训练成果:能生成符合中文语境的代码注释,甚至写出“鲁迅风格”的段子。 真正的AI匠人懂得:用正则化约束过拟合野马,以混合精度在有限资源中雕琢精品——这不是塑料玩具的组装,而是用数据刻刀打磨智能传世珠宝。

    69710编辑于 2025-03-31
  • 来自专栏AI系统

    AI系统】并行训练基本介绍

    分布式训练是一种模型训练模式,它将训练工作量分散到多个工作节点上,从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练,但将其用于大模型和计算要求较高的任务最为有利。 (Hybrid Parallel),可扩展的分布式训练组件,如:设备网格(Device Mesh)、RPC 分布式训练以及自定义扩展等。 具体来说,这些功能的实现可以分为三个主要组件:分布式数据并行训练(DDP)是一种广泛采用的单程序多数据训练范式。在 DDP 中,模型会在每个进程上复制,每个模型副本将接收不同的输入数据样本。 基于 RPC 的分布式训练(RPC)支持无法适应数据并行训练的通用训练结构,例如分布式流水线并行、参数服务器范式以及 DDP 与其他训练范式的组合。 通过充分利用这些分布式训练组件,开发人员可以在各种计算要求和硬件配置下高效地训练大模型,实现更快的训练速度和更高的模型准确性。

    66910编辑于 2024-12-07
  • 来自专栏人工智能小白

    AidLux智慧社区AI实战训练

    AidLux智慧社区AI实战训练 一、主要目标 围绕智慧社区基本定义、场景需求理解、算法设计实现、边缘设备部署等核心要点,利用边缘设备AidLux,带大家完成智慧社区里面的两个典型场景:高空抛物和车牌识别的算法开发 二、主要内容 1) 智慧社区的各类场景算法的划分; 2) 智慧社区项目落地方式; 3) 边缘设备在智慧社区中的应用场景; 4) 高空抛物场景算法设计及实现; 5) 车牌数据集整理及训练; 6) 车牌识别算法部署及验证 vd_source=fbbf0424880919cc7d918ef607fef2e6 五、心得体会 通过AidLux智慧社区AI实战训练课程的学习,掌握了智慧社区基本定义、面向应用场景的算法设计及实现、

    73700编辑于 2023-03-05
  • 来自专栏AI系统

    AI系统】感知量化训练 QAT

    本文将会介绍感知量化训练(QAT)流程,这是一种在训练期间模拟量化操作的方法,用于减少将神经网络模型从 FP32 精度量化到 INT8 时的精度损失。 感知量化训练流程 传统的训练后量化将模型从 FP32 量化到 INT8 精度时会产生较大的数值精度损失。 QAT 的流程如下图所示,首先基于预训练好的模型获取计算图,对计算图插入伪量化算子。准备好训练数据进行训练或者微调,在训练过程中最小化量化误差,最终得到 QAT 之后对神经网络模型。 微调时间为原始训练计划的 10% 感知量化训练不需要像原始训练那样耗时,因为模型已经相对较好地训练过,只需要调整到较低的精度。一般来说,微调时间为原始训练计划的 10% 是一个不错的经验法则。 QAT 和 PTQ 对比 PTQ QAT 通常较快 较慢 无需重新训练模型 需要训练/微调模型 量化方案即插即用 量化方案即插即用(需要重新训练) 对模型最终精度控制较少 对最终精度控制更多,因为量化参数是在训练过程中学习到的

    1.4K10编辑于 2024-12-06
  • 来自专栏焱融科技

    「深度解析」AI训练之数据缓存

    深度学习或者AI的出现,改变了我们以往的解决问题的编程方式,不再是代码上直观的表达。 举一个简单的例子,我们如何识别一个数字(图片)是数字9呢?非常直观的方法就是上面有一小圆圈,下面有一个竖线。 AI中有三大核心:算法,算力,数据(存储)。算法自有成熟的框架,由数学科学家去解决;计算能力由CPU甚至GPU去解决。 01 深度学习训练的基本知识 深度学习训练任务(Deep Learning Training DLT)会将训练数据作为输入,从千丝万缕的线索中通过学习并得到一个输出模型来代表训练数据。 03 缓存的设计 总结起来深度学习的特点: 需要的数据量大 多台机器多个训练并行 每个训练要运行多次 在每次训练中,所有的数据需要遍历一遍 针对不同的训练参数,以及在不同的机器上运行的训练任务,数据集相对保持固定 在上述的过程中,如果某一个训练任务相比于其他的要慢很多,那么将导致前一个chunk迟迟不能释放,通常来说,在同一个训练模型的多个任务中,每个任务的训练时间基本是相同的,但无法避免在多个不同的训练模型训练同一个数据集的场景

    1.6K40发布于 2020-07-03
  • AI&ChatGPT实战训练

    对于职场人而言,仅仅知道AI是什么、能做什么已经远远不够。未来三年(2026-2029),AI实战能力将不再是一个加分项,而是决定职业生死的核心竞争力。 哪里可以完全交给AI自动化处理?当AI产出结果出现偏差时,如何快速定位是指令模糊、数据源错误还是模型幻觉?这种“指挥千军万马(AI Agents)”的能力,将是区分普通员工与顶尖人才的分水岭。 价值注入: AI擅长处理已知模式的组合,但人类擅长在混乱中定义新问题。核心竞争力在于提出那些AI从未被训练过的问题,并在AI给出的平庸方案中注入独特的洞察和情感价值。 私有化知识库的构建: 懂得如何将企业内部的非结构化数据(会议记录、客户反馈、历史文档)整理成AI可理解的知识库,从而训练出懂业务的专属助手。 深耕行业Know-How: AI是通用的引擎,但行业知识是燃料。你对自己所在行业的理解越深,你给AI的指令就越精准,AI产出的价值就越大。“行业专家+AI高手”是无敌的组合。

    19910编辑于 2026-03-05
  • AI&ChatGPT实战训练

    当我们站在 2026 年的门槛上回望,会发现“AI&ChatGPT 实战训练营”这类概念早已不再是单纯的技术培训课程,而是一场关于人类认知升级与职业重塑的社会运动。 在三年前,人们还在争论 AI 是否会取代人类;而在今天,核心议题已经转变为:谁更善于驾驭 AI,谁就能定义未来。 未来的核心竞争力,不再是你记住了多少个指令模板,而是你是否具备"AI 原生思维"。这种思维模式要求我们将 AI 视为一个拥有无限知识库、全天候待命的“超级合伙人”,而非简单的执行工具。 在当下的“实战训练营”中,学员们的核心课题不再是“如何问出一个好问题”,而是“如何组建一支 AI 团队”。想象一下,面对一个复杂的市场营销项目:你不再需要分别联系文案、设计师、数据分析师和项目经理。 “AI&ChatGPT 实战训练营”的精神内核,其实就是鼓励每个人打破自我设限,勇敢地跳入这片未知的海域。未来不属于那些试图与机器比拼算力的人,而属于那些懂得利用机器扩展自己心智边界的人。

    11510编辑于 2026-03-06
  • AI&ChatGPT实战训练

    AI&ChatGPT 实战训练营:用大模型重构技术生产力——教育篇在数字化转型的浪潮中,教育行业正站在一个前所未有的十字路口。 通过AI辅助,教师可以为每一位学生生成专属的学习路径。智能学情诊断:AI可以瞬间分析学生的历史作业、测试数据甚至课堂互动记录,精准定位知识盲区。 我们要警惕过度依赖AI导致的思维惰性。教育的终极目标是培养独立的人格和思考的能力,AI应是辅助思考的拐杖,而非替代思考的大脑。 教师需要引导学生学会向AI提问、辨别AI生成内容的真伪,培养“人机协作”的新素养。 结语:迈向智慧教育的新纪元“AI&ChatGPT 实战训练营”所倡导的,不仅仅是学习几个提示词(Prompt)技巧,而是要建立一种全新的技术思维。

    14610编辑于 2026-03-11
  • 来自专栏小洁叫你mysql

    数据采集助力AI大模型训练

    引言    AI技术在今天已经是我们工作生活中不可或缺的工具,很多小伙伴也在致力于训练AI模型。 通过专业的代理IP服务配合高效的数据采集工具,能够为AI大模型训练提供稳定、可靠且合规的数据支持。 接下来,我们将通过两个实际案例,分别体验亮数据的抓取浏览器和AI训练数据集,看看它们如何简化数据采集流程,助力AI模型训练训练数据   在AI模型训练过程中,数据采集往往是最耗时耗力的环节。 所有数据都经过专业的清洗和结构化处理,确保可直接用于模型训练,大幅提升AI项目的开发效率。   接下来我们一起选购AI数据集。

    63610编辑于 2025-04-02
  • 来自专栏yeedomliu

    AI智能办公:从训练ChatGPT开始

    思维导图 序言 2023年2月,“河南省教育厅”公众号发布了一篇名为《中小学教师ChatGPT的23种用法》的文章,可以看出,AI技术已被应用到很多行业。 资本的涌动已蔓延至招聘市场,2023年3月中下旬,市面上的很多招聘岗位都要求应聘者掌握一定的AI技能,而且很多公司也在招聘与ChatGPT相关的职位,提供的薪资待遇通常也高于传统岗位。 为什么将编程作为ChatGPT的训练载体 序号 阶段 描述 1 监督学习 通过问题和答案进行模仿学习 2 训练奖励模型 通过答案评分和排序训练深层理解 3 强化学习-自我进化 自动检查学习成果并通过迭代训练提升性能 通过不断迭代训练,ChatGPT的性能逐步提升,最终成为一个越来越聪明的“机器人” 图2-1 编程——迈进AI数字化时代的入场券 无论是金融、医疗领域,还是物流运输、零售业、房地产、能源行业、环保行业 如何结合其他AI工具将文字快速生成PPT 通过ChatGPT完成内容的准备后,市场上还有很多其他AI工具可以辅助制作PPT,如Slidebot、Beautiful.ai和Canva等。

    58430编辑于 2023-09-03
  • 来自专栏AI系统

    AI系统】训练后量化与部署

    本文将会重点介绍训练后量化技术的两种方式:动态和静态方法,将模型权重和激活从浮点数转换为整数,以减少模型大小和加速推理。并以 KL 散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。 训练后量化的方式 训练后量化的方式主要分为动态和静态两种。 相比量化训练,静态离线量化不需要重新训练,可以快速得到量化模型。 静态离线量化的步骤如下: 加载预训练的 FP32 模型,配置用于校准的数据加载器; 读取小批量样本数据,执行模型的前向推理,保存更新待量化算子的量化 scale 等信息; 将 FP32 模型转成 INT8 通过替换块分别量化残差连接 残差连接是许多神经网络模型(如 ResNet)中的重要组成部分,因为它们有助于减轻训练期间可能出现的梯度消失问题。然而,在量化过程中,残差连接可能会带来挑战。

    1.1K10编辑于 2024-12-06
  • 转载:【AI系统】并行训练基本介绍

    分布式训练是一种模型训练模式,它将训练工作量分散到多个工作节点上,从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练,但将其用于大模型和计算要求较高的任务最为有利。 (Hybrid Parallel),可扩展的分布式训练组件,如:设备网格(Device Mesh)、RPC 分布式训练以及自定义扩展等。 具体来说,这些功能的实现可以分为三个主要组件:分布式数据并行训练(DDP)是一种广泛采用的单程序多数据训练范式。在 DDP 中,模型会在每个进程上复制,每个模型副本将接收不同的输入数据样本。 基于 RPC 的分布式训练(RPC)支持无法适应数据并行训练的通用训练结构,例如分布式流水线并行、参数服务器范式以及 DDP 与其他训练范式的组合。 通过充分利用这些分布式训练组件,开发人员可以在各种计算要求和硬件配置下高效地训练大模型,实现更快的训练速度和更高的模型准确性。

    69210编辑于 2024-12-13
  • 来自专栏数据森麟

    如何训练AI玩飞机大战游戏

    本文转载自1024开发者社区 虽然没有谷歌强大的集和DeepMind变态的算法的团队,但基于深度强化学习(Deep Q Network DQN )的自制小游戏AI效果同样很赞。先上效果图: ? AI玩游戏的姿势是这样的: ? 后来的故事大家都很熟悉了,AlphaGo击败世界冠军,星际争霸2职业选手也被打败,连大家接触较多的王者荣耀也不能幸免。 ? 图比较简单,但原理很清晰,是将Agent中的模型用CNN来代替,环境的State为游戏界面截图,输出为AI的动作,在飞机大战中就是飞机向左、向右还是不动。 /3/模型实现 3.1程序的总体结构 程序主函数在PlaneDQN.py中,与DQN模型相关的函数在BrainDQN_Nature.py中,游戏模型在game文件夹中,训练过程保存的训练值在saved_networks 飞机”,获取代码,包含训练500000次的结果。

    3.6K50发布于 2019-09-27
  • 来自专栏小洁叫你mysql

    AI大模型】训练Al大模型

    大模型超越AI 目前所指的大模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨大模型的概念、训练技术和应用领域,以及与大模型相关的挑战和未来发展方向。 训练大模型的挑战 训练大模型需要应对一系列挑战,包括: 以下是与大模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 为了克服训练大模型的挑战,研究人员提出了一些关键的技术: 以下是一些与上述技术相关的代码示例: 分布式训练: import torch import torch.nn as nn import torch.optim 未来的发展方向可能包括: 更高效的训练算法:研究人员将继续致力于开发更高效、可扩展的训练算法,以加快大模型的训练速度。

    1.5K30编辑于 2023-10-10
  • 来自专栏AI

    卷不过AI就驯服它!AI训练师速成攻略

    一、卷不过AI就驯服它!人类用一万年驯化了狼变成狗,用两百年驯服蒸汽机推动工业革命,现在,轮到我们驯化这个叫“人工智能”的新事物了。与其和AI内卷,不如让它替你打工,手握数据缰绳,让AI替你冲锋陷阵。 反手一个删除键教做人 防AI造反三件套: 正则化:给AI拴根绳,别让它撒欢儿乱跑 交叉验证:别信AI第一次考试成绩,多考几次才靠谱 四、从零开始的打怪路线1. 崩溃时刻发现训练了三天的模型,居然把CEO照片识别成土豆 凌晨两点盯着震荡的loss曲线,怀疑人生比怀疑代码更严重 3. AI训练师就是新时代的手艺人。 别被那些“人工智能威胁论”吓着——AI再牛,也得靠咱们教它怎么做人。 最后送大家一句话:与其担心被AI取代,不如亲手训练它替你打工!

    58901编辑于 2025-03-27
  • 来自专栏JAVA

    应对AI模型训练中的“Time Limit Exceeded”错误:优化训练效率

    ⏳ 应对AI模型训练中的“Time Limit Exceeded”错误:优化训练效率 大家好,我是默语,擅长全栈开发、运维和人工智能技术。 摘要 在训练AI模型时,“Time Limit Exceeded”是一个常见的错误,尤其是在资源受限的环境中。本文将探讨如何优化训练效率,解决这一错误。 关键词:AI模型,Time Limit Exceeded,训练效率,深度学习,优化训练。 引言 随着深度学习模型的复杂性增加,训练时间也显著增加。 总结 应对AI模型训练中的“Time Limit Exceeded”错误是提升训练效率的重要一环。 未来,我们可以期待自动化的模型优化工具和更智能的资源调度算法,这将进一步提升AI模型的训练效率和性能。

    71810编辑于 2024-11-22
  • ​爬虫+动态代理助力 AI 训练数据采集

    引言近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。 借助其代理服务,我们可以显著提高爬虫程序的访问成功率,从而更高效地获取数据,助力 AI 模型的训练。 维基百科是 AI 领域的重要数据来源,广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。 本次,我们将以采集维基百科数据为例,分别面向零经验的初学者和熟练开发者介绍如何结合爬虫技术与动态代理,高效获取训练数据。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上,高质量的数据是不可或缺的

    50410编辑于 2025-03-19
  • 来自专栏AI系统

    AI系统】谷歌 TPUv2 训练芯片

    谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的 TPU v1,TPU v2 将自己的设计倾向放到了训练相关的场景。 相比之下,训练过程是一个比推理复杂很多的过程。 通常来说训练过程通过设计合适 AI 模型结构以及损失函数和优化算法,将数据集以 mini-batch 反复进行前向计算并计算损失,反向计算梯度利用优化函数来更新模型,使得损失函数最小从而使得模型收敛。 训练场景难点那么细化下来,训练场景到底有哪些难点呢?更难的数据并行:推理阶段,每个推理任务都是独立的,因此 DSA 芯片集群可以横向拓展。 更具可编程性:训练算法和模型的快速变化可能会导致在芯片设计时的设计很快被淘汰果实,因此训练芯片需要有更高的可编程性从而适应日新月异的模型架构更新。

    91310编辑于 2024-11-27
  • 来自专栏云云众生s

    Kubernetes驱动3500个GPU的AI训练

    Kubernetes让GPU集群管理变得更加高效,这是CoreWeave公司Peter Salanki在KubeCon大会上的观点 译自 HPC Kubernetes: AI Training on 这是用于衡量和比较系统在训练和推理任务上的性能的基准测试。 在同一集群上,训练作业可以在Slurm上运行,与此同时,长时间运行的生产推理工作负载可以由Kubernetes本身更有效地处理,并且可以预占Slurm作业。

    76010编辑于 2024-03-28
领券