首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Juicedata

    如何借助 JuiceFS 为 AI 模型训练提速 7

    本文来自:JuiceFS官网博客 背景 海量且优质的数据集是一个好的 AI 模型的基石之一,如何存储、管理这些数据集,以及在模型训练时提升 I/O 效率一直都是 AI 平台工程师和算法科学家特别关注的事情 我们也逐渐看到容器化成为 AI 训练的趋势,利用容器可以快速弹性伸缩的特点,结合公有云的资源池,能够最大化资源利用率,为企业大大节约成本。 对于 AI 模型训练场景来说,第一个 epoch 完成之后后续的计算都可以直接从缓存中获取训练数据,极大地提升了训练效率。 当打开一个文件时(即 open() 请求),为了保证一致性[7],JuiceFS 默认都会请求元数据引擎以获取最新的元信息。 总结及展望 本文介绍了在 AI 模型训练中如何充分利用 JuiceFS 的特性来为训练提速,相比直接从对象存储读取数据集,通过 JuiceFS 可以带来最多 7 倍的性能提升。

    1.1K20编辑于 2021-12-10
  • 来自专栏机器学习算法与Python学习

    Torch7模型训练

    Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块,这里再次基础上再给出一些上Container、 Transfer Functions Layers和 Simple Layers模块的理解 并在后面给出一些简单的模型训练方法。下述程序在itorch qtconsole下运行。 上一篇博文讲到Module主要有四个函数(详细见Torch7搭建卷积神经网络详细教程),但是注意以下几点:forward函数的input必须和backward的函数的input一致,否则梯度更新会有问题 上述函数的具体使用方法可以看Torch7的官方API以及帮助文档。接下来仅介绍一些模型训练所需要的关键函数。 将image包导入当前运行环境,随机生成一张1通道32x32的彩色图像,如下 ? 然后,使用神经网络net的updateParameters()更新权重,该方法的输入值为学习率,即完成了训练

    1K130发布于 2018-04-08
  • 来自专栏开源服务指南

    AI 模型训练与优化:提升中文理解能力 | 开源专题 No.88

    +本地 CPU/GPU 训练部署项目。 该项目开源了中文 LLaMA 模型和指令精调的 Alpaca 大模型,扩充了中文词表并使用了中文数据进行二次预训练,提升了基础语义理解能力。 主要功能、关键特性、核心优势包括: 扩充中文词表 使用中文数据进行二次预训练 开源预训练脚本、指令精调脚本 支持transformers, llama.cpp, text-generation-webui 等生态 已开源多个版本的模型(7B、13B、33B) karpathy/llama2.chttps://github.com/karpathy/llama2.c Stars: 16.4k License 提供中文训练模型 Atom-7B 以及官方模型 Llama3 和 Llama 提供多种使用方式,包括 Anaconda、Docker、gradio 等。 支持模型预训练、微调和量化。

    36910编辑于 2024-06-11
  • 来自专栏机器之心

    7 Papers | Transformer研究井喷式涌现;最大中文多模态预训练数据集

    Rui Men、An Yang 等 论文链接:https://arxiv.org/pdf/2103.00823v1.pdf 摘要:在这篇论文中,来自阿里巴巴和清华大学的 25 位研究者构建了规模最大的中文多模态预训练数据集 具体而言,他们提出了一种被称为 M6 的跨模态预训练方法,将多模态转换为多模态多任务 Mega-transformer,以便对单模态和多模态的数据进行统一的预训练。 研究者将模型的大小扩展到 100 亿和 1000 亿个参数,并建立了规模最大的中文训练模型。他们将该模型应用于一系列下游应用,并展示了其与强基准相比的出色性能。 预训练数据集统计。 ? M6 语料库中多模态数据的示例。 ? M6 预训练任务的流程。 推荐:规模最大的中文多模态预训练数据集。 论文 7:Self-supervised Pretraining of Visual Features in the Wild 作者:Priya Goyal、Mathilde Caron、Benjamin

    95110发布于 2021-03-14
  • 来自专栏WTSolutions

    OpenAI Agents SDK 中文文档 中文教程 (7

    来自 LLM 的流式处理事件。这些是 “原始” 事件,即它们直接传递 来自 LLM。

    50810编辑于 2025-03-18
  • 来自专栏杨熹的专栏

    中文NLP笔记:7. 基于HMM的中文分词

    Viterbi 算法   一般流程为:   语料准备     爬取文本,用空格隔开   定义 HMM 中的状态,初始化概率,以及中文停顿词   将 HMM 模型封装为独立的类 HMM_Model     load()     用来加载模型     do_train()     用来训练模型     训练函数输入观测序列和状态序列进行训练, 依次更新各矩阵数据     get_prob pass         #模型分词预测         def lcut(self, sentence):             pass     继承 HMM_Model 类并实现中文分词器训练 、分词功能     init(),构造函数,定义了初始化变量     read_txt(),加载训练语料,读入文件为 txt,并且 UTF-8 编码,防止中文出现乱码     train(),根据单词生成观测序列和状态序列 () 方法加载语料,再通过 train() 进行在线训练   模型测试 ---- 学习资料: 《中文自然语言处理入门实战》

    1.9K30发布于 2019-02-20
  • 来自专栏运维技术迷

    Cenot7 中文乱码解决

    LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= 查看已安装的语言包 local -a查看,如果有返回zh_CN就说明已经有中文包了 @lnmp default]# locale -a | grep "zh_CN" zh_CN zh_CN.gb18030 zh_CN.gb2312 zh_CN.gbk zh_CN.utf8 修改语言为中文

    57420发布于 2020-04-22
  • 来自专栏机器学习AI算法工程

    高质量中文训练模型汇总

    AI转型的程序员都关注了这个号 机器学习AI算法工程   公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文训练模型 Mengzi-BERT ChineseBERT TaCL MC-BERT 二郎神 PERT MobileBERT GAU-α 全部链接  获取方式: 关注微信公众号 datayx  然后回复 中文训练 机器学习算法AI大数据技术  搜索公众号添加: datanlp 长按图片,识别二维码 ---- 阅读过本文的人还看了以下文章: TensorFlow 2.0深度学习案例实战 基于40万表格数据集TableBank ,用MaskRCNN做表格检测 《基于深度学习的自然语言处理》中/英PDF Deep Learning 中文版初版-周志华团队 【全套视频课】最全的目标检测算法系列讲解,通俗易懂! Machine Learning Yearning 中文翻译稿 蚂蚁金服2018秋招-算法工程师(共四面)通过 全球AI挑战-场景分类的比赛源码(多模型融合) 斯坦福CS230官方指南:CNN、RNN

    2.9K10编辑于 2022-06-02
  • 来自专栏全栈程序员必看

    word2vec训练中文词向量

    中文语料库准备 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz import jieba import numpy as np filePath='corpus_1.txt' fileSegWordDonePath ='corpusSegDone_1.txt' # 打印中文列表 对英文单词进行分词,所以需要用正则表达式去除词条中的英文数据,并且去除一些单字词,还有一些词条里面较短词,如”在北京”,这类词会导致分词出现问题,也需要使用正则去除,也有简单粗暴的方法,直接保留3个汉字及以上的中文词条 从训练日志可以看到,其过程是先依次读取每个文件,生成总的vocab词典,用来统计count,训练时用来过滤min_count小于我们制定数量的词,vocab总词典生成后,会依次读入语料进行model训练训练速度非常快。

    1.4K10编辑于 2022-07-01
  • 来自专栏朴素人工智能

    pytorch中文语言模型bert预训练代码

    这篇论文做了很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。 大部分中文语言模型都是在tensorflow上训练的,一个常见例子是中文roberta项目。 可以参考 https://github.com/brightmart/roberta_zh 使用pytorch进行中文bert语言模型预训练的例子比较少。 /bert-base-chinese) 这是最常见的中文bert语言模型,基于中文维基百科相关语料进行预训练。 eval_data_file=$TEST_FILE \ --mlm 3 ernie (https://github.com/nghuyong/ERNIE-Pytorch) ernie是百度发布的基于百度知道贴吧等中文语料结合实体预测等任务生成的预训练模型

    4.7K10发布于 2020-07-24
  • 来自专栏AI

    AI训练师入行指南(四):模型训练

    ——从璞玉到珍宝:数据雕刻师的终极修炼 一、开篇在《指南(三)》中,我们根据场景选择了合适的AI模型——就像选定了雕刻和田玉的工具与技法。 现在,我们正式进入训练阶段:用特定数据集将模型从粗坯打磨成传世珍宝。 “用翡翠原石雕佛像,用和田玉刻印章——特定数据集就是AI模型的专属玉料。” 成熟AI模型案例解析(1) DeepSeek-Chat(深度求索)数据燃料:千万级高质量中文对话数据(含代码、百科、小说) 训练成果:能生成符合中文语境的代码注释,甚至写出“鲁迅风格”的段子。 应用场景:智能客服、代码辅助生成(比GPT-4更懂中文梗) (2) 通义千问(阿里云)数据配方:金融合同、法律条文、政务文件构成的垂直领域语料 核心能力:从百页合同中精准提取关键条款,误差率<1% 真正的AI匠人懂得:用正则化约束过拟合野马,以混合精度在有限资源中雕琢精品——这不是塑料玩具的组装,而是用数据刻刀打磨智能传世珠宝。

    74310编辑于 2025-03-31
  • 来自专栏FreeBuf

    AI领域的预训练与自训练

    最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。 01 使用监督学习获得预训练模型 作为实验,研究者首先在Imagenet上训练分类网络作为预训练模型,之后监督得到的预训练模型作为骨干网络在COCO数据集上进行训练。 对于使用监督算法得到的预训练模型,研究者分别在使用了四种不同强度的数据增强的Imagenet上分别训练了EfficientNet-B7,之后将这些模型当作骨干网络在COCO数据集上训练目标检测模型。 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? EfficientNet-B7 和L2进行自训练相比监督式预训练可以达到更高的精度 03 结论 通过以上一系列实验证明,监督预训练方法与无监督预训练方法对学习通用表示形式具有局限性,其原因研究者猜测,这两种预训练方法无法意识到当下要关注的任务

    1.9K10发布于 2020-11-16
  • 来自专栏自然语言处理

    ERNIE 3.0 Titan:最强中文训练模型

    https://arxiv.org/abs/2112.12731 论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang 论文简介 本文介绍了一个中文大语言模型 作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。 为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。 具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效 最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。

    1.3K40编辑于 2022-01-06
  • 来自专栏又见苍岚

    使用原神语音训练中文 VITS 模型

    做了大量准备工作之后,本文记录使用原神语音训练中文 VITS 模型的流程。 pwd=yn60 Google: https://drive.google.com/drive/folders/1sioiNpebOLyCmHURgOgJ7ppWI7b-7Rb5? 预训练 可以使用官方推荐的数据直接训练来练手以及生成预训练模型: 12 download baker data: https://www.data-baker.com/data/index/TNtts/ /data/waves 音频生成 我用云堇的音频文件训练了 VITS 模型,训练好后可以尝试输出,10000 个 Iter 后输出了一个模型,迫不及待试了一下。 核心文件为 vits_infer.py,该文件需要配置配置文件和模型路径,之后会根据配置加载语音生成模型,将 vits_infer_item.txt 中的中文转为语音,这里贴几段示例: 123 遥望星空作文独自坐在乡间的小丘上

    4.2K21编辑于 2023-07-20
  • 来自专栏刷题笔记

    【2020HBU天梯赛训练7-7 装睡

    7-7 装睡 你永远叫不醒一个装睡的人 —— 但是通过分析一个人的呼吸频率和脉搏,你可以发现谁在装睡!医生告诉我们,正常人睡眠时的呼吸频率是每分钟15-20次,脉搏是每分钟50-70次。

    82130发布于 2020-06-23
  • 来自专栏siri的开发之路

    TencentPretrain框架实战之训练中文领域模型

    前情提要:LLaMA 是由 Facebook Research 发布的开源大规模语言模型,包含7B、13B、33B、65B等模型量级,不论是在英文还是中文场景,都吸引了大量开发者和研究人员基于LLaMA 在上一篇文章中,笔者简要总结了目前开源的中文LLaMA模型,本篇是以比较过后选择的TencentPretrain框架作为基座,使用开源语料训练和部署中文LLaMA领域模型的过程TencentPretrain 由于LLaMA模型是英文预训练模型,在中文化过程中已经经过一次迁移学习,因此在领域化时进一步对之前学习过的数据进行回放,避免发生灾难性遗忘(模型失去通用预训练阶段学习到的知识)法律语料库。 这一阶段的训练可以在TencentPretrain中使用现成的代码来完成:首先下载基础模型和训练框架,可以使用已经在中文训练过的Chinese-LLaMA,以7B模型为例:git clone http ://git clone https://huggingface.co/Linly-AI/ChatFlow-7Bgit clone GitHub - Tencent/TencentPretrain: Tencent

    1K00编辑于 2023-09-26
  • 来自专栏Mac资源分享

    Rhinoceros 7 Mac中文激活版(犀牛7 mac版)

    犀牛7 mac版哪里可以下载? 设计行业的朋友应该都了解Rhinoceros 7中文版这款著名的3D建模设计软件,犀牛7 mac版能轻易整合3DS MAX与Softimage的模型功能部分,可以建立、编辑、分析及转译NURBS,兼容最新的 图片犀牛7 mac版功能亮点不受限制的自由形式3D建模工具,例如仅在成本高达20到50倍的产品中找到的工具。建模您可以想象的任何形状。从飞机到珠宝的任何设计,原型,工程,分析和制造所需的准确性。

    40420编辑于 2022-08-08
  • 来自专栏算法工程师的学习日志

    Python基础训练100题-7

    题目: 请输入星期几的第一个字母来判断一下是星期几,如果第一个字母一样,则继续判断第二个字母。

    32330编辑于 2022-07-27
  • VFP AI 插件开发花絮7:基于策略模式的词性标注系统(中文)

    在完成基于策略模式的词性标注系统(英文)后,中文是必须处理的。因此,才有了这个中文的词性标注系统。同样,它也是由 VFP AI 插件提供的。 嗯嗯,插件还是很给力了 在非 AI 的世界里,现在的结果,完全不可想象。也许我直接就放弃了(一来对相关算法的陌生;另一方面是稍显庞大的代码量--这些按最佳状态计算,恐怕一个月能搞定就不错了 )。

    11110编辑于 2026-03-10
  • 来自专栏机器之心

    RoBERTa中文训练模型,你离中文任务的「SOTA」只差个它

    参与:思源、一鸣 有了中文文本和实现模型后,我们还差个什么?还差了中文训练语言模型提升效果呀。 对于中文领域的预训练语言模型,我们最常用的就是 BERT 了,这并不是说它的效果最好,而是最为方便。 昨天,国内开发者 brightmart 开源了最新的 RoBERTa 中文训练语言模型,开发社区又有新的中文模型可以用了。 ,并逐渐开源更大的 RoBERTa 中文训练模型。 那么一般我们常用的中文训练语言模型又有什么呢? 现在,也许常用的中文训练语言模型又要再新增一项,中文 RoBERTa。

    1.9K10发布于 2019-09-08
领券