首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云云众生s

    用于训练多模态AI模型的5个有用数据集

    译自 5 Useful Datasets for Training Multimodal AI Models,作者 Kimberley Mok。 例如,图像字幕任务需要一个结合图像和相关描述性文本的训练数据集,这可以用来训练AI模型。训练过程结束后,就可以部署AI模型,利用自然语言处理和计算机视觉技术识别新图像的内容并生成相关的文本。 5. MINT-1T MINT-1T是一个庞大的开源数据集,来自Salesforce AI Research,包含一万亿文本标记和34亿张图像——几乎是下一个最大的开源数据集的十倍。 根据研究团队的说法,目标是创建一个包含“图像和文本的自由形式交错序列”的数据集,适合训练大型多模态AI模型。 有如此多的选择,找到合适的训练AI模型的数据集相对容易。更多信息,请查看我们关于构建多模态AI应用程序的工具的帖子,以及一些开源和小型多模态AI模型。

    1.6K10编辑于 2025-01-17
  • 来自专栏开源服务指南

    AI 模型训练与优化:提升中文理解能力 | 开源专题 No.88

    +本地 CPU/GPU 训练部署项目。 该项目开源了中文 LLaMA 模型和指令精调的 Alpaca 大模型,扩充了中文词表并使用了中文数据进行二次预训练,提升了基础语义理解能力。 主要功能、关键特性、核心优势包括: 扩充中文词表 使用中文数据进行二次预训练 开源预训练脚本、指令精调脚本 支持transformers, llama.cpp, text-generation-webui 该项目旨在持续优化 Llama 大模型在中文处理方面的性能和适应性,为用户提供丰富的中文处理能力。主要功能和核心优势包括: 提供在线体验,包含 Llama3 和 Llama2 模型。 提供中文训练模型 Atom-7B 以及官方模型 Llama3 和 Llama 提供多种使用方式,包括 Anaconda、Docker、gradio 等。 支持模型预训练、微调和量化。

    36910编辑于 2024-06-11
  • 来自专栏自然语言处理

    MMsegmentation教程 5: 训练技巧

    在线难样本挖掘 (Online Hard Example Mining, OHEM) 对于训练时采样,我们在 这里 做了像素采样器。 如下例子是使用 PSPNet 训练并采用 OHEM 策略的配置: _base_ = '. 同时使用多种损失函数 (Multiple Losses) 对于训练时损失函数的计算,我们目前支持多个损失函数同时使用。 /fcn_unet_s5-d16_64x64_40k_drive.py' model = dict( decode_head=dict(loss_decode=[dict(type='CrossEntropyLoss loss_weight 和在训练日志里的名字 loss_name。

    1.5K41编辑于 2022-03-04
  • 来自专栏叶子的开发者社区

    【yolov5目标检测】使用yolov5训练自己的训练

    到GitHub上下载整个项目的压缩包zip下来  下来解压zip,把我们刚刚的数据集也放进去 再下载一个yolov5的预训练模型,我这里选择yolov5n.pt,下下来也放到解压文件夹中 然后用pycharm 打开这个文件夹,看看哪里标红还差什么软件包没安装给安装上 配置yaml 先配置一下yolov5训练模型的yaml,我下载的是yolov5n.pt模型,因此需要配置一下yolov5n.yaml,修改nc (P3, P4, P5) ] 然后开始配置数据集的yaml,可以复制coco128.yaml的内容进行修改,新建一个xxx.yaml,修改path为数据集路径,train为训练集的相对路径,val为验证机的相对路径 然后准备开始训练,打开train.py,修改它的参数,主要是这三行代码需要修改,修改预训练模型文件的路径,配置文件的路径以及数据集配置文件的路径 parser.add_argument('-- 运行完了会生成一个runs文件夹,里面有训练出来的best.pt,和训练过程的记录 然后开始目标检测,准备好运行detect.py的参数,最基本的就是运行的权重文件,就是我们train出来的best.pt

    2K20编辑于 2023-10-23
  • 来自专栏猿说编程

    5.python中文编码

    唯一区别就是如果代码或者注释中含有中文,ASCLL编码会出现乱码,UTF-8却可以正常显示中文,即python2.x版本中文显示不正常,python3.x版本正常。 如果其他环境不是UTF-8,一旦有中文,必然乱码。 其他代码都是注释的无用代码,可以忽略不计! 猜你喜欢: 1.pycharm/python /anaconda区别和联系 2.pycharm设置头文件模板 转载请注明:猿说Python » python中文编码

    1K10发布于 2020-01-13
  • 来自专栏猿说编程

    5.python中文编码

    唯一区别就是如果代码或者注释中含有中文,ASCLL编码会出现乱码,UTF-8却可以正常显示中文,即python2.x版本中文显示不正常,python3.x版本正常。 如果其他环境不是UTF-8,一旦有中文,必然乱码。 其他代码都是注释的无用代码,可以忽略不计! unicode , gbk , gb18030……… 猜你喜欢: 1.pycharm/python /anaconda区别和联系 2.pycharm设置头文件模板 转载请注明:猿说Python » python中文编码

    1.5K20发布于 2020-03-12
  • 来自专栏机器学习AI算法工程

    高质量中文训练模型汇总

    AI转型的程序员都关注了这个号 机器学习AI算法工程   公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文训练模型 Mengzi-BERT ChineseBERT TaCL MC-BERT 二郎神 PERT MobileBERT GAU-α 全部链接  获取方式: 关注微信公众号 datayx  然后回复 中文训练 NLG系列 GPT GPT-3 NEZHA-GEN CPM-Generate T5 T5-PEGASUS Mengzi-T5 盘古α EVA BART 闻仲 余元 RWKV NLU-NLG系列 UniLM 《神经网络与深度学习》最新2018版中英PDF+源码 将机器学习模型部署为REST API FashionAI服装属性标签图像识别Top1-5方案分享 重要开源! Machine Learning Yearning 中文翻译稿 蚂蚁金服2018秋招-算法工程师(共四面)通过 全球AI挑战-场景分类的比赛源码(多模型融合) 斯坦福CS230官方指南:CNN、RNN

    2.9K10编辑于 2022-06-02
  • 来自专栏全栈程序员必看

    word2vec训练中文词向量

    中文语料库准备 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz import jieba import numpy as np filePath='corpus_1.txt' fileSegWordDonePath ='corpusSegDone_1.txt' # 打印中文列表 skip-gram模型 model = Word2Vec(LineSentence(inp), size=50, window=5, min_count=5, workers=multiprocessing.cpu_count 对英文单词进行分词,所以需要用正则表达式去除词条中的英文数据,并且去除一些单字词,还有一些词条里面较短词,如”在北京”,这类词会导致分词出现问题,也需要使用正则去除,也有简单粗暴的方法,直接保留3个汉字及以上的中文词条 # 输入语料目录:PathLineSentences(input_dir) # embedding size:256 共现窗口大小:10 去除出现次数5以下的词,多线程运行,迭代10次 model

    1.4K10编辑于 2022-07-01
  • 来自专栏朴素人工智能

    pytorch中文语言模型bert预训练代码

    这篇论文做了很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。 大部分中文语言模型都是在tensorflow上训练的,一个常见例子是中文roberta项目。 可以参考 https://github.com/brightmart/roberta_zh 使用pytorch进行中文bert语言模型预训练的例子比较少。 /bert-base-chinese) 这是最常见的中文bert语言模型,基于中文维基百科相关语料进行预训练。 eval_data_file=$TEST_FILE \ --mlm 3 ernie (https://github.com/nghuyong/ERNIE-Pytorch) ernie是百度发布的基于百度知道贴吧等中文语料结合实体预测等任务生成的预训练模型

    4.7K10发布于 2020-07-24
  • 来自专栏AI

    AI训练师入行指南(四):模型训练

    ——从璞玉到珍宝:数据雕刻师的终极修炼 一、开篇在《指南(三)》中,我们根据场景选择了合适的AI模型——就像选定了雕刻和田玉的工具与技法。 现在,我们正式进入训练阶段:用特定数据集将模型从粗坯打磨成传世珍宝。 “用翡翠原石雕佛像,用和田玉刻印章——特定数据集就是AI模型的专属玉料。” 成熟AI模型案例解析(1) DeepSeek-Chat(深度求索)数据燃料:千万级高质量中文对话数据(含代码、百科、小说) 训练成果:能生成符合中文语境的代码注释,甚至写出“鲁迅风格”的段子。 应用场景:智能客服、代码辅助生成(比GPT-4更懂中文梗) (2) 通义千问(阿里云)数据配方:金融合同、法律条文、政务文件构成的垂直领域语料 核心能力:从百页合同中精准提取关键条款,误差率<1% 真正的AI匠人懂得:用正则化约束过拟合野马,以混合精度在有限资源中雕琢精品——这不是塑料玩具的组装,而是用数据刻刀打磨智能传世珠宝。

    74310编辑于 2025-03-31
  • 来自专栏FreeBuf

    AI领域的预训练与自训练

    最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。 自训练可以分为5个步骤: 使用少量带有标签的数据训练模型 使用步骤1中得到的模型对未标记数据进行预测,预测结果作为伪标签 将标记数据和未标记数据结合标签和伪标签一起训练模型 在测试集上评估模型 重复1- 01 使用监督学习获得预训练模型 作为实验,研究者首先在Imagenet上训练分类网络作为预训练模型,之后监督得到的预训练模型作为骨干网络在COCO数据集上进行训练。 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 统一实验条件下三种预监督方法对比 作为与监督预训练与无监督预训练的对比,对照实验表明使用自训练方法得到的预训练模型在各种数据增强模式,不同主任务训练集尺寸的情况下都能获得明显受益,且显著优于基线(不使用预训练模型

    1.9K10发布于 2020-11-16
  • 来自专栏自然语言处理

    ERNIE 3.0 Titan:最强中文训练模型

    https://arxiv.org/abs/2112.12731 论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang 论文简介 本文介绍了一个中文大语言模型 作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。 为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。 具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效 最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。

    1.3K40编辑于 2022-01-06
  • 来自专栏又见苍岚

    使用原神语音训练中文 VITS 模型

    做了大量准备工作之后,本文记录使用原神语音训练中文 VITS 模型的流程。 a5 ni3 men5 shi4 na3 jia1 bao4 she4 de5 wei4 shen2 me5 zhi1 qian2 dou1 mei2 jian4 guo4 将对应音频文件放到 data 预训练 可以使用官方推荐的数据直接训练来练手以及生成预训练模型: 12 download baker data: https://www.data-baker.com/data/index/TNtts/ /data/waves 音频生成 我用云堇的音频文件训练了 VITS 模型,训练好后可以尝试输出,10000 个 Iter 后输出了一个模型,迫不及待试了一下。 核心文件为 vits_infer.py,该文件需要配置配置文件和模型路径,之后会根据配置加载语音生成模型,将 vits_infer_item.txt 中的中文转为语音,这里贴几段示例: 123 遥望星空作文独自坐在乡间的小丘上

    4.2K21编辑于 2023-07-20
  • 来自专栏siri的开发之路

    TencentPretrain框架实战之训练中文领域模型

    在上一篇文章中,笔者简要总结了目前开源的中文LLaMA模型,本篇是以比较过后选择的TencentPretrain框架作为基座,使用开源语料训练和部署中文LLaMA领域模型的过程TencentPretrain 由于LLaMA模型是英文预训练模型,在中文化过程中已经经过一次迁移学习,因此在领域化时进一步对之前学习过的数据进行回放,避免发生灾难性遗忘(模型失去通用预训练阶段学习到的知识)法律语料库。 这部分语料提供了全面的领域知识在这一阶段,收集完成预训练语料后,将语料混合并随机打乱。使用与通用预训练相同的语言模型为目标进行增量预训练,设置较低的学习率(例如2e-5)。 这一阶段的训练可以在TencentPretrain中使用现成的代码来完成:首先下载基础模型和训练框架,可以使用已经在中文训练过的Chinese-LLaMA,以7B模型为例:git clone http ://git clone https://huggingface.co/Linly-AI/ChatFlow-7Bgit clone GitHub - Tencent/TencentPretrain: Tencent

    1K00编辑于 2023-09-26
  • 来自专栏WTSolutions

    OpenAI Agents SDK 中文文档 中文教程 (5

    源码 src/agents/__init__.py Agents 代理 数据类 基地:Generic[TContext] 代理是一种 AI 模型,配置了说明、工具、护栏、交接等。 一个转弯定义为 1 AI 调用(包括可能发生的任何工具调用)。 一个转弯定义为 1 AI 调用(包括可能发生的任何工具调用)。 一个转弯定义为 1 AI 调用(包括可能发生的任何工具调用)。

    85700编辑于 2025-03-15
  • 来自专栏Python绿色通道

    Scrapy实战5:Xpath实战训练

    win32stdio.py", line , in <module> import win32api ModuleNotFoundError: No module named 'win32api' (5) (5)在jobbole.py中的的parse函数中加一个断点,然后Debug模式运行测试文件main.py 断点设置: ? 断点设置debug结果分析: ? (5)我们继续获取其他数据(复习巩固一下Xpath的用法) 为了快速、有效率的调式数据,给大家推荐一种方法: # cmd 虚拟环境中输入: scrapy shell 你要调试的网址 scrapy shell

    1K20发布于 2020-02-12
  • 来自专栏罗西的思考

    Facebook如何训练超大模型--- (5)

    [源码分析] Facebook如何训练超大模型--- (5) 目录 [源码分析] Facebook如何训练超大模型--- (5) 0x00 摘要 0x01 背景 0x02 思路 2.1 学习建议 2.2 之前文章之中我们谈到了FSDP支持混合精度训练,本篇来看看 Activation recomputation。 分布式训练 Parameter Sharding 之 Google Weight Sharding [源码分析] Facebook如何训练超大模型---(1) [源码分析] Facebook如何训练超大模型 --- (2) [源码分析] Facebook如何训练超大模型 --- (3) [源码分析] Facebook如何训练超大模型---(4) 0x01 背景 激活重新计算(Activation recomputation 0xFF https://arxiv.org/pdf/2101.06840.pdf https://www.deepspeed.ai/tutorials/zero-offload/ DeepSpeed:

    1.6K10编辑于 2022-11-28
  • 来自专栏机器之心

    RoBERTa中文训练模型,你离中文任务的「SOTA」只差个它

    参与:思源、一鸣 有了中文文本和实现模型后,我们还差个什么?还差了中文训练语言模型提升效果呀。 对于中文领域的预训练语言模型,我们最常用的就是 BERT 了,这并不是说它的效果最好,而是最为方便。 昨天,国内开发者 brightmart 开源了最新的 RoBERTa 中文训练语言模型,开发社区又有新的中文模型可以用了。 ,并逐渐开源更大的 RoBERTa 中文训练模型。 那么一般我们常用的中文训练语言模型又有什么呢? 现在,也许常用的中文训练语言模型又要再新增一项,中文 RoBERTa。

    1.9K10发布于 2019-09-08
  • 来自专栏大数据文摘

    OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年

    大数据文摘编辑组出品 今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展——由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队。 OpenAI也给了这个能力x5AI一个简单易懂的名字——OpenAI Five! 戳这里看5v5比赛视频? ? 它使用在256个GPU和128,000个CPU内核上运行的扩展版近端策略优化进行训练,这是OpenAI去年发布的1v1 Dota AI的更大规模版本。 Dota 2是一款实时战略游戏,有两支队伍,每队5个玩家,每个玩家控制一个称为“英雄”的角色。玩Dota的AI必须掌握以下几点: 1.长时间。 AI经过训练可以通过指数衰减因子γ进行加权,从而最大化指数衰减的未来奖励总和。

    1K41发布于 2018-07-31
  • 来自专栏NLP/KG

    “超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!”

    “超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!” 1.简介 目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案; 数据: 模型训练 中文名称 文件夹名称 数据 数据清洗 大模型 模型部署 图解 中文文本分类 chinese_classifier ✅ ✅ ✅ ❌ ✅ 中文gpt2 chinese_gpt2 ✅ ✅ ✅ ✅ ❌ /tree/main/Chatglm6b_ModelParallel_ptuning ✅ 在文件code02_训练模型全部流程.ipynb的cell-5代码的前面,创建一个新的cell,然后把下面的代码放到这个 检查transformers的版本,如果太低,就更新一下,建议更新:pip install transformers -U 4.中文的dolly_v2_3b模型 训练中文的dolly_v2_3b模型

    81520编辑于 2023-10-11
领券