+本地 CPU/GPU 训练部署项目。 该项目开源了中文 LLaMA 模型和指令精调的 Alpaca 大模型,扩充了中文词表并使用了中文数据进行二次预训练,提升了基础语义理解能力。 主要功能、关键特性、核心优势包括: 扩充中文词表 使用中文数据进行二次预训练 开源预训练脚本、指令精调脚本 支持transformers, llama.cpp, text-generation-webui 该项目旨在持续优化 Llama 大模型在中文处理方面的性能和适应性,为用户提供丰富的中文处理能力。主要功能和核心优势包括: 提供在线体验,包含 Llama3 和 Llama2 模型。 提供中文预训练模型 Atom-7B 以及官方模型 Llama3 和 Llama 提供多种使用方式,包括 Anaconda、Docker、gradio 等。 支持模型预训练、微调和量化。
——从璞玉到珍宝:数据雕刻师的终极修炼 一、开篇在《指南(三)》中,我们根据场景选择了合适的AI模型——就像选定了雕刻和田玉的工具与技法。 现在,我们正式进入训练阶段:用特定数据集将模型从粗坯打磨成传世珍宝。 “用翡翠原石雕佛像,用和田玉刻印章——特定数据集就是AI模型的专属玉料。” 成熟AI模型案例解析(1) DeepSeek-Chat(深度求索)数据燃料:千万级高质量中文对话数据(含代码、百科、小说) 训练成果:能生成符合中文语境的代码注释,甚至写出“鲁迅风格”的段子。 应用场景:智能客服、代码辅助生成(比GPT-4更懂中文梗) (2) 通义千问(阿里云)数据配方:金融合同、法律条文、政务文件构成的垂直领域语料 核心能力:从百页合同中精准提取关键条款,误差率<1% 真正的AI匠人懂得:用正则化约束过拟合野马,以混合精度在有限资源中雕琢精品——这不是塑料玩具的组装,而是用数据刻刀打磨智能传世珠宝。
最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。 01 使用监督学习获得预训练模型 作为实验,研究者首先在Imagenet上训练分类网络作为预训练模型,之后监督得到的预训练模型作为骨干网络在COCO数据集上进行训练。 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 统一实验条件下三种预监督方法对比 作为与监督预训练与无监督预训练的对比,对照实验表明使用自训练方法得到的预训练模型在各种数据增强模式,不同主任务训练集尺寸的情况下都能获得明显受益,且显著优于基线(不使用预训练模型 在语义分割方面,研究者也证明了自训练的预训练方式比监督式预训练可以达到更好的效果: ?
这篇论文做了很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。 大部分中文语言模型都是在tensorflow上训练的,一个常见例子是中文roberta项目。 可以参考 https://github.com/brightmart/roberta_zh 使用pytorch进行中文bert语言模型预训练的例子比较少。 /bert-base-chinese) 这是最常见的中文bert语言模型,基于中文维基百科相关语料进行预训练。 eval_data_file=$TEST_FILE \ --mlm 3 ernie (https://github.com/nghuyong/ERNIE-Pytorch) ernie是百度发布的基于百度知道贴吧等中文语料结合实体预测等任务生成的预训练模型
中文语料库准备 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz import jieba import numpy as np filePath='corpus_1.txt' fileSegWordDonePath ='corpusSegDone_1.txt' # 打印中文列表 对英文单词进行分词,所以需要用正则表达式去除词条中的英文数据,并且去除一些单字词,还有一些词条里面较短词,如”在北京”,这类词会导致分词出现问题,也需要使用正则去除,也有简单粗暴的方法,直接保留3个汉字及以上的中文词条 从训练日志可以看到,其过程是先依次读取每个文件,生成总的vocab词典,用来统计count,训练时用来过滤min_count小于我们制定数量的词,vocab总词典生成后,会依次读入语料进行model训练 ,训练速度非常快。
向AI转型的程序员都关注了这个号 机器学习AI算法工程 公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型 Mengzi-BERT ChineseBERT TaCL MC-BERT 二郎神 PERT MobileBERT GAU-α 全部链接 获取方式: 关注微信公众号 datayx 然后回复 中文训练 机器学习算法AI大数据技术 搜索公众号添加: datanlp 长按图片,识别二维码 ---- 阅读过本文的人还看了以下文章: TensorFlow 2.0深度学习案例实战 基于40万表格数据集TableBank ,用MaskRCNN做表格检测 《基于深度学习的自然语言处理》中/英PDF Deep Learning 中文版初版-周志华团队 【全套视频课】最全的目标检测算法系列讲解,通俗易懂! Machine Learning Yearning 中文翻译稿 蚂蚁金服2018秋招-算法工程师(共四面)通过 全球AI挑战-场景分类的比赛源码(多模型融合) 斯坦福CS230官方指南:CNN、RNN
https://arxiv.org/abs/2112.12731 论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang 论文简介 本文介绍了一个中文大语言模型 作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。 为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。 具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效 最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。
做了大量准备工作之后,本文记录使用原神语音训练中文 VITS 模型的流程。 monotonic_alignpython setup.py build_ext --inplace 生成语音标注 根据 原神——提瓦特大陆语音分类识别 筛选的音频,使用 科大讯飞语音识别 结果,运用 Python 识别中文生成带声调的拼音 预训练 可以使用官方推荐的数据直接训练来练手以及生成预训练模型: 12 download baker data: https://www.data-baker.com/data/index/TNtts/ /data/waves 音频生成 我用云堇的音频文件训练了 VITS 模型,训练好后可以尝试输出,10000 个 Iter 后输出了一个模型,迫不及待试了一下。 核心文件为 vits_infer.py,该文件需要配置配置文件和模型路径,之后会根据配置加载语音生成模型,将 vits_infer_item.txt 中的中文转为语音,这里贴几段示例: 123 遥望星空作文独自坐在乡间的小丘上
前情提要:LLaMA 是由 Facebook Research 发布的开源大规模语言模型,包含7B、13B、33B、65B等模型量级,不论是在英文还是中文场景,都吸引了大量开发者和研究人员基于LLaMA 在上一篇文章中,笔者简要总结了目前开源的中文LLaMA模型,本篇是以比较过后选择的TencentPretrain框架作为基座,使用开源语料训练和部署中文LLaMA领域模型的过程TencentPretrain 由于LLaMA模型是英文预训练模型,在中文化过程中已经经过一次迁移学习,因此在领域化时进一步对之前学习过的数据进行回放,避免发生灾难性遗忘(模型失去通用预训练阶段学习到的知识)法律语料库。 这一阶段的训练可以在TencentPretrain中使用现成的代码来完成:首先下载基础模型和训练框架,可以使用已经在中文上训练过的Chinese-LLaMA,以7B模型为例:git clone http ://git clone https://huggingface.co/Linly-AI/ChatFlow-7Bgit clone GitHub - Tencent/TencentPretrain: Tencent
参与:思源、一鸣 有了中文文本和实现模型后,我们还差个什么?还差了中文预训练语言模型提升效果呀。 对于中文领域的预训练语言模型,我们最常用的就是 BERT 了,这并不是说它的效果最好,而是最为方便。 昨天,国内开发者 brightmart 开源了最新的 RoBERTa 中文预训练语言模型,开发社区又有新的中文模型可以用了。 ,并逐渐开源更大的 RoBERTa 中文预训练模型。 那么一般我们常用的中文预训练语言模型又有什么呢? 现在,也许常用的中文预训练语言模型又要再新增一项,中文 RoBERTa。
“超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!” 1.简介 目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案; 数据: 模型训练 中文名称 文件夹名称 数据 数据清洗 大模型 模型部署 图解 中文文本分类 chinese_classifier ✅ ✅ ✅ ❌ ✅ 中文gpt2 chinese_gpt2 ✅ ✅ ✅ ✅ ❌ 谁创造了你 ''' q1 = q1.split('\n') a1 = ["我是良睦路程序员开发的一个人工智能助手", "我是良睦路程序员再2023年开发的AI人工智能助手"] import random 检查transformers的版本,如果太低,就更新一下,建议更新:pip install transformers -U 4.中文的dolly_v2_3b模型 训练中文的dolly_v2_3b模型
然而,今天给大家分享的这篇文章旨在从头开始训练中文大模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。 ChatGLM是一个早期的例子,它在预训练阶段采用了中文和英文Token的等量分布,最终形成了一个精通双语的模型。尽管如此,以中文为基础训练的LLM进行多语言泛化仍然具有不确定性。 尽管中文互联网上有大量的数据可用,但中文预训练数据集相对较少,这引起了对多样性和质量的担忧。 总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的大模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。 基于以上考虑,「本文作者挑战以英语为中心的主流模型训练范式,考虑以中文为基础的预训练模型是否可以激活对其它语言的能力」。
安装肖涵博士的bert-as-service: pip install bert-serving-server pip install bert-serving-client 下载训练好的Bert中文词向量 找到训练好的词向量模型并解压,路径如下:G:\python\bert_chinese\chinese_L-12_H-768_A-12 打开cmd窗口,进入到bert-serving-start.exe 获取Bert预训练好的中文词向量: from bert_serving.client import BertClient bc = BertClient() print(bc.encode([“NONE
中文标点符号模型 本想是基于PaddleSpeech开发的中文标点符号模型,默认使用的预训练模型为ernie-3.0-medium-zh。 ├── dataset │ ├── dev.txt │ ├── punc_vocab │ ├── test.txt │ └── train.txt 训练 准备好数据集之后,就可以执行train.py 开始训练,如果是自定义数据集,在开始训练之前,要注意修改类别数量参数num_classes,执行命令如下,第一次训练时会下载ernie预训练模型,所以需要联网。 python train.py 训练输出的日志: ----------- Configuration Arguments ----------- batch_size: 32 dev_data_path INFO ] export_model:main:43 - 模型导出成功,保存在:models/pun_models 给文本添加标点符号 使用导出的预测模型为文本添加标点符号,通过text参数指定中文文本
训练一个图片分类器 我们将按顺序做以下步骤: 通过torchvision加载CIFAR10里面的训练和测试数据集,并对数据进行标准化 定义卷积神经网络 定义损失函数 利用训练数据训练网络 利用测试数据测试网络
比如说最简单的中文语料,只需要一段段自然的中文文本就行了,我们可以用它训练语言模型或词嵌入等模型,然而实际上我们会发现公开的大型语料真的很少。 这些都是很难克服的问题,可能真正要训练一个顶尖的模型,还是需要从百度百科或主流媒体爬取大型语料。我们也试过训练简单的词嵌入模型,最终发现也许维基百科提供的中文语料接口是比较简单且大型的数据集。 数据去重并分成三个部分:训练集(243 万)、验证集(7.7 万)、测试集(数万,不提供下载)。 该数据集除了用于预训练语言模型与词嵌入模型,还能用于训练标题生成模型、关键词生成模型或给新闻分类。 下载地址:https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg 密码:film 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练 下载地址:https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA 密码:fu45 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用
作者 | 高开远,上海交通大学,自然语言处理研究方向 最近在工作上处理的都是中文语料,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对之后还是觉得百度的 表示该句子对是否存在上下句的关系(0为无1为有) reader.pretraining.py中的parse_line函数. 2.2 关于mask策略 batching.py 我们知道,相较于BERT,ERNIE最大的改进就是中文 根据你的任务来选择预训练模型。每个模型的训练大规模语料是不一样的,这就说明了有些模型天生就是更加适用于某个领域。 目前来说,对于中文领域的NLP任务,可以优先选择ERNIE。听小道消息说,ERNIE 2.0快出来了,据说效果很猛。 不要过分迷信预训练模型!!! : https://www.zhihu.com/question/316140575 《中文任务全面超越 BERT:百度正式发布NLP预训练模型ERNIE》 https://www.jiqizhixin.com
关于中文的识别,效果比较好而且开源的应该就是Tesseract-OCR了,所以自己亲身试用一下,分享到博客让有同样兴趣的人少走弯路。 文中所用到的身份证图片资源是百度找的,如有侵权可联系我删除。 一、准备工作 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。 所以我们要训练自己的字库。 三、训练 1、将图片转换成tif格式,用于后面生成box文件。可以通过画图,然后另存为tif即可。 更改图片名字,这个是有要求的=。= tif文面命名格式[lang]. 3、打开jTessBoxEditor矫正错误并训练 打开train.bat 找到tif图,打开,并校正。 4、训练。 只要在命令行输入命令即可。 得到训练好的字库。
分布式训练是一种模型训练模式,它将训练工作量分散到多个工作节点上,从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练,但将其用于大模型和计算要求较高的任务最为有利。 (Hybrid Parallel),可扩展的分布式训练组件,如:设备网格(Device Mesh)、RPC 分布式训练以及自定义扩展等。 具体来说,这些功能的实现可以分为三个主要组件:分布式数据并行训练(DDP)是一种广泛采用的单程序多数据训练范式。在 DDP 中,模型会在每个进程上复制,每个模型副本将接收不同的输入数据样本。 基于 RPC 的分布式训练(RPC)支持无法适应数据并行训练的通用训练结构,例如分布式流水线并行、参数服务器范式以及 DDP 与其他训练范式的组合。 通过充分利用这些分布式训练组件,开发人员可以在各种计算要求和硬件配置下高效地训练大模型,实现更快的训练速度和更高的模型准确性。
AidLux智慧社区AI实战训练 一、主要目标 围绕智慧社区基本定义、场景需求理解、算法设计实现、边缘设备部署等核心要点,利用边缘设备AidLux,带大家完成智慧社区里面的两个典型场景:高空抛物和车牌识别的算法开发 二、主要内容 1) 智慧社区的各类场景算法的划分; 2) 智慧社区项目落地方式; 3) 边缘设备在智慧社区中的应用场景; 4) 高空抛物场景算法设计及实现; 5) 车牌数据集整理及训练; 6) 车牌识别算法部署及验证 1) 增加PIL图像中文显示调用方式 图片 2) 修改函数调用方式 图片 3) 增加视频调用方式 图片 图片 图片 图片 4) 演示视频1(中文字符识别) B站: https://www.bilibili.com vd_source=fbbf0424880919cc7d918ef607fef2e6 五、心得体会 通过AidLux智慧社区AI实战训练课程的学习,掌握了智慧社区基本定义、面向应用场景的算法设计及实现、 移动端部署测试等等,印象深刻的是自己查阅背景建模、目标识别等相关基础理论,动手实践了相关代码实现及参数调整,课程内容安排比较合理,通过作业实践了相关技巧,通过查阅网站资源掌握了opencv图片显示中文字符方法