首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    语音识别开源工具PyTorch-Kaldi:兼顾Kaldi效率与PyTorch灵活性

    后来居上的 Kaldi 独领风骚,拥有活跃的技术社区,被广泛的应用在语音识别技术的研究和系统开发中。据笔者了解,很多国内语音公司的语音识别系统也有着对 Kaldi 或多或少的依赖。 PyTorch-Kaldi 论文首页 1.3 Why pytorch-kaldi? 正如论文提到的一句话,「The PyTorch-Kaldi project aims to bridge the gap between Kaldi and PyTorch」,PyTorch-Kaldi 本文的第二部分将会重点介绍一下 PyTorch-Kaldi 开源工具。 2 PyTorch-Kaldi 简介 PyTorch-Kaldi 项目的结构如图 4 所示。 pytorch-kaldi)(https://github.com/mravanelli/pytorch-kaldi%EF%BC%89) [5] 王赟.

    1.6K20发布于 2019-08-01
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析: 环境配置

    cmd.sh 硬件配置 (单机/集群配置,单机修改成run.pl) path.sh 环境变量配置 (导入环境变量) data 语料库位置 data_url 下载语料库的url (中国镜像已经关闭) . ./cmd.sh ## You'll want to change cmd.sh to something that will work on your system. . ./path.sh # 定义语料库位置和下载路径 data=/DATA/disk1/ASR data_url=www.openslr.o

    49110发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:下载数据

    输出:在$data文件夹下新增解压后的语料库(corpus和transcript文件夹,corpus含音频文件和说话人信息等)

    1.2K20发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:音素训练

    输入: 输出: steps/train_mono.sh --cmd "$train_cmd" --nj 10 \ data/train data/lang exp/mono || exit 1; 流程: 1. apply-cmvn # 对feats.scp做归一化处理 2. add-deltas # 训练数据增加差分量,比如16维度mfcc特征增加2阶差分量后变成48维度 2. gmm-init-mono # 初始化单音素模型,生成0.mdl、tree 3. compile-train-graphs #

    77730发布于 2021-07-19
  • 来自专栏博文视点Broadview

    电子书丨《Kaldi语音识别实战》

    ▊《Kaldi语音识别实战》 陈果果 等著 电子书售价:44.5元 2020年3月出版 刚刚过去的十年是语音技术发展的黄金十年。 本书以目前流行的开源语音识别工具 Kaldi 为切入点,深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。

    46410编辑于 2023-05-06
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:构建解码图

    输入:final.mdl & tree & L_disambig.fst & G.fst

    66610发布于 2021-07-20
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:三音速详解

    mkgraph.sh主要生成了HCLG.fst和words.txt这两个重要的文件,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt。HCLG是解码时的重要组成部分。HCLG.fst是由4个fst经过一系列算法

    52820发布于 2021-07-20
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:语言模型准备

    输出:data/lang (Phone Sets), (L compilation) ...

    35940发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:提取特征

    mfcc.conf,mfcc特征提取相关参数的配置(compute-mfcc-feats) --pitch-config <pitch-config-file> 提取pitch特征相关参数的配置(compute-kaldi-pitch-feats ) --pitch-postprocess-config <postprocess-config-file> (process-kaldi-pitch-feats)相关参数的配置 --paste-length-tolerance

    65020发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:数据准备

    输入:解压后的语料库路径(data/aidatatang_200zh) 输出:text, wav.scp, utt2spk, spk2utt # Data Preparation: generate text, wav.scp, utt2spk, spk2utt local/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1; 流程: 1.参数/文件夹路径等效验 2.检验是否一共有237

    92820发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:单音素解码

    gmm-latgen-faster # 生成基于GMM模型的lattice词格 2. steps/diagnostic/analyze_lats.sh 3. local/score.sh 3.1 steps/score_kaldi.sh 3.2 steps/scoring/score_kaldi_cer.sh --stage 2 备注: 解码器 目录:src/gmmbin/gmm-latgen-faster.cc 输入:final.mdl

    59630发布于 2021-07-20
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析: run.sh

    . ./cmd.sh ## You'll want to change cmd.sh to something that will work on your system. . ./path.sh # 定义语料库位置和下载路径 data=/DATA/disk1/ASR data_url=www.openslr.org/resources/62 # 下载数据 ## 输入:语料库位置($data) 数据下载路径($data_url) ## 输出:在$data文件夹下新增解压后的语料库(corpus和tran

    41110发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:词典准备

    输入:text(所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下)

    64220发布于 2021-07-19
  • 来自专栏音视频技术

    免费开放丨Kaldi语音识别理论与实践课

    ---- 距Kaldi语音识别理论与实践课上线已经过去了两个月,本课程作为语音识别领域的敲门砖,受到同学们的力荐。 鉴于kaldi在行业上越趋普及,但仍有许多AI语音爱好者及小白无法掌握和入门而被劝退,为促进产学研的快速发展,助力AI语音落地,帮助更多的同学了解Kaldi语音识别的相关知识,语音之家工匠学堂现将《Kaldi 本课程为2022年秋季正在更新的与时俱进的实战课程,由清华大学语音识别实验室讲师教研教学,如果你想独立构造一套基础的语音识别系统, 或者你是一名零基础的语音技术初学者,本门课程是对Kaldi工具分解式学习 Kaldi语音识别理论与实践 本门课程的目标是为零基础的语音技术初学者奠定理论和实践双重基础。课程内容覆盖对语音信号基础特性的解析构建基础理论认知,以及通过分步实操演示构建基础实践技能。

    1.3K30编辑于 2022-09-06
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:检查相关模型

    输入:data/local/lm/3gram-mincount/lm_unpruned.gz

    60910发布于 2021-07-19
  • 来自专栏小鹏的专栏

    kaldi -- aidatatang_200zh脚本解析:语言模型训练

    输入:data/local/train/text data/local/dict/lexicon.txt

    42010发布于 2021-07-19
  • 来自专栏机器之心

    纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

    此前,开发者常用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等,它们各有各的不足之处。 以 Kaldi 为例,它依赖大量的脚本语言,而且核心算法使用 C++ 编写,再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师,在调试的时候也会经历巨大的痛苦。 秉承着让语音开发者更轻松的原则,Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi 看到这里,Kaldi 会不会感到压力有点大了呢?

    1.1K40发布于 2021-03-30
  • 来自专栏AI科技评论

    开发 | Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了

    这一举措让Kaldi的开发者可以使用TensorFlow来部署他们的深度学习模块,同时TensorFlow的用户也可以更为方便地使用Kaldi的各种经验。 ? 一、传统ASR有哪些问题? 将TensorFlow集成到Kaldi后,他们对ASR的开发周期减少了一个数量级。 此外,TensorFlow的集成也使Kaldi所需要的数据大为简化。 将TensorFlow作为一个模块集成到Kaldi中,对于Kaldi研发人员来说,好处是巨大的。 Kaldi中的那些用于培训TensorFlow模型的模块可以不影响整体地进行替换,这对于扩展极为方便。此外,现在已经用到生产中的Kaldi系统可以用来评估这个集成模型的质量。 AI科技评论注—— 集成模型代码:https://github.com/kaldi-asr/kaldi 示例: https://github.com/kaldi-asr/kaldi/tree/master

    2.5K60发布于 2018-03-13
  • 来自专栏相约机器人

    Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

    郭一璞 假装发自 蒙特利尔 量子位 报道 你厌倦语音工具包Kaldi了么?有没有觉得它不好用? 加拿大也有一群人这么认为。 并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。 其他工具包不完美 准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。 Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码; PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛; PyTorch-Kaldi,虽然灵活了一些 业界热烈欢迎 有人觉得,Kaldi那么难用,总算有人要出新的取代它了: ? 甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它: ? 还有人称赞,这就是语音界的ImageNet时刻: ? 总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。 传送门 最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

    2.8K20发布于 2019-09-16
  • 来自专栏小鹏的专栏

    [语音识别] 05 基于GMM-HMM的语音识别系统(单音素、三音素)

    基于GMM-HMM的语音识别系统 开源的语音识别工具包 http://kaldi-asr.org/ 作者: http://www.danielpovey.com/ 为什么用Kaldi? • 语音识别全栈工具 • 易用,标准数据集标准recipe • 流行:社区活跃,几乎所有的语音公司都在用Kaldi • 优秀的设计和代码风格 单音素系统Toy Demo: https:// github.com/kaldi-asr/kaldi/blob/master/egs/yesno/s5/run.sh 单音素三音素系统Demo: https://github.com/kaldi-asr /kaldi/blob/master/egs/aishell/s5/run.sh

    2.3K00发布于 2020-03-25
领券