概述 统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。 比SRILM和IRSTLM 更快,更低的内存。 使用用户指定的RAM 进行磁盘估计。 用于时空权衡的两种数据结构。 mmap的二进制格式。或直接加载ARPA文件。 许可许可证意味着您可以分发它而不像SRILM。在下载之前没有要填写的表单。
pan.baidu.com/s/1kUZ0OK3密码: 8y6f 49:Tagging.pdf 链接: https://pan.baidu.com/s/1eSm2rsu密码: 8b4s 50:icslp2002-srilm
受邀讲者及主旨演讲介绍 本届大会邀请了 3 位讲者:斯坦福大学计算机科学语言学教授、斯坦福语言与信息研究中心(CSLI)主任 Christopher Potts,开源工具包 SRILM 作者、微软研究院的 他是著名的开源工具包 SRILM 的作者,IEEE 和 ISCA 院士。 【演讲介绍】随着对话系统变得越来越普遍,我们必须学会如何探测是谁在对系统说话,避免人和人之间的对话被机器误录入。
工具包 传统的 LM 工具包主要包括「CMU-Cambridge SLM」、「SRILM」、「IRSTLM」、「MITLM」以及「BerkeleyLM」,它们只支持带有各种平滑技术的 N 元语言模型的训练和评估
机器翻译 埃及(GIZA ++) 摩西 法老 SRILM NiuTrans 简 SAMT 语音识别 Kaldi – Kaldi是一个C ++工具,以Apache许可证V2.0发布.Kaldi适用于语音识别的研究
Stolcke, “SRILM - an extensible language modeling toolkit,” in proc.ICSLP - interspeech, Denver, Colorado
industry-scale NGram models are handled, see the SRLIM-format: http://www.speech.sri.com/projects/srilm