银河贵宾厅网页登录_百度ICML论文:端对端中英文语音识别

本文摘要:论文作者:Dariodeitaitanubhai,Erichattenberg,CarlCase,JaredCasper,BryanCatanzaro,JingDongChen,MikeChrzanowsibaiduSA,Inc.Adamcoates,GregDingChen因为这种方法用神经网替代了整个人工设计的管状网络,让我们多种多样的语音来适应环境,包括噪音、口音和语言。

银河贵宾厅网站

网络输入的概率约为6000个字符,包括罗马字母。因为中英语mRNA很少见。我们在评价时间整理了词汇错误,如果输出的文字不能输出这一套。

这不是大问题。因为我们的测试集只有0.74%远远超过词汇文字。我们使用的文字等级以中文为语言模型,语言在文本中经常被分割。

在6.2部分,我们展示了我们的语音模式和英语语音模式一样有结构性的改良,同时将一种语言转换成另一种语言获得了建模科学知识。4.系统优化我们的网络有数千万的参数,与训练实验有数十个单一精度exaFLOPs。由于我们评价数据和模型能力各不相同的训练速度,根据高性能的计算设施(HPC)建立了高度优化的训练体系。许多框架不存在于深度网络中的平行机械,但我们发现处理能力经常受到不优化的路线的干扰,这些干扰当然是指出的。

因此,我们将重点放在优化作为培训的路径上。具体来说,我们为关闭MPI创建了自定义的All-Reduce代码,通过GPU的多个节点总结了梯度,为GPU的缓慢构筑开发了CTC,用于自定义的存储器分配器。也就是说,这些技术需要在各节点保持理论的峰值性能值为45%。

我们的训练在多个GPU工作中分段与SGD实时,各GPU用于当地的复印件到达现在的Minibatch,与其他GPUS交换计算梯度。我们更偏向于实时SGD,因为它可以重复生产,这可以增进找到和维护。

在这个设定中,GPU为了不浪费计算周期,(用于All-Reduce(仅增加)的操作者),以免浪费计算周期。以前的工作用于异步改版,减轻了这个问题。无视,我们着重优化All-Reduce操作者,构建4X-21X加速,利用技术为特定网络工作增加CPU-GPU交流。

在某种程度上,为了提高总体计算,我们用于Nervana系统的高度优化核心,NVIDIA用于深度自学。我们在某种程度上发现,减少GPU和CPU之间的实时次数,定制的存储分配例程在优化性能方面至关重要。CTC成本计算占运行时间的显着部分。

由于没有高度优化的CTC代码,我们开发了慢慢的GPU执行方法,增加了10-20%的总训练时间。5.培训数据大规模深度自学系统必须非常丰富的标记培训数据。

为了训练我们的英语模式,我们使用11940小时含有800万个标志的发言和普通话系统使用9400小时含有1100万个发言标记的发言语音。5.1训练集结构英语和普通话的一部分数据集是指制作噪音剪辑的原始数据。

为了将音频段分成几秒长的段落,根据mRNA的复印件进行校准。对于价格相等的音频mRNA(x、y),最有可能的校准是基本的viterbi编辑,用于RNN模型培养CTC。由于CTC损耗函数集和所有校准,这并不能确保校准的准确性。但是,我们发现这种方法在使用双向RNN时可以正确对准。

为了过滤器质量好的录音,我们制作了具有以下功能的非常简单的分类器:起始材料CTC费用,起始材料CTC费用基于序列长度,CTC费用基于录音长度标准化,句子长度与mRNA长度的比率,mRNA中的单词数和字符数。我们收集来源标签制作这个数据集。关于英语数据集,发现过滤管可以将WER从17%增加到5%,同时保持50%以上的例子。

另外,在各个阶段,动态地加入特有噪音从0dB到30dB之间的SNR,强化数据集。5.2图形数据在表3中显示了WER减少训练数据集的效果。这些都是在训练前从数据中随机取样的。

对于每个数据集,模式已经训练到20个阶段,早期不会因为错误而停止,弯曲开发的一套以避免过度数值。训练集减少10个因素,WER不会上升到40%。我们也关注WER(接近60%)通常和喧闹的数据集之间的差距,这意味着更好的数据在这两种情况下也适合某种程度。

表3:英语WER在普通和喧闹中集中在减少训练集中。模型为9层(2层为2D卷积和7层周期),具有68M参数。

6.结果为了评价我们的语音系统对现实世界的适用性,我们根据大量的测试集进行评价。我们用于各种公开发表的标准和一些测试套的内部收集。所有的模式都被训练了20个阶段,这些阶段作为全英语和全中文的数据集,例如第5节。

我们与Nesterov动力一起用于随机梯度的上升,同时minibatch有512句话。梯度范围达到400门槛时,新调整为400。

自由选择训练期间,从继续实施最差的模型开始评价。当每个阶段都有1.2的持续因素时,自学率是指[1×10-4,6×10-4]自由选择,以获得更慢的结论。6.1英语最差的英语模型有2层2D卷积,突出的是3层不定向的周期层,各层附有2560GRU,紧随其后的是卷积层预计层tu=80,而且由BatchNorm和SortaGrad训练。

我们的模型集中在适应环境所有声音的条件上。语言模型解码参数中所有者一次集中开发设定。我们报告了几个系统和人类正确评价使用的测试集的结果。通过通知工作人员从亚马逊MechanicalTurk手工复制了我们所有测试装置获得的人类的水平。

银河贵宾厅网站

群众不如专业,训练有素的mRNA工作人员。例如,(李普曼,1997)在WSJ-Eval92集中发现人类仿制超过1%的WER,与1%的WER相似,受到追加报酬的鼓励时,得到的是低WER,自动错字动机和拼法的修正,错误率进一步增加,通过mRNA委员会会员我们使用无奖励机制和自动修正。因为有效竞争的ASRwizard-of-Oz正在努力获胜。

两个随机工人抄写。表4:系统和人类在WER中比较每个音频剪辑,平均值约为5秒。然后,我们接受了这两个mRNA的教育,实现了最后的WER计算。大部分工人都在美国,多次收看音频剪辑,mRNA一次平均需要27秒。

手动mRNA的结果比较,基于现有事实,产生WER估算。现有的现场mRNA显然有标签误差,大部分集合超过1%。

6.1.1基准测试结果具有低信用噪音比读者演说,可以说是大词汇量倒数语音识别的最简单任务。我们系统的标准是两个测试集,一个是加载新闻文章的华尔街日报(WSJ)语料库,另一个是有声读物LibriSpeech语料库。表4可以显示每4个测试集,3个系统优于人类。

VoxForge(http://www.voxforge.org)还用于测试系统对各种口音的适应性。该测试组包括许多不同口音人的朗读声音。我们将这些口音分为美国、加拿大、印度、Commonwealth5和European64种。我们从VoxForge数据组构建了每1024个例子作为口音组,共计4096个例子。

人的水平显示着低于我们所有的系统,但印度的口音除外。最后,我们从最近完成的第三个滚动站试验台CHiME测试喧闹的演讲时的表现。该数据集中于收集WSJ测试,WSJ收集的语言在实际环境中收集,增加人为噪音。

用于CHiME的所有6条地下通道可以得到显着的性能改良。我们所有的模有的模式都用于单一渠道,因为获得多声道音频并不广泛。数据来自现实喧闹的环境时,不是人工合成,而是在明确的声音中加入噪音,我们的系统和人的性能差距很小。

6.2普通话在表5中,我们开发了结构军官学校中国普通话语音的2000句语音和测试集1882句噪音语音。该研发套件也用于调整解码参数。我们发现深度模型的2D卷积和BatchNorm比浅度RNN高48%。表5:不同RNN结构的比较。

研发和测试集的内部语料库。每个:表中的模型有8000万左右的参数。表6:根据两个随机自由选择的测试集,测试人类和系统。

第一集有100个例子,由5名中国人表示。第二,250个例子显示了一个人的复印件。

表6表明,我们最差的中国普通话语音系统mRNA最后的语音搜索类似的发言比典型的中国人和委员会的5名中国人一起工作更好。7.配置双向模型的即时mRNA设计不当:因为RNN有几个双向层,所以抄写语言必须以整个听法呈现给RNN,因为我们用于长波段检索,所以波段检索可能很便宜。为了减少部署的可扩展性,同时获得延迟较低的mRNA,我们构建了一个批处理计划,称为批处理计划patch),在展示RNN作为宣传这些发货时,这些发货收集了用户的催促数据进行发货。

有了这个调度器,可以减少贸易批量的大小,提高效率,减少延迟。我们用于大力的发货方案,下一个方案不会大力处理所有的发货。如果前一次发货完成后,无论多少工作都要在这一点上计划。

该调度算法均衡效率和延迟,构建了相对较小的动态批量规模,低约每出厂10个样品,其中中间批量大小与服务器阻抗成正比。表7:延迟发生在(毫秒)VS阻抗表7中,我们的系统超过了44毫秒的延迟时间,第98%的延迟时间为70毫秒,有10合流。

该服务器用于NVIDIA,QuadroK1200,GPU评价RNN。正如设计一样,当服务器阻的快速增长时,批量调度轮将工作改为更大的出厂,并保持较低的延迟。我们的部署系统评价是半精度运算,虽然不能依赖精度影响RNNs,但效率显着提高。

我们写了自己的16位矩阵乘法程序完成了这个任务,大幅度提高了比较小的发货吞吐量。继续执行上述波束搜索过程,也包括在上述n-gram语言模型中反复查询,其中大部分转换为未存储器从存储器中加载。

为了增加这些查询的成本,我们使用启发式:只考虑最大数量的字符积累概率至少为p。在实践中,我们找到p=0.99效果很好。此外,搜索范围允许为40个字符。

这减缓了150倍共计普通话语言模型的搜索时间,视了CER(比较0.1-0.3%)的影响。7.1深度语音的生产环境深度语音已经应用于子集先进设备的语音生产管道。我们发现了些重要的挑战是影响末端到端的深度自学方法,如我们的。

首先,我们发现,即使适当的特定应用程序的训练数据很重要,大量的语音数据也被用作训练。例如,如果需要训练10000小时以上的普通话演说的话,只能找到500小时的时间数据性能。

在某种程度上,应用于特定的网络语言模型对于构建最低精度是最重要的,我们充分利用现有强大的n-gram模型和深层语音系统。最后,我们注意到,因为我们的系统是指需要输入普遍标记的训练数据的文字,所以每个应用程序都是mRNA。必须在后处理中进行处理(例如数字形式)。因此,我们的模型已经分解了很多复杂性、更好的灵活性,还需要进一步研究从末端到末端的深度自学方法的应用意识。

8.结论终端到终端的深度自学明确提出了令人兴奋的前景,数据和计算的减少大大提高了语音识别系统。由于这种方法是高度标准化的,我们已经找到了,它可以很快应用于新的语言。为两种非常不同的语言创建高性能识别机器、英语和普通话,不拒绝这种语言的专业知识。最后,我们还发现这种方法是GPU服务器和用户的催促一起高效执行,获得用户从末端到端的深度自学技术。

为了构筑这些结果,我们已经探索了各种各样的网络结构,通过SortaGrad和出厂规范化,发现了一些有效的技术。这种探索是一个很好的优化、高性能的计算系统,使我们在大型数据集中在短短几天内训练全面的模式。总的来说,我们相信我们的结果确认和比较从末端到末端的深度自学方法作为语音识别的价值。我们相信这些技术以后不会扩大。

原始文章允许禁止发布。下一篇文章发表了注意事项。

本文关键词:银河vip贵宾厅,银河贵宾厅网站,银河贵宾厅网页登录

本文来源:银河vip贵宾厅-www.gruppolama.com

相关文章

此条目发表在互联网分类目录。将固定链接加入收藏夹。

评论已关闭。