掘金圈 商铺 人工智能机器人可以和我们对话吗?当然是可以的,全新神经声码器推进人工智能进步

人工智能机器人可以和我们对话吗?当然是可以的,全新神经声码器推进人工智能进步

常常当你放下手机后才发现,电话那头的客户服务人员其实是一个机器人;或者,确切地说,是“一个”智能客服。

的确如此,如今越来越多的工作都是由人工智能技术来完成的,文本转语音(TTS, Text To Speech)是非常成熟的一部分。其发展过程,决定了我们今天所听到的许多“人声”,是如此逼真,与真人发出的声音无异。

事实上,除了接触最多的智能客服外,智能家居中的语音助手、可为听障者提供的无障碍广播,甚至还有新闻广播和有声朗读等服务,都基于 TTS技术。这是人机对话的一部分,简言之,就是让机器说话。

这是一部同时运用语言学和心理学的杰出作品。然而今天,当我们赞扬它的卓越时,更多的是因为它在在线语音生成方面的高效性。

提高语音合成效率绝非易事。关键在于如何将神经声码器有效地应用于序列-序列声学模型中,以提高 TTS质量。

许多这类神经网络声码器,如: WaveNet, Parallel WaveNet, WaveRNN, LPCNet, Multiband WaveRNN等等,都已被科学家开发出来。

虽然 WaveNet声码器能够产生高保真的音频,但是由于其巨大的计算复杂性,限制了其在实时服务中的应用;

利用 WaveRNN体系结构中语音信号处理的线性预测特性, LPCNet声码器可以在单个处理器内核上产生超实时的高质量语音;但是遗憾的是,这仍然不能有效地完成在线语音生成任务。

研究人员希望 TTS系统能在与人的“沟通”中,达到无障碍的流畅——不仅仅是语调上的热情、和蔼或者平静;更重要的是“没有”延迟。

腾讯有了新的突破。目前,腾讯 AI Lab (AI实验室)和云小企业公司已率先开发出一种全新的基于 WaveRNN多频段线性预测的神经声码器 FeatherWave。通过实验证明,这种高效的高保真神经声码器能帮助用户显著提高语音合成的效率。

在开发过程中,英特尔的工程团队也参与其中。它们充分整合了针对英特尔第三代至强可扩展处理器所做的优化,并使用了英特尔深度学习加速技术(英特尔 DL Boost)中全新的16位 BrainFloating Point (bfloat16)特性。

bfloat16是一种精简的数据格式,它可以与现在的32位浮点数(FP32)相比,只处理了一半的比特数,并且只对软件进行了少量的修改,从而达到与FP32相同的模型精度;与半浮点精度(FP16)相比,bfloat16可以为深度学习工作负载提供更大的动态范围;同时,它不需要使用校准数据进行量化/去量化操作,因此也比INT8更加方便。这种优点不仅使其能够进一步提高模型推理的能力,而且使其能够支持模型的训练。

实际上,英特尔至强可扩展处理器被设计用来运行复杂的人工智能工作负载。在深度学习加速技术的帮助下,英特尔自强可扩展处理器使嵌入式 AI的性能达到了一个新的高度。现在,这类处理器已经能够支持英特尔先进的矢量扩展512 (英特尔AVX-512)技术和矢量神经网络指令(VNNI)。

这些优化技术被应用到腾讯推出的全新神经声码器 FeatherWave声码器中。

腾讯的科学家们利用英特尔AVX-512技术和bfloat16指令,确保在 GRU模块和 Dense操作符中,所有 SGEMV计算的粗/细部分都是使用512位向量向量化的,并且使用bfloat16点积指令;对于按元素逐个加/乘等操作和其他非线性激活,都是使用最新的英特尔AVX-512指令运行。

经过优化后,在最后的性能测试中,同样质量级别(MOS4.5)的文本转音速度比FP32提高了1.54倍。

另外,腾讯在 GAN和 Parallel WaveNet (PWaveNet)的基础上,推出了一个经过改进的模型,并在第三代英特尔强大的可扩展处理器的基础上进行了性能优化,最终性能比采用FP32时提高了1.89倍,同时质量水平仍然保持稳定(MOS4.4)。

从 TTS领域来看,腾讯所取得的进步表明,越来越多的科学家开始使用英特尔深度学习加速技术在 CPU平台上进行研究,这是人工智能领域的一个趋势。

正如腾讯在 TTS方面的探索所带来的性能提升一样,英特尔的第二代和第三代的超强可扩展处理器在整合了加速技术之后,显著提高了 AI工作负载的性能。

从更广的范围来看,我们已经可以清楚地看到这一变化——在效率方面,由于对通用人工智能软件框架进行了优化,比如 TensorFlow和 PyTorch,库和工具, CPU平台有助于保持较高的性能功耗比和性价比。
特别是可扩展性,用户在设计系统时可以利用英特尔傲腾700系列、英特尔700系列等存储器技术,优化网络和存储器配置。通过这种方式,他们可以轻松地扩展人工智能培训的工作量,充分利用现有硬件投入,获得更高的吞吐量,甚至处理庞大的数据集。

不仅仅是处理器平台本身,英特尔目前正在为人工智能优化而开发的软件,以及市场就绪度高的人工智能解决方案,已经确立了差异化的市场优势。

以软件为例,英特尔于2019年2月进行了 OpenVINO/ResNet50INT8性能测试,结果表明,如果使用 OpenVINO或 TensorFlow以及英特尔的深度学习加速技术,人工智能推理能力可以提高3.75倍。

如今,英特尔与解决方案提供商携手合作,建立了一系列选择的解决方案。这两种模式都是预先配置和优化工作负载的。其中包括基于人工智能推理的英特尔选型解决方案,以及针对运行在 Apache Spark上的 BigDL的选型解决方案,等等。

对于希望从整体业务角度来观察人工智能发展情况的机构或企业的管理层来说,改变和方案的出现显然也是有意义的——如果所有人工智能的探索和落地都只通过优化来实现,那么投资的价值就可以最大化。
很多公司都做出了这样的选择, GE医疗公司就是其中之一。该公司是 GE集团旗下的医疗保健业务部门,建立了人工智能医学影像系统部署体系。

使用英特尔至强可扩展处理器,加上英特尔固态盘,以及英特尔的多项关键技术——例如,英特尔深度学习开发工具箱,以及英特尔深度神经网络数学核心函数库,等等; GE公司收获了出乎意料的成果:
这个解比基本解的推理速度提高了14倍之多,并且比 GE设定的推理目标提高了5.9倍。

本文来自网络,不代表掘金圈立场,转载请注明出处:http://www.jjq6.com/zhineng/20210107/260.html

作者: summer

上一篇
下一篇

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

18665872968

在线咨询: QQ交谈

邮箱: 1584605069@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部