【IT168 应用】近日,百度发布深度语音(Deep Voice)系统,这是一个完全由深度神经网络构建的高质量语音转文本系统。随后,麻省理工评论(MIT Technology Review)发表署名文章,将百度与谷歌在该领域的深度学习技术的进行了对比,并对百度的语音合成研发成果给予了高度赞赏,表示Deep Voice只需几小时就能让机器学会“说话”,并由于全程无需人工干预,已领先了谷歌一大步。
语音合成技术,又称文本转语音(TTS),是如今很多移动产品和应用上不可或缺的技术,例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内,语音合成技术都是采用拼接方式,需要记录大量语料才能进行语音合成,不仅前期需要处理大量数据,而且一旦说话人有所改变就需要重新记录和处理,所以业界一直在寻找可以实时生成语音的方式。
2016年,谷歌DeepMind团队在语音合成领域采用了新的神经网络WaveNet,经过真实语音的训练后可以根据文本直接生成音频,不过麻省理工评论认为,百度Deep Voice的成果显然又领先了WaveNet一大步,因为WaveNet在训练的阶段需要人工干预,而且还需要占用大量的计算资源,显然很难直接应用在相对小型的移动设备,例如手机等产品上。而百度Deep Voice可以通过深度学习技术将需要合成的文本分割成最小的片段,再通过语音合成神经网络将这些片段合成语音,这个过程基本不需要人工干预,深度学习技术可以自动完成所有工作。
毫无疑问,Deep Voice 为真正的端到端语音合成奠定了基础,现有的深度学习和神经网络在合成语音时没有复杂的处理流程,也不依赖于人工调整的特征作为输入或进行训练的预处理。百度研发团队对麻省理工评论表示,这一系统可以重新培训而无需人工介入,这将大大简化文本转语音系统的处理流程。此外,麻省理工评论文章还认为,百度的新系统在合成基础语音时没有对重音、持续时间、声音的自然频率进行控制,这样反而可以根据需要对合成的声音进行二次处理,配置参数使得机器“说”出不同的感情。
相比谷歌WaveNet的语音合成系统,百度Deep Voice的另一个优势则在于将整个语音处理过程都储存在缓存而非主内存里,并实时优化可利用的计算单元,这样可以大大加快合成速度。目前百度已经将实时语音合成系统放到亚马逊的Mechanical Turk上进行了测试,测试内容包括对比生成音频和真人原声录音等,测试结果显示,语音合成质量非常理想。
麻省理工评论在文章最后表示,百度Deep Voice与谷歌WaveNet相比大大改善了文本转语音的效果,与电脑实时对话的画面将从科幻电影中走进真实生活之中。当然,百度在继续加紧完善自己语音合成系统的同时,相信谷歌也不会无所事事,闲坐久等,这种激烈的人工智能领域的竞逐,最终将会带给我们什么样的生活,让我们拭目以待。