百度汉语语音识别获重大突破达世界领先-互联网专区

百度汉语语音识别获重大突破达世界领先

作者：河北分站编辑：河北分站 2015-10-27 15:30 IT168网站原创

　　近日，中国人机语音交互领域最权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)在天津举办。会上，百度语音技术部负责人贾磊分享了百度近期在汉语语音识别方面获得的重大突破。该技术能够使机器的语音识别相对错误率降低15%以上，识别准确率接近97%。此项技术将在百度语音搜索产品上上线。

　　(百度语音技术部负责人贾磊在NCMMSC2015上介绍百度语音技术取得的重大突破)

　　一次框架性的创新

　　百度研发出了基于多层单向LSTM的汉语声韵母整体建模技术，并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中，再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术，大幅度提升线上语音识别产品性能。

　　值得注意的是，该技术创新是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶，是一项框架性的创新。该技术的诞生使百度语音识别系统成为目前世界上非常先进的汉语语音识别技术。

　　三大因素助力攻克十年技术困局

　　LSTM与CTC技术虽已存在很长时间。但二者结合一直没有在语音工业领域成功应用。此次，百度依靠三大因素——大数据机器学习和语音识别传统理论结合、创新的算法以及强大的计算能力，经过短短4个月的不断探索与试验，在世界范围内率先克服了汉语领域使用CTC技术训练单向LSTM的高精度建模难题，成功突破了这十多年的技术困局。

　　贾磊介绍说：“早在4个月前，百度便开展了对语音技术的创新探索。我们详细地研究和分析了多种汉语建模单元，并深入探索了不同建模单元的CTC训练的价值和作用。在尝试了音节、声韵母和状态等不同长度的建模单元之后，最后探索出最适合汉语的声韵母整体建模。CTC的空白吸收机制和动态边界尖峰学习能力，可以动态自适应地形成‘target delay’，从而解决单向LSTM模型的右边信息不完整的问题。”最终，把上述成果一起应用到语音识别的传统技术框架中，实现了汉语语音识别工业产品技术的实质性提升。

　　据了解，百度研发出的全新训练算法，更接近工业大数据的产品实践。对比谷歌2015年9月份于Interspeech 发表的在英文领域的类似研究成果，百度的训练数据是谷歌的4-5倍，模型训练参数规模是谷歌的10-20倍。

　　更深刻的变革正在来临

　　如今，百度已经开始使用上万小时的样本进行模型训练。未来，训练语料量可能会突破100万小时。语音识别领域的深度学习将进入数百GPU并行训练的状态，理论创新和算法技术创新都将围绕大数据展开。随着CTC建模技术的普及及专业硬件的大量涌现，语音识别成本大大降低。贾磊表示，此次技术创新只是开始，百度将在语音识别领域继续发力，语音识别技术必将发生深刻的变革。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

关注我们