如今2022年世界杯如火如荼,转眼就到了关键的八分之一决赛,期间抖音同步上线的“无障碍字幕直播间”也着实火了一把,成功点亮了热榜并位居前列。
据了解,该功能正是借助火山同传的技术能力以及火山语音的语音识别能力,输出更加快速精准的同传字幕,为观赛带来优质体验。话说字幕看球“更快更准更专业”的背后究竟有啥黑科技加持?火山语音带你一起瞧瞧!
「端到端语音识别:更快更准的法宝」众所周知,对语音的精准快速识别能力是实现同传字幕的重要基础。为了应对世界杯赛场差别各异的解说口音和语速,火山语音团队基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,推出自研端到端的流式语音识别系统,有效规避了传统的语音识别系统中涉及的大量人工流程,例如依赖专业人员设计各种口音的发声规则等。
“这样的语音识别系统并不需要关注底层发音字典以及有关的音素信息,采用纯数据驱动的方式就可完成,系统复杂度简化很多,构建起来更加容易,效果还会更好。”火山语音团队表示。实践显示,优化后的模型不仅对口音和复杂场景展现出更强的鲁棒性,而且对领域词汇的识别能力以及推理速度,字幕上屏速度也得到了大幅度提升。
「背景声优化:细节之处降低错误率」正如球赛结果的变数颇多,世界杯赛场的环境更是纷繁复杂,在同传字幕的语音识别过程中会“遭遇”大量背景噪音,例如背景音乐以及现场球迷的欢呼声等。针对噪声影响识别效果的问题,团队早就关注到该细节并通过一套自动化的方式从足球比赛音频中提取出这些噪声片段,并且在模型中显式地建模噪声,将噪声误出字的比例下降了95%,同时通过数据增强方式提高声学模型在足球场景下的鲁棒性,即在有背景音的情况下也能清晰识别人声,实现更好的流式字幕效果。
「专项提升:让字幕效果更佳」“世界杯可不是一般的比赛,这种全球范围的大型赛事中,大量的专业术语以及外籍教练与运动员的人名,会为语音识别带来不小的困难,也为我们带来很大的挑战。”对此火山语音团队率先整理了大量与足球相关以及与世界杯相关的语料,在这些语料的基础上训练语言模型,通过语言模型干预的方式,提高了模型在足球领域的适配性。具体根据 RNN-T 的建模方式,通过解藕声学模型和语言模型,构建了一套灵活和高效的语言模型干预流程。
对于教练与运动员人名识别难的问题,“我们从足球相关语料中自动挖掘专有名词、球队和球员名称等术语,通过在解码备选中引入FST逻辑结构,结合“匹配走图+Backoff权重偿还”的方式对热词进行干预,有效利用该热词专项技术优化后,这些术语的召回从 64% 提升到 84%;同时还联合火山语音音频合成团队的同学,采用TTS技术合成术语音频,并加入声学模型训练中,将这些术语的召回进一步提高到90%,进而为观众呈现非常好的的字幕效果。”
一直以来,火山语音的语音识别技术不断追求更快、更准、更稳定且更强悍的目标,其自主研发的端到端语音识别系统CIF,与Attention-Based model相比,其整合发放机制可以更自然适用于流式任务且复杂度有所降低,解码效率相比RNN-T有很大优势。即在中文公开数据集上的测试结果非常有竞争力,在英文公开数据集Librispeech的test-clean子集上也达到了SOTA的效果。同时为了进一步提高模型推理速度,火山语音团队还设计了一套针对语音识别的自动化模型压缩框架,在保证模型识别效果的同时降低模型尺寸,从而可以在移动终端上实现接近云端的语音识别效果。
如今在火山语音的语音识别技术支持下,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为客户提供了优质有前景的语音识别解决方案。例如针对时下火热的音视频创作推出的智能字幕解决方案,一改传统字幕10分钟视频3小时制作的耗时费力,不但能在几秒钟内自动生成精准的语音识别结果,还能兼容多种口音、语种和方言,甚至针对创作常见的配乐和歌曲场景开发了歌曲识别的亮点功能,大大缩减了创作门槛,提升了创作的智能化。
为应对会议线上化的大趋势,火山语音上线的实时字幕解决方案不仅可以帮助参会人更好理解会议内容并回顾结论,还能通过“识别+翻译”的同传方案高效完成跨国、跨语言的沟通和交流;方案中包含的会议转写能力,不但可以准确记录参会人的讨论内容,还能根据说话人特征进行自动归类和整理,通常1小时的会议只需2-3分钟即可输出会议记录,方便快捷。近日,火山引擎语音识别产品获得了国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音识别增强级检验检测证书,也充分表明火山语音的语音识别技术能力已达到行业领先水平。
长期以来,火山语音面向字节跳动各大业务线提供行业优质的AI语音技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。目前团队的语音识别和语音合成覆盖了多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等多种应用场景,为抖音、剪映、飞书、番茄小说、PICO等核心业务提供了领先的语音能力。