互联网 频道

标贝科技多人会议场景语音数据采集 让办公效率直线拉满

  随着智能语音技术应用场景的日益丰富,多人交互场景下的智能语音处理技术受到了越来越多的关注。其中,最为常见的就是会议场景。

  当下,会议已经成为职场人日常工作中不可缺少的沟通交流方式。每周大会小会不断,接入会议的方式也越来越多样,例如现场参会、电脑入会、手机入会、电话入会等。而多人会议场景普遍存在语音口语化、环境噪声、房间混响和人声重叠等问题,都会影响会议音频数据采集效果,给实时语音识别、录音文件转写等需求带来挑战。

  尤其近几年,疫情影响下,“云办公”需求呈现爆发式增长,越来越多的企业衍生出线上线下协同开会的混合式会议形式。随之而来的,是如何有效应对企业在不同会议场景下的开会需求,减少会议流程、提高沟通效率成为重点关注话题。

  无论是线下会议还是线上会议,提供高品质音频都是其核心能力。而且会议形式越多,对于会议音频采集能力的要求就越高。标贝科技深耕AI数据服务领域多年,积累了丰富的复杂场景多人会议数据制作项目经验,可支持多设备多通道的语音录制、覆盖金融保险、医疗、教育、政府机关、房地产等数十个行业领域会话内容。

  标贝科技多人会议音频采集方案

  标贝科技多人会议音频采集方案模拟真实会议场景,包括大型会议、中型会议和小型会议等多人会议类型,采用线性和环形16麦克风录制,可以有效增强噪声环境中参会人说话声音信号,提升音频采集质量。并将采集到的实时语音数据切分为标准的语音数据包,便于语音处理引擎对语音数据包进行识别处理。

  ▍方案特点

  ◆ 模拟会场真实环境,包括会议室墙面(水泥墙、玻璃墙等),会议室装饰(沙发、电视、电子屏幕、空调、植物等);

  ◆搭配会议系统,适应室内轻微噪音,包含参会人员非刻意键盘敲击、开关门、空调等声音,拾音清晰;

  ◆语种支持中文普通话,包含部分中英混场景;

  ◆录音设备为16麦线性、16麦环形、近讲耳麦手机数据时间对齐误差差小于10ms,说话人角度误差小于10°;

  ◆可以针对各个角色的语音实时识别,生成单独的录音文件;

  ◆自研的多设备多通道对齐技术,有效解决时钟不同步问题。

  ▍适用场景

  会议作为多人对话领域中组织高效协同的核心场景,对语音转文字相关应用有着强需求。标贝科技多人会议音频采集方案适用于包括会议纪要、培训记录、实时演讲字幕、访谈录音转写、法庭庭审实时记录等多个场景,为语音识别需求提供高质量音频数据。

  政企会议:用于政府和企业的重要会议、公检法庭审等会议内容记录等场景,高效采集多人发言音频,便于速记并输出与会者发言内容或庭审内容。

  演讲培训:用于企业和个人的公开演讲或内部培训记录等场景,可完整的采集演讲音频内容,用于转写存量音频以及后期校对和整理语音记录。

  交流访谈:用于律师取证、咨询顾问、企业面试、课题等专业领域的访谈语音采集记录,输出访谈内容文稿并转写存量音频。

  标贝科技多人会议数据集

  众所周知,基于机器学习的各种技术,往往都离不开算法和数据的积累。想要提高会议场景下语音识别的准确率,就需要采集大量的优质会议场景数据作为模型训练支撑。

  除了提供多人会议音频采集方案,标贝科技还针对不同的会议主题,精心制作了高质量的多人会议语音数据集,包括了实际会议场景下各种特性,例如停顿、重叠、说话人轮转、噪声等,提高会议场景语音识别准确性。

  中文普通话会议音频数据集

  语种:中文普通话

  录音环境:室内会场真实环境

  数据时长:100小时

  录音语料:不同主题的自由对话

  文件格式:WAV, TXT

  语音参数:16 kHz/16 bits

  适用领域:语音识别

  欢迎对以上数据集感兴趣的行业伙伴联系我们~

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章