你能想象的到,连蚊子飞过的声音也可以被录到吗? 深耕于人工智能与智能领域多年的科大讯飞拾音品牌——谛听,近期逐渐崭露头角,在一条科技评测视频中,可以精准识别低至30分贝的微小声音,也能在90分贝得噪音环境下有效提取音频。
30分贝是什么概念呢?普通人正常说话的音量是50分贝左右,一只蚊子飞过的声音大约40分贝,也就是说讯飞谛听甚至可以捕捉蚊子飞过的声音。
狮子式瞄准声源,再小的声音也值得被倾听
狮子在猎食时,除了用眼睛牢牢盯住捕猎的对象,也凭借敏锐的耳朵对周围耳听八方。讯飞谛听配备了32路麦克风,可实现狮子式自动声源定位,并且7×24小时全天候、全方位、无死角拾音,精准拾取低至30分贝的超小音量。
我们知道,声音在传播过程中会发生衰减,不同方位的声源会导致所拾取语音音量和效果差异较大,而谛听采用了全自动声源定位和自适应波束形成技术,使得谛听可以轻松拾取运动的声源。
波束形成技术,如同狮子一样,可自动「瞄准」运动的声源方位,相对于那些需要预设和限制区域才能拾音的设备来说,讯飞谛听的优势十分明显。
当然,如此精准的拾音,还得益于讯飞自主研发的降噪算法。现实环境各种干扰噪声不断,再加上回波和混响,使得语音信号的处理更加困难。
面对噪音的挑战,讯飞谛听首先通过声音定位技术精准拾取音源,进行语音增强实现初步降噪,然后通过波束形成和基于深度学习的语音增强算法,对非方向性和方向性的噪声进行抑制,最后对音量大小自动增益并根据人耳的听觉特点进行优化,使输出的声音更加饱满。
分贝见分晓,谛听领跑超小音量拾音
前段时间,某科技博主的一支关于拾音器的评测视频引发了大家的关注,在和行业巨头德国森海塞尔、美国舒尔的较量中,谛听表现出彩,毫不逊色, 评测频显示:
在模拟30分贝悄悄话的场景下,森海塞尔拾音稳定,内容清晰,舒尔拾取的声音非常小且难以分辨说话内容,讯飞的谛听系列产品拾取的内容清晰,且音质听感较好。
在环境噪音为70分贝和90分贝的情况下,结果显示即使是90分贝的极端噪音环境,谛听都能有效抑制,对话内容依旧清晰。
谛听系列产品的出色表现,离不开科大讯飞21年来始终如一地对源头核心技术的自主创新。
2018年至今,科大讯飞已获得30项人工智能国际竞赛的冠军,涵盖语音识别、语音合成、机器阅读理解、手势识别、图像识别等诸多领域。今年7月,在DCASE 2020挑战赛的声音事件定位与检测任务中,科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室摘得桂冠。
长期以来,拾音器这类专业语音设备一直被海外品牌所占据,实现源头可控意义重大。
音视频结合,谛听将成多模态人工智能新纽带
除了语音的精准拾取和噪声抑制,讯飞拾音硬件还可以与其相关谈话系统结合,赋能于政法、交通、安防等特殊场景和关键部位,实现说话人分离。该技术可以将自然交谈或者会议场景中的多个说话人自动区分开并转写记录,使得音频、文字的利用更便捷高效。
融合了精准拾音、深度降噪和说话人分离等先进技术的谛听,将为更多使用场景带来全新的畅想空间。
作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充,高质量的音频都将发挥着不可忽视的作用。例如,工业界的检测师通过声音辨别机器是否运转正常,民警通过汽车声音辨别是否违法鸣笛,商铺利用全量的音视频采集来防止偷盗,法院、检察院庭审过程中同步录音录像,保证办案过程公正可追溯。
谛听听到的是声音,而声音最能体现人的情绪,结合视频中的图像行为判断,音视频多模态智能对群体性和违规事件可以有很好的预警,单视频采集的视野盲点也可以得到有效补位。
未来,谛听不仅仅停留于前端,还将成为链接各种智能图像、视频应用的纽带,让城市能更好的倾听每一个角落的声音。
根据艾瑞咨询的数据,2018年中国智能语音市场解决方案形式业务规模达到了33亿,预计2022年将超过100亿。
以谛听为代表的智能语音技术突破性的进展,为AI应用带来了新的机遇,音频、视频与文本的结合,也让智能语音成功出圈,跟图像和文本一起,走向更通用的智能。