2020年10月25日-30日,备受全球关注的第21届INTERSPEECH2020 国际会议在上海举办,科大讯飞成为本届顶会的独家Founding赞助商,支持顶会在中国顺利落地。

INTERSPEECH 是国际语音通讯协会主办的顶级国际会议,也是全世界公认的语音领域两大顶会之一。其中,科大讯飞研究院联合中国科学技术大学语音实验室共有14篇论文被本届大会收录,覆盖语音识别、语音合成、语音增强、语音情感识别、声音事件检测、说话人识别等多个技术方向的创新,这些论文的收录并受邀线上展示,再次展现了科大讯飞源头技术创新力,产学研用深度融合孕育撬动未来的力量。

作为本次国际大会的亮点之一,10月28日,科大讯飞同时举办线上“企业论坛”,A.I.研究院副院长高建清博士带来《智能语音技术创新的今天与明天》主题报告,分享科大讯飞在语音技术研发和产品创新方面的最新进展以及人工智能赋能行业的应用案例,展望语音技术未来发展趋势。

高建清作为研究院负责智能语音的技术研发和应用落地的带头人,曾带领团队先后完成了讯飞第二代、第三代语音识别系统研发,将复杂场景的语音识别系统提升到可用阶段,成功研发了以讯飞听见为代表的语音转写系列产品。

从率先发布讯飞语音云及讯飞输入法,开启中文语音输入的时代,到发布AIUI开启远场语音交互的时代,将语音识别从人机交互场景拓展到人人对话场景……科大讯飞语音识别技术的迭代演进及其在各种场景应用落地取得了显著成绩,“语音听写从受限场景可用做到了通用场景好用,语音转写从完全不可用做到了会议、采访等多个典型场景好用,语音交互从简单场景可用做到了远场等复杂场景好用的水平。科大讯飞也成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商。”高建清举案例、讲意义、谈应用,科大讯飞专注十年语音识别的发展历程和成绩给大家留下深刻印象。

在接近一个小时的主题报告中,高建清站在智能语音技术“今天”成绩总结和“明天”创新应用方面,分别从科大讯飞在语音输入、语音转写、语音交互、语音合成、语音翻译以及A.I.+行业等领域的不懈探索中切题,展现科大讯飞人工智能技术在教育、医疗、司法等行业的广泛深度赋能和应用。

面对人工智能技术发展前景,高建清还分析了智能语音未来技术的演进趋势,提出发展方向和解决方案,一起探索更多的语音应用场景。

趋势一:语音与视觉的结合将成为语音交互发展的新趋势

目前交互场景中的语音识别存在依赖唤醒、复杂噪声干扰、人机或人人交互难以区分等典型问题,离自然的交互仍有较大的距离。目前业界有一些使用唇型或手势辅助的方案,但是效果不够完备、体验一般。

针对这些问题,我们认为语音交互下一步的发展方向是多模态免唤醒与端到端意图识别的结合。首先,使用唇型与视线等视觉信息辅助进行主说话人检测,并用唇型辅助进行语音分离和降噪,提高人声干扰情况下的效果和体验。其次,使用端到端意图识别方案,基于语音直接实现“人机对话”和“人人对话”的意图分类,实现更自然的人机交互。

趋势二:从单一内容合成到全场景声音生成将成为语音合成发展的新趋势

为什么影视剧和有声书那么生动活泼,那是因为它作为内容产品将声音进行了全方位的包装,而不简单是语音合成。

我们认为语音合成技术的下一步发展,不只是合成自然度的追求,应该进一步通过段落级风格匹配实现自动背景配乐和音色选择,通过句子级文本分析实现角色的预测和情感预测,并结合多模态识别和多模态合成技术,让人们有多维度的丰富感受。

现场高建清围绕智能语音相关问题与观看者互动,并介绍科大讯飞2021年校园招聘计划。我们设立了飞星计划(iFLY Star),招聘国内外优秀的人工智能研究员及算法工程师,如果你具有语音、图像、NLP方面的研究经历,具有国内外优秀的教育经历,欢迎加入我们,一起用人工智能建设美好世界。

让机器能听会说,能理解会思考,这是科大讯飞A.I研究院的初心和使命。据了解,A.I研究院成立15年来,始终秉承“用正确的方法、做有用的研究”的理念,从市场中来,到产品中去,研究院在人工智能多个领域做出了业界领先的研究成果和产品方案。