iMobile 爱科技 8月8日讯——8月8日,汉王科技2024新品发布会圆满举行,首款智能语音应用——汉王语音王App正式发布,致力于让所有人都可以无障碍地进行语言记录、交流沟通,构建智能时代“通天塔”,让世界文明共享、共谋新发展。
汉王语音王依托多模态天地大模型、OCR等全栈AI技术赋能,将在蓬勃发展的智能语音赛道上开辟出属于自己的天地。
汉王语音王是基于汉王自研多模态天地大模型,自主研发的一款集AI语音记录、智能翻译与同声传译于一体的智能语音旗舰应用,支持AI精准转写、拍录同步(自动裁边)、话稿整理、智能总结及不间断实时翻译等功能,用户可以即听即用,帮助跨越语言障碍,提高日常办公、学习、会议、旅游等场景应用效率和便捷性。
AI语音记录:精准识别拍录同步
AI语音记录支持实时语音转录和语音文件转录两种方式,具备录音速记、拍录同步(自动裁边) 、语音转文字、说话人精准识别、智能总结、AI话稿整理等多种智能功能,满足用户不同场景的语音记录应用需求。
汉王科技自研高精度语音识别模型,基于多元化数据训练、多任务联合学习等方式提升语音准确识别的性能,并通过多项模型优化技术对性能进一步完善和提升,确保在多种复杂的声学场景下都能得到语音识别的高准确性,随时随地满足用户对语音记录准确性的要求。
实际测试时,汉王科技语音识别具备高准确率、多语言支持、动态修正和自然交流等特点。在行业广泛使用的开源中文语音识别数据集上测试,错误率低至1.94%,处于行业领先水平。
汉王语音王可以自动修正错误文本,内容规整后无须二次编辑,也支持自动生成标题、总结记录要点等,省心省力,同时更提升工作效率和学习效果。
值得一提的是拍录同步功能,在录音转写的同时拍照,通过强大的原研OCR技术,在录音类产品中首创照片自动裁边和内容智能排版功能,为用户直接提供一份声、图、文并茂的多媒体记录文档,重要信息一点不落。
在会议、头脑风暴等多人对话场景中,准确分离出每个人的身份以及内容具有非常大的挑战,声纹识别成为关键。声纹和掌纹等类似都是人类生物特征,汉王科技声纹识别技术具备在不限定用户说话内容的情况下,最短2秒准确识别说话人的能力。
为解决场景中的各种环境噪声和回响,以及说话人语速和情感变化等复杂情况下的识别准确性问题,汉王科技随机对语音数据进行了速度变化,添加环境噪声、回响等模拟复杂场景,通过持续训练迭代,最终在复杂场景下得到稳定的准确识别率。同时,汉王科技也引入聚类算法等实现了结合声纹和语义特征,进一步提高识别的准确性,杜绝“张冠李戴”的情况出现。
当整理好会议纪要、演讲内容等后,汉王语音王能与电纸本一键分享,将语音文本一体化传输到电纸本上进行高效阅读办公操作,构建成一个多端互联、共享的应用生态。
对话翻译:自然准确林籁泉韵
对话翻译具备实时翻译和语音合成两大能力,可以精准捕捉每一句对话,即时翻译,让大家可以跨越语言界限,适合办公、教育和旅游等场景下无障碍交流沟通。
基于汉王自研天地大模型的对话翻译,具备更好的语义理解和上下文联系能力,以及自适应语言风格和行业领域,提供更准确和自然的翻译内容,表达更清楚、交流更顺畅。
汉王科技自研的语音合成系统不仅具有卓越的多音字准确识别能力,还能处理各种复杂多变的语音现象,能轻松应对日常沟通交流、教育辅助朗读和客户服务等应用场景。
为了进一步提升语音自然度、准确性和合成效率,汉王科技自研高自然度声学模型,并引入了恒Q变换等多项先进技术,让合成语音能更加高效和精准地还原人类语音特性,带来林籁泉韵的听觉体验。
同声传译:长时间不间断实时同传
在AI语音记录和对话翻译的能力基础上,汉王语音王又更进一步拓展,推出了同声传译功能。这对语音识别的实时准确度、转写、纠正和翻译能力都提出了更高的要求。
汉王语音王具备长时段不间断即时翻译能力,实时双语对照文字记录更能准确表达专业术语和词句表达,加上领先的配录同步功能,跨越语言的障碍,让声音也能看得见,帮助用户轻松解决超长时间国际会议、学术研讨的内容记录难题,为办公、学习等全面提质增效。
通用人工智能浪潮兴起,对人工智能技术和产品产生了巨大推动,更是成为行业智能应用的革命性工具,为各行各业开启“人工智能+”变革之门。
汉王科技此刻恰逢其会,发布智能语音应用——汉王语音王,一方面源于自研天地大模型的多模态智能涌现,另一方面智能语音市场将进入一个新的爆发增长期。在技术和商业双轮驱动下,汉王语音王必将在智能语音市场上顶天立地,开辟出一片属于自己的崭新未来。
下一篇:没有了