12月6日,大数据&机器学习领袖峰会(Big Data & Machine Learning Leaders Summit Hong Kong 2018)在香港召开。作为全亚洲最受期待的大数据&机器学习会议之一,此次峰会吸引了包括OPPO AI专家在内的全球顶尖科学家和技术领袖,聚焦探讨数据、机器学习、人工智能与技术的商业化等前沿话题。
来自OPPO美国研究所的高级AI架构师何朝文出席此次峰会并发表主题演讲,着重介绍了OPPO对计算机视觉技术未来应用的思考。他表示:“AI能力的进一步发展,特别是与即将到来的5G时代深度融合,将推动视频成为更普遍的交流媒介。用户不仅可以更随心所欲地观看视频,也能够更低成本地创造视频内容。而计算机视觉技术向视频理解领域的延伸,将是打造这一全新用户体验场景的关键。”
推动AI从感知到认知,打造智慧的视频管理和创作
视频已经成为霸屏用户时间的最主要内容。根据QuestMobile发布的《2018年半年大报告》,在线视频和短视频是移动网民使用时间占比前三的应用类型。而不远的将来,5G超高速、低时延的全新特点也会让视频类应用的数量提升到新的量级。
何朝文认为,视频将成为未来移动互联网主要内容形式,这对终端设备也提出了更高的要求,为了让用户更便捷地管理视频和创作视频,手机需要具备视频管理器和编辑器的功能。借助AI能力,手机可以智能地完成分类、搜索、片段搜索和推荐功能。比如用户搜索“猫”或者“孩子”等关键词,手机就可以主动呈现出来所有包含这些关键词的片段。不仅如此,AI还能够定位到相应的时间点,更加精准地呈现结果。
同时,通过AI编辑功能,手机可以自动完成风格转换、解构分割、效果增强、亮点摘要和视频生成。例如用户可以通过风格转移功能,可以让一段普通视频呈现出梵高《星空》的后印象派画风。AI也可以帮助用户自动处理一系列原始视频素材,剪辑出一段更加有节奏感和故事性的片段。
挑战行业难题,OPPO AI视频理解已达业界领先水平
视频理解是整个业界公认的难题,而OPPO已经在视频分类和风格转移方面达到了业界领先水平。
据何朝文介绍,OPPO的最快的视频分类AI模型已经可以在公开数据集 Kinetics-600 实现69%的准确率,并且基于单个英伟达 V100 GPU 实现1秒10个视频的处理速度。同时,OPPO表现最佳的模型则可以实现71%的Top-1准确率,速度是1秒2.7个视频。从两组数据表现来看,OPPO的AI模型性能已经与谷歌类似,甚至在处理速度上更胜一筹。
而在编辑方面,何朝文表示OPPO美国研究所已经可以对视频进行风格转换,并且很好地解决了因为视频前后帧的亮度不一致导致的闪烁问题。
完整的闭环能力,OPPO致力打造卓越的AI体验
对前沿技术的探索和追求是为了给用户带来真正的价值。何朝文在演讲中也强调,在OPPO看来AI是一种能力,也是一种思维,要始终利用这种思维思考AI如何解决和满足用户的痛点与需求。
实际上,OPPO目前已经将AI能力广泛应用在手机产品上,带来拍照场景识别、智慧识物等智能体验。例如OPPO R17系列已经能够识别21类独立场景以及多达800个场景组合;同时也可以通过相机对条码类、实体类、文字类的扫描识别,提供多语种翻译、内容提取、图像优化、场景服务、信息查询等多方位万物识别服务。
OPPO的闭环AI架构是持续提升用户体验的关键。何朝文强调,OPPO的AI架构底层为硬件平台,上面分别是大数据平台、训练平台、智能应用和用户体验。硬件平台提供算力支持,大数据平台则保证数据的可靠性和安全性。同时通过训练平台,OPPO可以利用AI算法来建立模型去支持计算机视觉、语音识别、自然语义处理和个性化推荐等智能应用。当然,最终目的还是要用来提升用户体验。而用户在具体使用中的反馈则会反哺到大数据平台的训练中,进一步驱动用户体验的优化。
在前不久的2018 OPPO科技展期间,OPPO创始人、总裁兼CEO陈明永也特别明确了AI的重要意义,他提到:“手机作为AI最好的载体之一,还有很大的改善空间。OPPO要积极拥抱人工智能,要密切关注AI前沿技术和应用成果。”迈入5G时代,AI技术带来的好处也将获得真正的释放。