OPPO何朝文：AI视频理解将成为计算机视觉的聚焦方向

高文文 | 2018-12-07 | 分享到| 0

12月6日，大数据&机器学习领袖峰会（Big Data & Machine Learning Leaders Summit Hong Kong 2018）在香港召开。作为全亚洲最受期待的大数据&机器学习会议之一，此次峰会吸引了包括OPPO AI专家在内的全球顶尖科学家和技术领袖，聚焦探讨数据、机器学习、人工智能与技术的商业化等前沿话题。

OPPO高级AI架构师何朝文

来自OPPO美国研究所的高级AI架构师何朝文出席此次峰会并发表主题演讲，着重介绍了OPPO对计算机视觉技术未来应用的思考。他表示：“AI能力的进一步发展，特别是与即将到来的5G时代深度融合，将推动视频成为更普遍的交流媒介。用户不仅可以更随心所欲地观看视频，也能够更低成本地创造视频内容。而计算机视觉技术向视频理解领域的延伸，将是打造这一全新用户体验场景的关键。”

推动AI从感知到认知，打造智慧的视频管理和创作

视频已经成为霸屏用户时间的最主要内容。根据QuestMobile发布的《2018年半年大报告》，在线视频和短视频是移动网民使用时间占比前三的应用类型。而不远的将来，5G超高速、低时延的全新特点也会让视频类应用的数量提升到新的量级。

何朝文认为，视频将成为未来移动互联网主要内容形式，这对终端设备也提出了更高的要求，为了让用户更便捷地管理视频和创作视频，手机需要具备视频管理器和编辑器的功能。借助AI能力，手机可以智能地完成分类、搜索、片段搜索和推荐功能。比如用户搜索“猫”或者“孩子”等关键词，手机就可以主动呈现出来所有包含这些关键词的片段。不仅如此，AI还能够定位到相应的时间点，更加精准地呈现结果。

同时，通过AI编辑功能，手机可以自动完成风格转换、解构分割、效果增强、亮点摘要和视频生成。例如用户可以通过风格转移功能，可以让一段普通视频呈现出梵高《星空》的后印象派画风。AI也可以帮助用户自动处理一系列原始视频素材，剪辑出一段更加有节奏感和故事性的片段。

挑战行业难题，OPPO AI视频理解已达业界领先水平

视频理解是整个业界公认的难题，而OPPO已经在视频分类和风格转移方面达到了业界领先水平。

据何朝文介绍，OPPO的最快的视频分类AI模型已经可以在公开数据集 Kinetics-600 实现69%的准确率，并且基于单个英伟达 V100 GPU 实现1秒10个视频的处理速度。同时，OPPO表现最佳的模型则可以实现71%的Top-1准确率，速度是1秒2.7个视频。从两组数据表现来看，OPPO的AI模型性能已经与谷歌类似，甚至在处理速度上更胜一筹。

而在编辑方面，何朝文表示OPPO美国研究所已经可以对视频进行风格转换，并且很好地解决了因为视频前后帧的亮度不一致导致的闪烁问题。

完整的闭环能力，OPPO致力打造卓越的AI体验

对前沿技术的探索和追求是为了给用户带来真正的价值。何朝文在演讲中也强调，在OPPO看来AI是一种能力，也是一种思维，要始终利用这种思维思考AI如何解决和满足用户的痛点与需求。

实际上，OPPO目前已经将AI能力广泛应用在手机产品上，带来拍照场景识别、智慧识物等智能体验。例如OPPO R17系列已经能够识别21类独立场景以及多达800个场景组合；同时也可以通过相机对条码类、实体类、文字类的扫描识别，提供多语种翻译、内容提取、图像优化、场景服务、信息查询等多方位万物识别服务。

OPPO的闭环AI架构是持续提升用户体验的关键。何朝文强调，OPPO的AI架构底层为硬件平台，上面分别是大数据平台、训练平台、智能应用和用户体验。硬件平台提供算力支持，大数据平台则保证数据的可靠性和安全性。同时通过训练平台，OPPO可以利用AI算法来建立模型去支持计算机视觉、语音识别、自然语义处理和个性化推荐等智能应用。当然，最终目的还是要用来提升用户体验。而用户在具体使用中的反馈则会反哺到大数据平台的训练中，进一步驱动用户体验的优化。

在前不久的2018 OPPO科技展期间，OPPO创始人、总裁兼CEO陈明永也特别明确了AI的重要意义，他提到：“手机作为AI最好的载体之一，还有很大的改善空间。OPPO要积极拥抱人工智能，要密切关注AI前沿技术和应用成果。”迈入5G时代，AI技术带来的好处也将获得真正的释放。

来源: 手机之家

OPPO何朝文：AI视频理解将成为计算机视觉的聚焦方向

微博评论

之家评论

相关阅读