回顾2018,人工智能正在成为手机发展的“新引擎”。2018年商汤在手机业务硕果累累,“3D人脸识别、人脸3D重建及微整形、人脸解锁、AI智慧双摄、超分辨率、3D人体实时追踪、3D虚化、AI人像光效、Animoji、美体、SLAM、AR相机、AR导航、AR测量”等诸多技术在OPPO、vivo、小米、华为、魅族、OnePlus等手机产品中纷纷落地,广受用户欢迎。商汤手机的AI功能覆盖了全部的头部客户和80%的长尾客户。
那么,商汤为何能够获得手机厂商的高度认可?这两年手机硬件与AI软件的角色又有哪些转变?商汤从创立之初就选择并坚持产学研一体化模式,根本原因是什么?如何培养和管理一支富有创造力的人工智能团队?2019年的AI手机行业又有哪些趋势?为解答这些疑问,近日,商汤君与商汤科技联合创始人、研究院院长王晓刚教授进行了一次深度对话。
王晓刚教授是商汤科技联合创始人、研究院院长、杰出科学家,同时亦为香港中文大学电子工程系副教授。王晓刚教授毕业于中国科技大学少年班,于2001年获得电子工程与信息科学学士学位;2004年获得香港中文大学信息工程硕士学位;2009年获得麻省理工学院人工智能实验室获得计算机博士学位。
王晓刚教授的研究领域包括计算机视觉和机器学习,他曾在顶级的国际期刊和会议发表超过200篇论文,其论文在GoogleScholar上的引用次数超过17000次。他还是国际顶级计算机视觉会议CVPR 2017, ICCV 2011,ICCV 2015, ICCV 2017, ECCV 2014, ECCV2016, ACCV 2014和ACCV 2015的领域主席。
总结2018:优异成绩单源自积累、体系和格局
Q:2018年商汤AI技术在手机上有很多应用,包括AI双摄虚化、人脸3D重建、超分辨率、3D人体实时追踪等等,并与OPPO、vivo、小米、华为等手机厂商都有合作,您觉得商汤在手机业务获得优异成绩的原因有哪些?
A(王晓刚):首先非常感谢我们的客户和产业链的合作伙伴一直以来对商汤的信任与支持。我觉得商汤能够获得客户认可有几个因素,第一是积累,商汤是比较早地把AI带到手机,我们有比较深厚的积累。比如2014年商汤就在学术界首次提出了基于深度学习的超分辨率技术,并且拥有最早一批相关专利。经过四年打磨,2018年终于在vivo X23手机上落地。比如体感游戏中的人体关键点技术我们也已经有了数年的积累。再如AR的SLAM,我们和浙江大学-商汤三维视觉联合实验室有十几年的积累。深厚的积累是源源不断创新的保障。
应用于vivo X23幻彩版的SensePhoto超分辨率技术
其次是体系。比如SLAM,我们从视觉SLAM到基于双摄的SLAM和基于多传感器融合的SLAM,是一整套的SLAM技术体系。在SLAM技术基础上,我们还有导航、重建、AR测量、AR 相机等多种应用。完整的技术和产品体系可以更好地满足客户需求,为客户创造价值。未来,这些手机上打磨的技术还可以应用于互联网和IOT,构造一个更大的AI生态。
另外,这归功于商汤的格局,我们看问题着眼未来。比如商汤SenseAR平台是对标谷歌的ARCore,苹果的ARKit,还要体现出差异化。很多人觉得商汤难以和国际巨头抗衡,但商汤的目标是要在手机上做长远的规划,这就要从最基础夯实我们的技术。如今商汤SenseAR平台支撑了非常多的应用,将来还会更多。
OPPO发布与商汤合力打造的OPPO AR开发者平台
Q:关于人体识别,商汤其实在安防领域也有应用,那么在安防领域的应用和手机领域运用有什么不同吗?
A:手机上对准确性和实时性的要求会更高,因为它直接关系到用户的体验。比如我们在手机上做的3D体感游戏是通过肢体动作控制游戏里面的人物,这些控制必须非常准确。
SensePosture3D人体骨架检测算法正在为OPPO R17 Pro体感游戏带来支持,图片源自ColorOS官方社区
安防领域主要是识别,但手机除了识别,还有重构、合成,比如美体中的应用,如果对人体的关键点定位和人体分割出现微小的偏差,就会出现背景和人物的扭曲。从这个意义上讲,手机对技术的要求更苛刻、更严格。
AI角色转变,从弥补硬件不足到硬件专门为AI设计
Q:近两年手机AI软件已经逐渐影响硬件研发方向,您怎么看这种转变?
A:手机硬件和AI的关系有三个阶段:第一个阶段是AI弥补硬件的不足;第二个阶段是硬件推动AI的创新;第三个阶段是部分硬件专门为AI设计,AI和硬件联合创新。
一开始AI是弥补硬件的不足,比如由于物理条件的限制手机拍不出单反的效果,我们可以尝试通过AI的方式实现某些功能。再如手机用两个摄像头估计深度,然后做人像和人体分割。2016年商汤第一个在OPPOR9s上通过AI算法实现单个摄像头的人像分割,从而进行背景虚化,弥补了硬件的不足,降低了成本。
随之硬件又推动了AI的创新,比如手机上随着深度摄像头的出现,可以做3D人脸解锁、3D人脸重建、AR测量和一系列的体感游戏。另外,NPU最初的出现把原来手机芯片对神经网络的处理能力提升了很多倍,为AI提供了更多的算力。
SenseMatrix AR测量帮助OPPO R17 Pro打造AR尺子功能
如今,一些硬件是专门为AI设计的,AI和硬件联合创新。新一代的3D摄像头和NPU(嵌入式神经网络处理器)这些硬件的创新就是围绕AI,需要和AI的算法融合在一起为消费者带来价值,这些变化大大促进了AI技术提供商和产业链合作伙伴之间更紧密的配合,并提升服务客户的能力。
去年12月,高通发布了全球首款商用5G移动平台——骁龙855,拥有强大的AI能力,其中就包括商汤的SenseID 3D ToF人脸认证、SensePhoto AI超分辨率、SensePhoto AI夜景和SensePhoto AI双摄虚化等多项创新技术。
同样于去年12月发布的联发科新一代移动平台Helio P90拥有旗舰级AI算力,也搭载了商汤SenseColor人像留色技术,可以实时识别、分割出所拍摄人物轮廓与外在环境边界。
作为人工智能的重要推动者,未来商汤科技的创新将更进一步,与合作伙伴一起推动整个行业的发展,更好的服务广大用户。
切忌涸泽而渔,产学研一体化是创新的源泉
Q:商汤一直坚持产学研一体化的模式,它的优势具体体现在哪些方面?
A:产学研一体化是商汤创新的源泉。一项技术应用到手机上可能是3到6个月,但这项技术的积累可能已经花了几年时间。
现在很多公司邀请大学的AI教授加入工业界,一段时间后他们会把之前积累的学术成果转化为落地的技术,然后工业界马上会问下一个新技术是什么?工业界对AI的需求是非常迫切的。一些教授进入工业界后就失去了继续创造的源泉,他们需要持续培养学生,才能够有一个土壤提供源源不断的创新。如果切断了这样的源泉就会产生涸泽而渔的结果。产学研一体化需要不断汲取各种各样的新技术来刺激它,推进它,仅通过商汤一家公司是很难完成的,要建立学术界和工业界共赢的生态。
商汤科技在世界人工智能大会上联合15所高校发起“全球高校人工智能学术联盟”
Q:产对研有没有反过来的促进?
A:有的,我们从实验室出来的东西大多是一个雏形,真正应用到手机里面还要经过深度的打磨,经过手机厂商打磨之后会变得非常强大,它会再次返回到学术端。例如商汤SenseAR平台就是从实验室出来并经历了深度打磨的过程,它不但会开放给开发者,其中一些模块也会开放给我们的学术联盟。我们的学术联盟相当于站在SenseAR这个巨人的肩膀上再往前走。等他们有一些成果的时候会贡献到SenseAR的一些模块中,使得这个平台得以持续提升。
另外,产也会对研提供一些新的研究课题,比如3D技术的研发,手机上3D传感器的出现必然带来3D数据的极大丰富,原来互联网图像和视频数据以2D为主,有了海量的3D数据,就可以做更多新的研究课题。
Q:如果未来3D数据大量涌现可能又会衍生出新的、不一样的生态。
A:对,这会刺激更多的研究创新,创新不能是凭空的,一定要有土壤,产业界可以给他们提供这样的土壤。
一个团队一定要经历“涅磐”,才能够成长
Q:您在培养团队方面有没有一些心得和体会可以分享一下?
A:从学术研究到产业落地有一个比较大的距离,商汤的一些研究员是从大学实验室出来的。我们团队一定要经过一个“凤凰涅磐”的过程才能走向成熟。很多项目我们是觉得已经不行了,快绝望了,最后一口气坚持下来,取得了成功。
我们手机上一项技术的落地像是“十月怀胎”,到最后关头是非常痛苦的过程。落地之后这个团队就成熟了,下一次他们就知道怎么经历这样的过程,就可以承担更重大的责任。
另外,一项技术开始的时候可能有比较强的新鲜感,之后会遇到很多细节的问题,面对客户提出的各种各样需求,而这时候团队的新鲜感已经消失了。在这种情况下如何继续保持团队战斗力至关重要。
2018年初我们给手机团队提的要求第一是敬畏客户,第二是追求极致。我们需要先认真倾听客户的需求,再在产品上追求极致体验,每一个边边角角,每一个瑕疵都要解决。现在用了商汤算法的手机超过4亿台,商汤的产品和技术最终要走进千家万户,要给大众一个最极致的体验。
商汤成长很快,原来商汤好比是一辆自行车,如果没有刹车(质量控制)顶多把自己摔得鼻青脸肿;现在是跑车,如果没有刹车破坏力会非常强。当商汤给市场提供越多价值的时候,我们的责任就越大,这就是我们为什么要敬畏客户,追求极致的体验。
展望2019:从2D到3D,5G带来更多视频处理需求
Q:您怎么看2019年AI手机发展趋势?
A:2019年有几个趋势,NPU的出现会充分释放AI算力的优势,发挥AI的潜力;随着5G的落地,云和端会更紧密的结合;我们正在快速迈向3D的新时代,拥抱海量3D数据给生活带来的巨大变化;随着AI和AR平台能力的开放,将进一步赋能开发者,推动整个生态的进步;另外多传感器融合、手机与IoT的结合、智能语音助手都会有更多云+端的应用。
Q:AI和5G有哪些融合吗?5G对手机行业会有哪些影响?
A:5G可以充分运用云上的算力,它有更少的延时和更大的带宽。我们目前看到手机上的AI功能是对图像处理比较多,有了5G之后会有更多对视频的处理和对3D数据的处理。
Q:最近艾瑞咨询联合商汤发布了《2018年中国人工智能手机行业研究报告》,艾瑞通过调研发现,中国手机用户下次更换手机时95.9%都更愿意选择AI手机。您觉得AI手机对消费者的吸引力为何会这么大?
A :很欣喜看到消费者对AI价值的认可,这是手机厂商、硬件厂商和AI技术提供商共同努力的结果。AI手机为用户带来了更好的体验和诸多新的应用,例如超分辨率、人脸解锁和3D应用,这些AI软件的创新给人们带来很多的惊喜。其次AI技术提供商和手机厂商的合作也在逐渐深入,能够使AI更好地服务手机客户,进而使整个用户的体验得到提升,这是最根本的。另外一个就是创新的速度,AI手机迭代非常快。
用AI为用户创造价值、为开发者赋能是商汤的使命,相信在我们客户以及合作伙伴的共同努力下,2019年的AI手机一定会有更加丰富多彩的体验。