传统影像的完全颠覆XD Fusion，华为影像系统的支点

【作者践机行事】这是华为年度影像旗舰P40发布之后的第二篇技术解读文章，和之前将关注重点放在硬件上不同，这一篇更偏向软件与算法机制。因为之前我也说过，在“传感器:镜头:算法”这个“1:1:1”的手机影像体系中，随着硬件能力的逐步趋同与看齐，算法已经成为手机品牌之间用来区隔影像能力的新战场，它正在催生着这个比例向“1:1:2”甚至更高权重转化。而对于华为誓要领先手机影像行业的目标来说，算法在现在与未来显得尤为重要，这也是为何“XD Fusion图像引擎”在今年横空出世的原因。

Tips：何为“XD Fusion图像引擎”？

XD Fusion其实是华为影像团队内部的一个代号，XD中的X意为Extreme（极致），D是Definition（清晰度），Fusion意为融合，合在一起的意思就是“超清图像引擎”。这是一个在华为内部已经讲了很多年的概念——把它放在业界其实就是通称的“计算摄影”。目前业界明确提出计算摄影概念的厂商有三家：谷歌，苹果以及华为。

华为影像体系的理念

在解释XD Fusion的重要性之前，我觉得有必须回顾一下华为整个影像技术体系的发展路径和理念，因为只有把这个问题弄清楚了，我们才能知道为什么到了今年，会有P40系列上的IMX700，会有P40 Pro+上的10倍光学长焦模组。

在华为的影像体系当中，是将手机影像的发展分为空间与时间两个维度来看待的，其中的空间，就是指的变焦，即让手机能看得更远；而时间，则是指让手机能在全天的条件下都能产出画质稳定的照片，因为在华为影像团队看来，随着硬件和基础算法的发展，在光线条件好的情况下，很多手机都能拍摄画质出色的照片，但光线一旦不好或变得复杂，不同手机的表现就拉开差距了——我觉得之前iPhone拍照“白天龙，晚上虫”的评价肯定是被华为看在眼里了。

按这个理念，从P9算起，我们就能看到这样的发展轨迹：

P9，加入黑白传感器，极大强化了手机的暗光拍摄能力，这一点我深以为然；

P10，两倍光学模组加入，让手机开始看得更远；

P20，三倍光学模组加入，辅以IMX600定制大底元件，夜拍能力成为华为P系列手机的标志；

P30，5倍光学模组加入，RYYB排列定制感光元件将P系列手机的成像照度扩展到0.1Lux；

P40，10倍光学模组加入，RYYB排列定制感光元件变得更大，同时向其他影像模组扩展。

将时间线拉长回看，华为整个P系列的发展路径就非常清晰了，这甚至还能在一定程度上回答很多人的疑问：“为什么华为一定要坚持RYYB这个最初看来有些吃力不讨好的技术？”

技术发展到现在，随着感光元件和镜头技术的双双进步，这些源自拍摄空间与时间的问题都在被逐步解决，但是，放在华为影像团队面前需要解决的问题也是在变化的，或者说在达成了参数上的目标之后，需要进一步做到的就是更好与更强，能保持业界第一的地位。比如长焦体验，就已经整整分化为四个优化的维度：第一，清晰度，这是排在所有客观指标第一位的，从目前我使用P40 Pro的情况看，对比P30 Pro的进步是明显的；第二，色彩，这一点之前我也有过解读，随着8通道RGB色温传感器的加入和算法的提升，这个问题比起前作改善了不少；第三，稳定性，对于我这种长期玩相机的人，感觉就是大变焦下更容易端得住相机了，但我想对大部分普通消费者来说，手持长焦的稳定性问题不仅仅是手法问题，更可能还有认知问题；第四，倍数，这里主要还是指的P40 Pro+上的10倍模组，这一点留待后边再说。

硬件负责输入，软件负责输出

P系列历经5代硬件的发展，这其中Mate系列时不时来穿插助个攻，让P40这一代机型已经获得了足够强劲的影像硬件基础，比如单像素和尺寸都足够的传感器，看得更远且协同工作的镜头，感光度够高的光线捕捉能力，更加准确的环境色温感知，ToF模组提供的光场信息，甚至还有AI加入RAW域处理，直接识别被拍摄物体的类型等。但是这对于一个完整的手机影像系统来说，只是解决了一半的问题，即这一切都是信息的输入，光有这些信息是无法输出一张令人满意的照片的，面对这一大堆输入信息的即是软件系统，即算法。

其实，刚刚说到的这一堆由影像模组硬件所捕捉到的信息，就是整个华为XD Fusion图像引擎的第一大模块：硬件的输入。如果将生成一张照片看成是做一道菜的话，华为影像团队将这一个部分就称为是食材的准备，它不仅仅需要数量和种类要够，同时还有质量的问题——“番茄炒鸡蛋是好吃，但番茄是烂的，鸡蛋是臭的，大厨再厉害也白搭”。这也就相当于再次回答了在大底与高像素的流派选择中，为什么P40的主摄确定了5000万像素与1/1.28英寸的尺寸：在华为影像团队的判断中，这是一个可以同时兼顾像素数量与质量的选择。同时，他们也希望大家在看待P40的时候，不要简单地误会华为只在硬件上下功夫，做硬件的目的不是堆硬件，而是给软件侧的运算提供好的原素材。

接下来就是XD Fusion图像引擎的第二个模块：机器视觉，中高层语义的分析、理解和分割。在这里就不得不提到在Mate 10上头一次加入的“AI摄影大师”（之前我说的是从P20 Pro开始，有误，特此道歉），它解决了过去影像拍摄中对于客观世界的识别问题。AI的加入，可以让手机的相机更加像人脑一样，去辨识客观世界，认知场景、客观物体，比如蓝天白云、草地花朵、猪牛猫狗，还有人的识别，包括皮肤、骨骼、脸部特征等。而中高层语义的识别，就是将这些识别出来的最基本的语义做理解与分割，放到神经网络系统中进行处理。比如人像拍摄时进行人与背景分离的抠像，就是为了后期进步美化人像做准备。这个过程，我们可以看做是对原素材的分类和初次加工——也就是做菜过程中的各种“备用”。

XD Fusion的第三个模块：神经网络处理。这个部分就非常有意思了，因为一切都在模仿人脑的思维方式对照片信息进行精加工，所以在这个模块里，有学习、有随机、有猜测……连华为影像团队自己都说这个过程是非常玄妙的，但它的最终目的就是为了能给消费者提供一张优秀的照片。换言之就是：画质清不清晰、噪点少不少、色彩准不准、虚化效果好不好、光影是不是自然等等。我们常看到“像素级处理”就是在这个阶段进行的，最终的成像也就是这个阶段之后产生。于是，一道色香味俱全的好菜就上桌了。

上述三个模块，它们之间协同工作的步骤与逻辑，就组成了我们看到的XD Fusion方案，也就是XD Fusion超清图像引擎。当然，这也只是一个大的划分，前边说到AI-RAW算法、8色彩通道色温传感器+AI AWB自动白平衡算法，这些全部都被包括在XD Fusion之中——可能将它称为是一个“技术池”更加形象，因为日后还会有更多的东西被装到里边去，也会让它变得更加的强大。

说到这里，我们也能看明白了，其实XD Fusion图像引擎一直都存在，而并不是今年才从天上掉下来的，也不是什么一块华为全新开发的芯片，它是华为这些年在手机影像上各种各样技术积累的一个集合体，是通过异构计算、多芯片协同与软件测运算共同达成。只是到了今年，计算摄影已经慢慢成为手机影像行业大家公认的潮流，所以才将它和盘托出放到了我们的面前。现在，XD Fusion在华为手机中已经是一个系统级的组件，它主要围绕主摄工作，但又不仅限于主摄（比如长焦），同时，几乎99%的手机成像工作它都要参与，凡是要用到后处理算法，多摄像头融合，以及机器视觉的识别能力或像素级优化图像品质的时候，就会进入到XD Fusion的概念里。从这个角度来说，XD Fusion的系统重要性已经高于苹果的Deep Fusion了，后者是有触发条件的。

那么，随着技术的演进，XD Fusion图像引擎能为消费者做么呢？它存在的目标就一个：“让普通的消费者能以最简单的方式获得一张好照片”——这个说法这些年我们真是看得多了，那么，华为又是如何来认知这个问题呢？

在华为影像团队看来，软件能力只是辅助，还原拍摄者的习惯和表现是首要的，但是通过软件测的能力，可以帮助消费者拍到更好的东西，得到更好的照片。就像最开始的AI场景识别就是出于这个目的，之后还有AI留色的功能，发展到今年，新增了这样几个重点的功能：AI精彩瞬间，去除误闯的路人，去除反光等，都是AI功能的进化。这一切都是围绕两点来展开的，这也是摄影的本质：第一，对光线的理解，改善画质；第二，摄影就是等待瞬间的艺术，而现在AI的能力就是在这两个维度做提升。

所以，“以最简单的方式获得一张好照片”这句看似轻描淡写的目标背后，却是大量运算的参与，越简单，背后要做的工作却是越多越复杂。也正是因为软硬件协同工作，在P40上，传统影像领域固定的焦段概念也在被“模糊”，即硬件本身的物理焦段与等效焦段放在XD Fusion体系中，都只是变焦成像的原始素材，整个变焦焦段无缝衔接，全部都可以提供出色且画质区别不大的照片，这才是XD Fusion整个影像体系意图达成和倡导的重要意义所在。

番外篇：P40 Pro+的10倍光学长焦模组

这次发布的P40系列，被网友们戏称为“中杯，大杯，超大杯”，而其中的“超大杯”P40 Pro+，更是因为全球首次搭载10倍光学长焦模组而备受关注，它到底是怎么达到的呢？为什么它的发售时间要晚一些呢？

华为认为，高倍数光学长焦镜头是手机上实现变焦的最佳方法，但镜头模组的物理特性（焦段越长、模组越长）是跟手机的ID设计相悖的。所以，华为P40 Pro+的10倍光学长焦模组，在P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升了178%。

这个镜头模组的核心，就是那个用来进行光路折叠的反射镜组。但是，在光线多达4次的反射过程中，如何避免光路畸变，保证反射质量，就成为达成这个结果的重中之重——在生活中很多镜面反射的场景下，我们都可以看到反射面上的影像变形，这就是光路畸变造成的。华为的相机团队首先想到的是借鉴芯片的组装工艺技术，但经过比较后发现，芯片组装工艺技术对芯片变形的控制是10μm级别，达不到这个模组的光学精度要求。后来根据光学设计仿真，解析出这个模组最基本的光学规格需要达到纳米级，即精度要求是头发丝的两千分之一（头发丝的直径一般不超过100μm）。同时，这样的精度要求还需要在大规模量产中实现，镜头模组团队通过多次努力和探索，最终实现了最高约30nm的组装精度，满足了10倍光学长焦模组的工艺标准。

可以高精度量产只是一方面，另一方面，P40 Pro+长焦模组的对焦马达需求特殊：其在带动具有多反射面的反射镜移动的同时，还不能干扰光路，马达只能“躲”在反射镜后面的有限空间中，且反射镜的大部分重量都是挂在马达的最前端。在这个状态下，马达不仅需要抵抗长力臂下L型反射镜产生的大力矩，还要保持在不同拍摄场景，都能高精度稳定移动反射镜，提供稳定光学表现。最后，镜头模组团队采用了滑槽式自动对焦马达，搭配极强的磁力与精密杠杆结构，精巧地平衡了前端的反射镜负载。同时还采用优异的润滑材料，使马达能够高稳定、高精度地移动反射镜，实现自动对焦功能——这个独特的对焦马达是该模组多个专利之一。除了独特的设计与功能，这颗马达还具备超长寿命的特点，即使经过数百万次的测试和极端环境的考验，依然硬朗运作。

这些技术方面的高难度，不但成为P40 Pro+实现10倍光学长焦的保障，也影响了其与P40/P40 Pro一起上市的时间，所以，目前我也只能拿到这些技术解析，就当是先期了解吧，等之后拿到“超大杯”我们再一起看这个模组的表现。

写在最后

实话实说，写这篇文章我是真挺吃力的，并不是因为不理解技术，而是整个XD Fusion图像引擎对于我多年以来接触摄影，形成的诸多观念有相当的颠覆，比如焦段的概念。想起一年前，P30 Pro“摄月”事件沸沸扬扬，甚嚣尘上，然而到了一年后的今年，看看华为XD Fusion图像引擎上进行的这一系列技术描述，不免有种大梦初醒的感觉。“PS是对一张照片最起码的尊重”，既然我们都能接受在电脑上对照片后处理，那么手机将这件事情做好了，直接将结果呈现在我们面前的时候，为什么最开始大家都接受不了呢？连传统的RGGB三原色的捕捉都能被RYYB+算法所替代，连经典的RGB点阵显示都可以被QD-OLED技术所颠覆，这也许就是技术发展路上所要必须面对的质疑吧。从照片到“照骗”再到照片，在真实与更美的真实之间，我想大部分人都会选择后者吧。