报告主要分为四大版块:回顾人工智能发展的路线图、冷静审视技术的本质、挖掘技术落地具体市场的机遇和挑战、以及附录了217位主要中国企业核心AI人才的图谱。
本研究报告为亿欧智库团队历时3个多月进行桌面研究、走访企业看到、思考总结到的信息,报告特点为关注技术和产业的结合落地,诚然报告存在诸多不足,疏漏之处在所难免,敬请读者多多批评指正。
报告简版如下:
CHAPTER 1 回顾人工智能发展的路线图
2016年是人工智能发展的一个重要拐点,是更快更强的计算力和爆炸式增长的数据库将深度学习推到了镁光灯之下。
不夸张的说,人工智能已经成为了流行文化甚至是政治话语的前沿,但我们也推测,很有可能人工智能在下一个路口就步入了舆论的冬季。
CHAPTER 2 冷静审视人工智能技术的本质
2.1 总览人工智能技术图谱;
基础支撑层的算法创新发生在上世纪80年代末,是大数据和计算力将人工智能推到镁光灯之下,而建立在这之上的基础技术便是计算机视觉、语音识别和自然语言理解,机器试图看懂、听懂人类的世界、用人类的语言和人类进行交流,研究人类智能活动的规律。
2.2 计算机视觉技术模式图和对应企业图;
计算机视觉是一门研究如何让机器“看”的科学,更进一步的说,是指用计算机代替人眼对目标进行识别、跟踪和测量的机器视觉,并进一步做图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。
目前世界上图像识别最大的数据库,是斯坦福大学人工智能实验室提供的ImageNet,而针对诸如医疗等细分领域还需要收集相应的训练数据;Google、Microsoft此类科技巨头会面向市场提供开源算法框架,为初创视觉识别公司提供初级算法。
2.3 语音识别技术模式图和对应企业图;
语音识别是以语音为研究对象,通过信号处理和识别技术让机器自动识别和理解人类口述的语言后,将语音信号转换为相应的文本或命令的一门技术。由语音识别和语音合成、自然语言理解、语义网络等技术相结合的语音交互正在逐步成为当前多通道、多媒体智能人机交互的主要方式。
2.4 自然语言理解的应用:搜索引擎和机器翻译;
自然语言理解即文本理解,和语音图像的模式识别技术有着本质的区别,语言作为知识的载体,承载了复杂的信息量,具有高度的抽象性,对语言的理解属于认知层面,不能仅靠模式匹配的方式完成。
得益于互联网将线下信息在线化还衍生出UGC模式为自然语言理解技术的发展充实了语料库,但鉴于深度学习采用的层次结构从大规模数据中自发学习的黑盒子模式是不可解释的,而以语言为媒介的人与人之间的沟通应该要建立在相互理解的基础上的,所以深度学习在搜索引擎和机器翻译上的效用没有语音图像识别来得显著。
CHAPTER 3 人工智能技术落地具体市场的机遇和挑战
追溯本质来讲,人工智能是一项降本增效、赋能产业升级的工具,不同的是它在各行各业所受到的关注度——或过度的追捧,或悄无声息。总体来看,亿欧智库在“医疗”、“金融”和“出行”这三个领域都看到了降本增效的可能性,看到了这些市场的变革关乎着普罗大众的迫切需求,也看到这些变革的背后所带来的潜力效应。
3.1 智能医疗
AI赋予医疗降本增效功能,但医疗智能化之路依然崎岖。
基层的诉求是“加工资、快下班”、“看病贵、看病难”,从长期来看诉求得不到满足的原因出在“大数据没能共享”、“医疗信息未能标准化”,但要解决医疗的根本问题,便会牵扯出其背后庞杂的利益网等棘手问题,医疗智能化依然崎岖。
3.2 智能投顾
投资者需要投资顾问帮忙做“情绪管理”和给予一定的“投资策略/建议”。
AI在“数据搜索”和“自动生成报告”的具体应用中辅助投顾做到量化交易。
总体来看,AI辅助智能投顾降低了投资的门槛,吸纳了更大规模的投资群体。但在智能投顾领域计算机也还无法完全替代人类,在一些关键时刻还是需要依靠专业经验来做决策。而从AI涉略的投资策略/建议环节来看,人工智能所能替代的只是初级的信息收集与处理等基础工作,运用大数据独立做投资决策更多是一个概念,成熟市场很少这样操作。在许多金融科技从业者看来,重视AI但远未到委以重任的地步。
3.3 无人驾驶
无人驾驶的演进,是一个人类逐步交出操控权、提高安全系数的过程。
算法给无人驾驶技术的感知和决策层做底层支撑,应对动态障碍物的跟踪检测。
在感知层面,深度学习主要对摄像头和雷达收集到的局部数据(结合全局数据)做处理,基于动态图像极大的丰富信息以及难以手工建模的特性,深度学习能最大限度发挥其优势。
在决策层面,为了在行驶过程中避免与动态障碍物发生碰撞,无人驾驶系统需要算法的辅助来做到:1、检测出对行驶有影响的动态障碍物并对其位置变化进行跟踪;2、预测出其动态障碍物的运动路径;3、识别动态障碍物的种类。
但即使最好的汽车安全科技也不能确保挽救每一条性命。对于安全科技效用的限制在于人们使用(或不使用它)的方式。
在辅助驾驶人类和机器共同控制的模式之下,存在共同过失判断难的问题。其实从辅助驾驶向部分无人驾驶、完全无人驾驶过渡过程中,交通事故责任出现一种由人类转向汽车制造商的趋势,那么出于对庞大法律责任的考虑,无人驾驶汽车制造商可能因为安全隐患而考虑限制汽车能力,最后导致高新科技无法充分地投入社会中。
归根结底无人驾驶汽车最后能否顺利进入社会与否,并非取决于技术成熟度,而是同时由下而上的社会接受度与由上而下的政策、立法管制考虑。
无人驾驶距离面市,中间还横着监管体系的问题。
注:《亿欧智库:人工智能产业综述报告》完整版和《亿欧智库:主要中国企业核心AI人才图谱(216人)》可在亿欧官网查看。
写在最后
人工智能在近年来的崛起,得益于爆炸式增长的数据库和越来越强的计算力的助推,将多层神经网络给推到了镁光灯之下。而关于深度学习,还有一个有趣的现象:互联网为数据的流动和汇合提供了载体,但深度学习在互联网的应用(广告、推荐等)上取得的提高,没有语音图像这些领域那样显著。
原因在于语音图像的数据,我们完全可以通过主动的语料收集,让每个iPhone、甚至每个摄像头都尽可能充分覆盖到,但对于互联网上的社会行为的收集,诸如“点击与否”、“阅读与否”、“参与互动否”,对于每一个个体的每一个当下环境来说,都是很不确定的数据。总的来说,深度学习需要能标注、有大量标注数据来作为模型进化的需要。
拥有1500万张标注图片的数据集ImageNet是来自167个国家的48940名工作者,花费了2年时间——清理、分类、标记了近10亿张通过互联网搜集到的图片,才得到这个数据集。但ImageNet还只是一个通用性质的数据集,初创公司要在特定领域建立自己的壁垒,比如说医疗,就需要对该领域进行数据采集,而后进行数据标注,越细化越好。
在知乎「大公司里面有人专门负责标注数据吗?」问题下,共有 21 个回答。来自大公司的回答者们表示曾「发动全部门人对几万张图进行人肉打标」,或是将工作「安排在人力成本比较低的分公司」。小公司们则将数据「交给隔壁全是女性的部门标」,或是「省钱就自己人标了」。除此之外,交给外包公司是频率最高的选项。
从招聘网站发布的职位需求也可略窥一二。在智联招聘中键入「数据标注」,可以找到 60 个直接相关职位。在拉勾网则能找到近 400 个——管理外包团队等相关职位也被算入其中。
某种程度上,判断一家企业是不是核心在做人工智能,可以查看它每个月花费在数据标注上的金额。
深度学习并不是人工智能的全部创新,它依赖标注数据和计算力。在上下波动的舆论大背景之下,随着时间的推移人工智能技术呈正相关发展趋势,希望这份报告能在下一个舆论冬季到来之前,协助您审视整个当下的局面,希望能为人工智能的发展尽一份力。