一、回望 AI 发展历史
人工智能是一个比较久远的话题,到今天这一轮的人工智能热潮中,它已经有了不少落地的场景。如果讲人工智能的发展,我们需要回望一下历史,从过去的历史发展规律可以看到人工智能在产业、学术、技术方面发展的一些规律。
人工智能是在 1956 年美国的达特茅斯会议上第一次被提出的。此时人工智能已经有了一些突破,比如 1958 年发明了改进的减枝算法,大大降低了对抗性搜索复杂度,让计算机能够和人类棋手做一些对决,使人工智能发展有了非常大的爆点;还有利用类脑的机理去做感知机算法也有了一些进展,尤其是在图像领域,上世纪 60 年代计算机的处理能力虽然非常弱,但也可以做一些简单识别。当时人工智能的先驱西蒙说到,再过 20 年机器或者人工智能算法就可以完成任何工作,所以,美国政府及相关的资助就进入了人工智能领域。1969 年,在麻省理工学院任教的人工智能奠基者之一的马文 ● 明斯基(Marvin Minsky),在他的著作《感知器》中对当时大家寄予厚望的感知器算法提出了质疑,证明了线性分类的感知器模型不能解决最基本的异或逻辑,存在很大缺陷。此后,人工智能进入了低潮,政府的关注点慢慢变少,这是一个从充满期望到一盆冷水的过程。
二、数据 + 算法 + 算力
当我们看到这一轮以大数据为代表的新人工智能算法革命出现时,又想到这是否又是一次“狼来了”,是不是另一个泡沫来袭的场景?和以往几次人工智能高潮不同,在这次人工智能的变化中,形成了数据、算法和算力三轮驱动的要素。第二次人工智能浪潮中,发明了专家系统的人工智能方法,基于小数据的专家知识。比如在医疗行业里,我们总结出一些规律放到机器里,对特定的疾病,机器可能具有超过一般医生的判断能力,这是基于专家知识的能力。随着互联网的发展,数据规模爆炸性增长,能不能设计新算法来理解这些海量数据中暗藏的规律?基于人工神经元网络的深度学习算法脱颖而出。深度学习算法可以随着数据规模的增大,学习的网络层次越来越深,性能越来越好,这是以前机器学习算法不具有的。因为有海量数据和运算复杂度极高算法的带动下,人工智能制造了一个对于大算力的需求。起点在 2009 年,GPU 被用来做深度学习训练。当时组织了一个 ImageNet 的图像分类比赛。数据中搜集了很多互联网图像数据,GPU加深度学习技术完胜传统基于图像特征提取的视觉领域经典算法。当深度学习被引入后,发现它有一个非常好的能力,就是利用复杂的神经元网络结构,通过大数据的学习,从中自动发现一些特征。人们把深度学习和 GPU 引入后就发生了一些魔幻效应,在各种模式识别的任务中将正确率提高了很多,不断打破记录。
最近有个新方法叫做预训练方法。人工智能的传统方法需要做标注,如果用计算机识别一个苹果,需要给它提供各种苹果的照片,若做的更好一点,可以把苹果的外围勾勒出来。有没有方法把数据放进去让它自己学习?在自然语言领域,研究人员提出了基于深度学习的预训练方法。其优点是不需要标注数据。因为语言有特点,语言之间有规律,机器阅读大量语言就可以总结出这种规律。利用预训练模型得到的语言模型用于自然语言领域的一些评测,包括问答、对话等场景 , 准确率得到了大幅度提升。从另一角度,预训练模型展示了它“可怕”的一面,处理的数据越多,模型参数越大,其效果也越好。这时我们就想能否把全世界的数据都给它,构成一个非常庞大的模型。
三、人工智能超级模型
2019 年开始,预训练模型可以消耗大量数据,利用现有人类知识可以在上面探索,现在模型参数规模已经到了万亿、10 万亿,甚至百万亿的水平。达摩院做的中文多模态预训练模型 M6,以前把文本输给它后可以做一些问答等模式;现在把各种模态给到它就可以是多模态地进行预训练。图 1 示出了一个超大规模预训练模型的应用场景,比如,我们在电商网站上看到一个产品描述,在百科全书上有一张照片,都可以放到模型里学习。再比如,在阿里电商的场景中,一个厂家如果要卖一件东西,能不能让它自动输出一个广告语?如果一个专业的零售行业专家写出一段不错的描述,吸引买家来买这件衣服,我们把历史数据交给计算机后,大模型就可以把关键点找到。你输出一张图后,计算机就可以自动配一段文字介绍,试着从买家角度把它的优点体现出来,配词也非常巧妙。这个计算机模型可以无限输出,每次输出不同。类似的,比如输入文字“棉衣外套”,大模型本身并不理解这句话的内容,而是它在数据模型里已经关联了每个字、词和图像,就可以生成很多的衣服链接给你;可以把很多想象不到的词放到里面,生成很多有意思的场景。
图 1 超大规模预训练模型的应用场景
当人工智能的数据、算法、算力达到一定程度后,就具备了普通人不具备的能力。比如给一个商品的文本描述就可以自动生成该商品造型设计,好像就有了设计师的能力;可以在文字里加入一些特别的描述点,还可以把商品做一定修改。如果这个技术不断发展,人机之间还可以进行很多交互,辅助设计师完成工作。当人工智能技术发展到今天,可以利用这样的场景解决以前我们想象不到的事情。
达摩院研发的另一个超大规模中文预训练语言模型 PLUG,如给它输出一段文字“西红柿炒萝卜”,就会自动生成这个菜品的做法;给它一小段小说的描述可以自动地把后面内容补齐,因为它读了很多本小说,可以把我们看不到的一些关联生成出来。大模型本身会给我们带来惊喜,因为大模型的参数人很难理解,机器和人不同的地方就是每次可以做不同输出,觉得这段文字写的不好可以不断换,从而得到不同结果。现在已经有人用这种深度学习大模型的技术写作。
以前讲人工智能算法,最后突破的是创造力,所有固定活动,比如机器替代了体力活动。当 IT 技术把很多东西数字化后,一些重复性脑力工作也可以被计算机替代。现在创造力是我们大脑或者人类最后的一块净土,人工智能算法与人的机理不同,通过对海量数据的学习从中找到一些规律,能够做类似于有创造力的工作。上面举的例子中,设计服装,以及给一段文本描述(可以是一段、一个主题)就可以写一部小说,都是创造力的表现;还可以作诗词歌赋,在大模型时代已经实现。
还有一些比较复杂的任务,VQA 是基于一张图片,给它一张图片可以提出一个问题,机器就可以回答它。比如,这张图第一个问题是“这个披萨有几块”,答案如果是 4 块就对了,其他任何说法就是错误的;第二个问题是“这是素的披萨吗?”就要理解里面有没有香肠等一些肉的东西,如果有就不是一个素的披萨。一个女生戴了一个很有意思的装饰——两根香蕉,如果问机器她戴了个什么?回答香蕉就对了。对图片的理解需要专业知识,对一些大家可能没有共同标准的,基于大家的共同答案有 80.83% 的准确率,在这个数据集上已经超过了人类的水平。所以,人工智能在这一轮的技术发展上,已经进入了非常有挑战性的领域,包括创造上、复杂问题的求解上,已经展现了它的能力。
四、从奥运会中的人工智能场景****看人工智能产业落地
以 2020 年东京奥运会为例。东京奥运会由于处于疫情非常严重的场景下,不可能有很多人到现场,当时用了一些技术解决了一些实际问题。比如现场把加油声通过云的方式,让很多机器人给运动员加油呐喊;在田径赛场上的服务机器人可以在赛场做一些规避,如规避运动员、现场障碍、工作人员,以及把扔出去的链球和标枪捡回到出发点,这是各种机器人在东京奥运会中的应用。此外还用到了实时运动追踪技术,如运动员跑 100 米时,每秒的速度、姿态、膝关节角度全程的情况都可以生成出来,将这些信息提供给教练员和运动员,可以有针对性地帮助他将来的训练。通过这种颜色图可以看到他们每个人实时速度情况 ,知道在哪个点加速,最后冲线获得第一名,这种在速度的场景下都可以发现,与以往奥运会带来了很大观感上的不同。人工智能技术可以在赛场做很多应用,但这些智能的应用要有一个非常庞大的平台,以满足算法、算力和海量数据的需要。
这届奥运会是历史上首次云上奥运会。在往届奥运会时,每个大的广播、电视机构都会派团队到现场,制作视频节目并通过卫星传播。由于疫情原因,所有的数据,如奥运赛场视频信号、运动员比赛信息都上了云,通过云的方式大大降低了视频制作人员一定要在现场的要求。以前需要昂贵的卫星通讯做数据传输,现在利用云技术,通过互联网和通讯光缆,在北京的演播室里就可以在线制作东京奥运会的视频节目,实时制作成电视信号传播。很多奥运会节目和内容通过互联网、云底座进行了这样一些信号数据交流。
技术的发展不是简单线性的人工智能,在这次大变化中,基于大数据场景下,和云之技术间产生了非常大的关联。东京奥运会赛场里由欢呼、捡球机器人组成了机器人盛会,有很多的人工智能技术场景;还有工作人员戴有很多设备可以实时监控,这些技术都与人工智能相关。但是从另一角度看,支撑这场盛会的基座就是有很大的算力平台,能够支撑海量多模态的数据进来,通过人工智能算法提升了赛事的观赏性,更及时地了解实时赛况,并对赛场中可能发生的各种情况进行预测并提供预案。
智能技术本身发展到今天已经不是泡沫,有很多落地场景。这些落地场景由于一些新技术迭代,可以看到很多有意思的现象发生,东京奥运会就是这样一个典型的案例。
我们再来看一个场景——“智能客服”,一方是真实客户;另一方是机器人。对话场景中有很多非常困难的挑战,它不是简单的一问一答,是迭代式的。问的两件事情之间有关联,需要对话机器人能够区分和判断。当两件事情发生转换时,不是预设问题的模板,客服就要有一定能力。以往很多的机器人算法都是预设模板来做一些简单扩充,如果做自由问答,对方怎么问你,怎么回答你,需要具有一些海量知识,甚至其他方面的知识来支撑这段对话往下进行。这当中也是多模态,涉及到语音的信号,语音形成文字后,需要对文字做理解,和后台关联的订单、结构化的数据做关联,在那个数据上做交互。它至少包含三种模态的数据,而且有很大的不可预知性,在这种不可预知性下,模型本身需要各种的场景数据都能够及时处理。智能客服的场景也具有上述几个特点,因为有多模态数据、很多丰富场景和不可预知的线条。在这个演示中有两条线,线条之间有一定模糊性。两个订单需要一定判断力,这都是需要具有海量模型算法能力去做的。
再举一个人工智能场景——“城市大脑”。计算机带来的一个最大能力就是把城市数字化。数字化规模最早只是发生在点上,比如办公室数字化、文件数字化,逐步扩展到流程数字化,现在我们很多流程的审批都用 IT 做的;把很多业务系统数字化,比如 ERP 软件、资源管理、财务等各方面都进行了数字化;现在还有很多采集设备,例如每个路口都有摄像头可以把各种交通信息、物理世界信息都数字化。当把它们都放在一起时,能不能将所有信息连在一起,让所有城市变得更加有效、更加绿色,让市民生活得到更好提升,这就是很大的愿景。我们利用人工智能技术赋能,在杭州把很多数字化串在一起,打通了众多环节。数字化规模到了一定量级,就可以产生从量变到质变的点。
物联网和互联网结合,即万物互联的场景下,在城市里将这些事情做起来就非常好。人工智能现在最大的变化是数字化水平的提高,比如很多路口都有摄像头,在很多环境监测点,这样海量的数据结合在城市里发生的事情,就可以产生不一样效果。杭州的停车场没有栏杆和收费员,自由出入方便,这是因为通过车牌识别把车辆的信息和个人账号挂钩,实现自动计费,提高了停车场的运行效率。
这些数字能力如何结合起来?举一个例子。智能路口和传统路口最大的不同点是可以看到红绿灯的时间,提升了路口通行效率。城市数字化后,城里的很多采集设备,例如某路口有一个高位摄像头,可以清楚看到路口全局,哪个方向大概有多少车,然后对这些信息进行综合分析;而交警只能平视看他周边车的情况,做一些局部优化。当城市被数字化,对每个路口历史上的交通信息都可以进行分析,结合人工智能技术,就可以把城市交通做很大优化。这是人工智能技术赋能城市管理的一个方面。
结合这样的变化可以看到,有几个维度支撑了这一轮的人工智能产业落地。人工智能曾经历过几次冬天,技术发展起来后,发现其在产业落地时有缺陷,解决不了大规模问题;投资进来后不能形成投资回报,一些关键的问题卡壳,很快就进入人工智能冬天。这一轮中,人工智能技术,尤其是海量数据、算法和算力“三轮”在一起,就找到了非常丰富的应用场景。从互联网产业开始,延伸到其他行业。尤其是基于大数据的人工智能。上面的几个例子,比如问答和写小说的例子都是基于海量数据,因为人不可能博览群书,但是人工智能算法可以将各种结构化的规律收集整理,所以可扩展性比以前算法更强。智能算法没有独立法人,可以和其他技术交集在一起,比如和连接的技术——通信技术、5G 技术进行海量接入,以及人与人、物与物、人与万物之间都可以互联。这些技术因为是基于数据的,万物互联数据打通后可以带来很丰富的场景。
再结合业务场景。这个系统里最重要的是利用一些人与人之间的沟通,协同在线就可以集合很多以前单点的能力。把云的技术和钉钉结合在一起,让整个组织能力通过数字化能力假设在云上。数据需要海量计算,现在人工智能算法对于算力的增长需求已经超过了摩尔定律,速度越来越快。从人工智能模型的复杂度,可以看出它的迭代速度非常快,人工智能产业落地这一轮最大的特点是基于这样几个点的连通,尤其是在城市、国家,以及整个社会数字化得到很大提升的基础上,通过大的运算平台,也就是云平台,把数据、人和物打通。
五、对未来的展望
人工智能落地还有一些其他场景,比如绿色云计算。人工智能的算法、算力、海量数据非常消耗资源,一个 GPU 的功率非常大。如打游戏的 GPU显卡接到电脑上,就需要接上水冷管道。当把巨大的运算量放到数据中心时,云本身已经把所有的计算集成在一起,从而节约了资源,提高了利用率。而服务器工作会产生非常大的热量,需要空调将机房里的热量带走,非常耗电。如果让计算中心的能源消耗做的更经济,就需要绿色的云计算。阿里巴巴的浸入式液冷技术可以把服务器放到一个惰性的、不导电的液体里,把热量带走,大大提高了数据中心的能源利用率。
总之,人工智能经历了三起两落,对未来智能技术的发展,现在有人说已经是第四次浪潮。智能技术落地产业已经开始,且趋势不可逆转,主要来自于智能技术结合海量大数据、大的算力平台,利用云平台、网络能力有丰富的场景。未来的技术怎么发展,让很多研究人员、行业人员和投资人员都有很多想法。最近有一个新的概念——元宇宙,它其中有很大的一点,在这这样一个完全的数字化世界中,谁去管理这个数字世界?这个数字世界里的万有引力怎么产生的?除了人以外其他的基础设施,以及其他的一些物,或者还有其他的数字生物在里面,它们之间怎么交互、生活?都需要人工智能技术。所以,人工智能未来的发展大有所为。我们短期内很容易对一件事情特别乐观,而长期内又很容易对一件事情悲观;我们对人工智能技术发展很容易乐观,现在很多技术很乐观地看能够很快实现,可能过于乐观。但是长期来看需要解决更多的实际问题,在人工智能产业落地中,建议大家做一个长期的乐观主义者,很多东西在未来都会被数字化,而数字化的将来就是智能化。