在新闻学中,有一个“媒介的双螺旋”理论,是说媒介形式必然会按照简易度和关联度两条线索螺旋向上升级。无论是印刷术、广播、电视,还是今天的短视频、直播、VR,每一种媒体形式的出现,都是为了降低用户的获取门槛,同时提升内容的关联能力。按照双螺旋理论,多媒体化的趋势是不可逆转的。而优秀的表达者、开发者、创业者,也必然需要多媒体的帮助。
移动应用开发者,本质上就是利用APP这种介质完成对用户的表达和沟通。而最能够帮助开发者提升表达效率,增强用户体验的技术,可能也就是多媒体技术了。
曾几何时,图片和文字是APP的主要载体;而今,我们很难想象一款头部APP中缺少直播、视频播放的多媒体交互形式。然而对于大部分开发者而言,多媒体功能的开发、部署和运维还存在大量痛点,甚至可能变成开发团队的过量成本消耗因素与技术软肋。
多媒体开发,本来应是充满惊喜感、愉悦感的事情,当然不该成为开发者的瓶颈。此前我们已经介绍过,7月15日HMS Core 6.0正式上线。其中有一项重要更新,叫做华为多媒体管线服务(AV Pipeline Kit)。
当时就有朋友希望我们仔细介绍一下AV Pipeline Kit。9月16日,HMS Core AV Pipeline Kit刚刚进行了一场线上直播,多个领域的专家深度讲解了AV Pipeline Kit的技术要点和应用场景。
我们今天就由此出发,看看AV Pipeline Kit究竟带来了什么,又是如何帮助开发者完成和简化音视频采集、编辑和播放等系列工作的。
AV Pipeline Kit通过一系列技术与架构设计中蕴藏的惊喜,让多媒体的开发和管理变得简单易用,触手可及。
它似乎彰显了这样一个理念:多媒体的无限可能性,本就应该是开发者在智能时代的梦工厂。
实时+智能:多媒体与开发者的新约会
要说今天有哪位移动开发者没有研究过多媒体开发,那估计是所有人都不信的。
随着消费者“口味”的不断提升,应用的功能集成性不断增强,今天的APP早已不是简单的网页流转逻辑。试想一下,无论是社交、旅行、电商,但凡需要用户分享和内容分发的APP,在今天肯定都需要视频,甚至是直播、AR功能的加入。
但相比于图文来说,视频、音频为代表的多媒体开发与管理有着更高的技术门槛和开发工作量。尤其随着短视频、直播的普及,用户需要的多媒体玩法也更加复杂。
整体而言,多媒体开发在今天有两个核心发展趋势:一是更加实时化,需要快速完成基于视频的互动和体验升级,满足用户的及时分享与获取需要,这就需要打破传统的多媒体分发逻辑,更加关注端侧的性能和能耗;二是更加智能,AI给多媒体带来了图像识别、流媒体超分、语音交互、语音识别的种种可能,这些智能触发点极大提升了开发者的能力边界,但也要求开发者具备更强的技术能力。
在实时化、智能化的新时代,开发者与多媒体的约会虽然美好,但也有诸多挑战。
比如开发难度进一步加大,开发成本更高。很多视频+AI的开发,需要在传统管线中加入AI处理技术,这涉及到诸多数据处理能力,对于开发者来说技术门槛很高。
再有,端侧实时化的智能视频开发很可能遇到算力的瓶颈。云端处理会导致性能欠佳、体验较差,但端侧算力的性能和框架优化却无法负载,最终导致很多好的想法付诸东流。
还有一点,给APP添加多媒体功能意味着功耗开支的加大。如果多媒体缺乏优化能力,会导致APP功耗过大,容易发热,继而造成用户体验的下降。
这些痛点的存在,让复杂、创新的多媒体开发经常成为工作量大、开发成本大的工作。甚至变成开发者不得不做,但做了之后又占用人力算力过多,造成开发瓶颈的“鸡肋”工作。
那么是不是有什么办法,可以极大减少开发者在多媒体领域的工作量,并且开发综合成本极大降低呢?
瞄准这样的需求,华为海思团队在2020年年底开始了系统设计和相关调研,今年年初开启开发。在多媒体、NPU、AI算法等相关团队的协同努力下,最终让集成了多种多媒体管线技术,并且能极大压缩开发工作量的AV Pipeline Kit在7月正式发布。
开发者的创造力与智能时代的多媒体升级,开启了一场新的约会。
从智能超分到流水线编排:打开多媒体管线的惊喜盒
从音频到视频,再到多媒体管线的编排管理,AV Pipeline Kit包含了一系列技术突破与全新的框架搭建思路。换句话说,它并不是一种单一的技术插件,而是把多种新技术、新配置方案放在一起的惊喜盒。打开它,开发者可以找到很多期待已久的礼物。
让我们通过几个AV Pipeline Kit关注的重点领域,说明其中到底蕴藏了哪些惊喜。
首先让我们来到“智能+视频”领域中最常提到的功能:视频超分。所谓“超分”,可以理解为在视频播放过程中进行智能识别与锐度优化,从而让视频看起来比原本更清晰、明丽。在大型影视和游戏制作中,超分是一种非常关键的技术,但那有赖于云端和服务器。想要在端侧在线场景中,帮助开发者获得实时化、高性能的超分,就需要从AI技术到硬件资源调用的一系列优化。
为了帮助开发者便捷获取真实可用的逐帧超分能力,实现超分不卡顿的体验,AV Pipeline Kit首先在机器视觉算法上进行了一系列技术突破。比如在AI模型结构上应用了卷积神经网络,提升了复杂真实场景的超分效果;在数据工程方面,用一系列方法还原了多媒体数据的构造过程,提升网络的优化结果;在端侧模型压缩方面,进行了新的网络小型化探索,确保超分效果可以在端侧场景中被很好地执行。
在这一系列的技术突破后,AV Pipeline Kit可以为开发者带来随时随地都能看清的超分效果。通过调用NPU提供的专项AI处理算力,AV Pipeline Kit可以实现最高三倍超分效果,将原始片源的观看体验极大提升。基于端侧AI算力和一系列算法优化,AV Pipeline Kit在网络不均衡的场景下,依旧可以启动超分并达成相对一致的体验。在给用户带来智能功能的同时,还增强了实时化的流畅体验。此外,端侧超分技术的应用可以极大降低开发者的服务器使用成本,提升开发效率。
目前,AV Pipeline Kit已经与某大型流媒体APP达成合作,用户在网络环境较差的情况下可以依赖端侧超分,观看到流畅自然的视频画质。
看过了“视频+AI”,让我们再来看看音频领域AV Pipeline Kit带来的智能加持。基于AI声音事件检测技术,开发者可以实现非常多前所未有的玩法。比如检测家中宠物叫声、检测孩子哭声、按门铃声,然后再添加相应的智能服务。
但AI声音事件检测对于开发者来说是比较复杂的技术,所需的技术资源与开发经验都很多。AV Pipeline Kit将这些功能以文件配置的形式直接带给开发者,并且其音频检测能力经过华为相关团队的长期深耕,可以确保声音识别的准确与稳定。
对于开发者来说,面对多媒体任务管理与配置时还有个很大的问题,就是相关的能力非常复杂,架构相对抽象。这一点让很多开发者望而却步,只能应用比较简单的多媒体功能,以避免在任务管理中浪费大量时间,甚至引发兼容问题。
但这种方式显然限制了开发者的想象力。AV Pipeline Kit提出了全新的解决方案,也就是流水线编排的多媒体管线服务。AV Pipeline Kit基于全新的架构梳理,实现了将不同能力抽象成对应的插件,便于框架进行管理。在实际开发场景中,开发者只需要简单配置文件,就可以实现管理多媒体管线的上下游插件,完成复杂的管线编排。
形象地理解这种操作方式,就是将多媒体任务放在同一个“工厂”的框架下,以工业流水线的形式实现对各种任务的编排管理。而各种各样的多媒体能力就成为了流水线上的产品。作为流水线和工厂的主人,开发者获得了极高的易用程度,降低了多媒体开发的技术门槛。
从AI超分技术的加入,到流水线编排的实现,AV Pipeline Kit既有新的能力突破,也有原有功能的重新构筑,可以说将多种开发者急需的能力纳入一体,带来多样且统一的惊喜盒。
从宏观的产业价值上看,AV Pipeline Kit又给成为HMS生态开发者提供了一个新的契机与理由。
软硬件一体,构筑HMS的开发梦工厂
好莱坞被称为电影的梦工厂,不仅是因为这里是大片打造地,更因为好莱坞有各种各样的产业链、技术、生态支撑。在这里,电影人能找到各种所需的硬件、软件、人才、合作伙伴。最终才能让那些天才的想法、创造性的点子,变成大荧幕上的真实梦境。
梦工厂,从来都不是一天建造起来的,而是需要一点点累积和升级,不断增加生态的凝聚力和吸引力。致力于打造移动生态第三极的HMS,当然希望成为一座移动开发者的梦工厂。而HMS Core就肩负着这座梦工厂的技术差异化。只有在这里可以实现的技术可能性越来越多,真正满足开发者需求,这个技术生态才有活力可言。
此前,我们已经介绍过HMS Core的很多组成部分。而最新的AV Pipeline Kit则构筑了HMS Core 6.0时代关于AI和多媒体的巨大惊喜,也成为HMS技术生态的重要组成部分。
在AV Pipeline Kit背后,我们可以看到华为在端侧的整体软硬件布局,不断发挥着协同与整合的优势。比如为了实现这个Kit,就汇集了AI、多媒体、硬件等多个部门的协同合作,才最终让端侧AI超分这样的新技术,与多媒体管理平台融为一体。
再向后看,AV Pipeline Kit与更加底层的华为技术布局保持着深度融合。目前来看,业界还没有哪个平台或者技术工具,能够实现端侧化、智能化的多媒体管线服务。而AV Pipeline Kit能开创先河的原因,很大部分来自软硬件一体化的协同优势。
比如说,AV Pipeline Kit就和华为HiAI Foundation平台协同,实现了芯片底层的免拷贝式接口对接,与从而节省了非常多的调用开销,让AV Pipeline Kit在华为硬件平台上可以实现更好的开发体验。
再向底层看,业界部署超分主要以CPU、GPU为主,但NPU可以带来更有针对性优化,针对超分业务,NPU可以提供更高算力和更优的功耗,提供更好的端侧AI计算体验。NPU的能力直接助力AV Pipeline Kit,让端侧超分不仅可以实现,还可以向更具挑战性的直播等场景进发。
或许可以说,很多HMS Core的组成部分,都在更深层地调用华为在终端侧硬件、软件、AI等技术的协同与互补优势,往往能实现合力创造全新价值的技术支点。
这样的价值逻辑,将从AV Pipeline Kit延伸到更多的开发者赋能技术中。开发者们都深知,有技术才有未来,有创造性才有市场。AV Pipeline Kit以及HMS生态,就是带给他们这样一份礼物——一个可以持续期待,永远充满未来的惊喜盒;一座能用“技术打印机”,把创意变成现实的梦工厂。