6月3日上午,元宇宙百人会启动仪式在国家科技传播中心四楼高端发布大厅举行。清华大学新闻学院元宇宙文化实验室主任沈阳以《AIGC发展研究》为题进行了主旨报告。
沈阳表示,当前AIGC(利用人工智能技术来生成内容)发展迅猛。AIGC现在的典型发展趋势是全球智能、虚实协同,即通过人和机器的紧密协作,充分利用信息、能源和材料等资源,以及借鉴历史经验、关注当下现象和展望未来趋势,实现社会、经济和技术的可持续发展。现在国内在这个领域的产业发展格局是巨头持续发展,小微企业还在寻找发展机遇。
AIGC发展下去会怎么样?它和元宇宙之间在哪些点上可以汇合?这是需要关注的重点,其中多模态学习是一个重要的方面,大概GPT4、GPT5要做多模态学习。如果未来GPT6需要做知识推理,到GPT7就要做通用人工智能,到GPT8就要达到人类水平的自然语义理解。按照现在的路线图,大概5年左右就可以达到这样的水平。
AIGC能替代人类的很多脑力劳动
2022年11月30日ChatGPT发布之后,人工智能和元宇宙的领域发生了巨大的认知上的变化,原来人类认为体力劳动的替代会优先发生,也就是说我们在家里边干活会被机器人和人工智能替代一部分工作量,但是去年ChatGPT发布之后,大家发现在脑力劳动方面,可能有一部分工作会优先被ChatGPT之类的AIGC所替代。这是认知上的重大变化,甚至对整个行业都直接产生了重大影响。现在很多工作岗位都开始使用AIGC工具来替代人类的一部分工作。
沈阳表示AI替代某个工作主要取决于任务重复性、标准化程度、创新和判断能力的需求、数据依赖性、经济成本、交互复杂性等因素。而每个工作的任务构成决定了最后的整体替代率,以AIGC对各个职业和角色的替代率而言,秘书60%的工作可以替代,领导决策20%的部分工作可以被替代,教授进行教学和研究,大约有30%的工作也可以被替代。总而言之,在很多行业有不少工作内容都可以被AIGC部分替代,这是各行各业都需要关注的。
生成式元宇宙的四个基本逻辑
从现在的生成式智能概念诞生了一些新的概念,比如说生成式数据,也就是说我们在生活当中大量使用的数据未来不是人生成的,而是由人工智能生成的,这就是生成式数据。对于元宇宙来说也是如此,未来的元宇宙,大部分工作不再需要人来完成,而是由人工智能来完成,所以元宇宙也是生成式元宇宙。
生成式元宇宙要基于生成式的数据、生成式的人工智能来搭建完成。以前认为元宇宙是人做出来的,沈阳表示,其实不是这样,元宇宙的工作量太大,它大部分的工作会由生成式智能来完成。我们今天的生成式智能往后有3个大的步骤:首先是理解式的人工智能,接着是要走向体验式的人工智能,再往后是自我意识觉醒的人工智能。
单就生成式元宇宙而言,现在有四个基本逻辑:第一个叫万数皆用于我,所有的数据都为我所用,这个是基础数据。第二个叫万物皆备于我,所有的元宇宙的对象在我的空间里边,它都是围绕着我来转的。第三个叫万技皆赋于我,所有的技能,譬如画画、雕塑、谱曲、写文言文、写科幻小说等,我在元宇宙里边都将拥有。第四个叫万感皆通于我,百感交集在真实世界里边很难做到,但是在元宇宙的世界里面非常容易实现,在这些虚拟、或者虚实相混的对象里可以实现万感皆通于我。这些基本逻辑也是生成式元宇宙最终要达成的目标。
大语言模型产业结合中国有独特的优势
Meta公司刚刚公布了ImageBind大模型,这个大模型支持六种数据,包括视觉、温度、文本、音频、深度信息、运动读数。Meta公司的首席科学家杨立昆(也是图灵奖得主)谈到,下一步要增加触觉、语音、嗅觉、大脑共振的信号。这个大模型就是元宇宙大模型。所以大模型要从语言的大模型,逐步走向多模态的大模型,再走向元宇宙的大模型。
当前大模型有两个趋势,第一个趋势叫做bigger and smarter,越来越大,每一代比上一代增加100倍以上,但也越来越智能,这个时间大概在1年左右。第二个趋势叫free and smaller,越来越小,但是它是免费的,也很聪明,可以装到手机里面。把一个大模型放到手机里面,未来手机就可以在授权的情况下,把微信的数据、微博的数据、小红书的数据、抖音的数据整合到一起,从而在手机上建一个自己的AI分身。
针对大家关心的中国的GPT大模型发展问题,沈阳认为中国不会只有一个大模型,每个企业和个人都将有自己的GPT,在确保安全可控的前提下,企业可以通过开源微调实现快速发展。在安全可控、多维优化的前提下,本地GPT还有较大的发展机遇。这是由于全球范围内语言和文化差异、数据安全及合规性要求等一些原因,大型语言模型的本地化是刚需,本地化能够提高模型在特定语言、文化和行业背景下的准确性和实用性,从而满足更多用户需求。
沈阳表示,在大语言模型和产业结合方面,中国有着自己独特的优势,现在中国的短视频世界第一,直播带货世界第一,移动游戏世界第一。另外,工业制造的GDP在2010年就已经是世界第一了,因此大语言模型可以和各个领域进行很好的结合,这是非常重要的一个方向。
不能忽视AIGC的风险
AIGC的风险是不能忽视的问题。譬如AI和生物病毒的制作相结合,对人类的影响是怎么样的?还有就是AIGC同机器人、互联网、无人驾驶汽车的结合会是怎么样的?这些都是大家非常关心的问题。核心思想是在AI觉醒之前的发展初期为其提供良好的训练环境和数据,以确保其成长过程中获得正确的价值观、认知和行为模式,确保AI安全和友善。
具体而言包括以下举措:伦理和道德原则纳入算法和模型的核心:使AI系统在做决策时遵循一定的道德规范,确保其行为符合人类的价值观和利益;提高AI系统的透明度和可解释性:有助于监管者和用户了解AI系统的运作原理,了解AI在特定情况下做出决策的依据;建立多方监管机制:建立跨学科、跨行业的监管机制,确保AI系统的开发和应用始终处于人类的控制范围内;加强对抗式训练和强化学习:使其在与其他AI或人类互动时更加适应且遵循人类的价值观,帮助AI系统更好地理解人类的行为和期望;培养具有同理心的AI:使其更加关心人类的需求和感受。这需要在AI系统的训练数据中包含人类的情感和社会行为信息;确保AI能力的可控性:限制其能力范围,防止其成为不受控制的存在。需要开发一种“安全锁”机制,以确保在关键时刻,人类可以介入并控制AI系统的行为。
AIGC的版权问题需要予以关注
在AIGC高速发展的当下,沈阳也提醒,版权是一个需要重点关注的问题,特别是AIGC产生的数据,它的版权尤其是二次创作版权问题,怎么样来处理?这需要研究。如果AI是完全自主地创作内容,没有人的直接参与,那么创作主体的确定就更为困难。
针对AI的开发者的创作主体如何认定,沈阳认为,需要在法律法规上予以明晰。目前,日本对AIGC的数据不进行版权保护,虽然做法比较激进,但是有助于AI大规模地发展。
沈阳表示,AIGC在跨界应用方面具有广阔的前景,场景强化、多元辐射是发展的方向和潮流,也将推动元宇宙领域快速发展。现在整体上来说,中国正处于AIGC和元宇宙结合的时间点上,中国需要抓住这个发展机遇,也需要解决其发展道路上遇到的一些问题和风险。