IDEA研究院沈向洋：如何解决GPT还未解决的问题-

·“大模型发展到今天，像GPT4.0已经能力非常强大，但其实也还存在很多问题，我们要找到其中的问题，去思考还可以做些什么。一个公认的远远没有解决的问题是多模态，除了文本以外，首先就是图像和计算机视觉。”

IDEA研究院（粤港澳大湾区数字经济研究院）创院理事长、美国国家工程院外籍院士沈向洋在深圳举行的2023 IDEA大会上。

“在大模型蓬勃发展的今天，我们要问自己几个问题，还有什么机会？我们还能做些什么？”

11月22日，IDEA研究院（粤港澳大湾区数字经济研究院）创院理事长、美国国家工程院外籍院士沈向洋在深圳举行的2023 IDEA大会上表示，“大模型发展到今天，像GPT4.0（OpenAI研发的大语言模型）已经能力非常强大，但其实也还存在很多问题，我们要找到其中的问题，去思考还可以做些什么。一个公认的远远没有解决的问题是多模态，除了文本以外，首先就是图像和计算机视觉。”

推出视觉提示模型T-Rex

那么视觉大模型还有没有机会？沈向洋认为，计算机视觉有许多自己的特点，第一是场景非常长尾，可以理解为“有一百个场景，就得有一百个模型”。第二是问题碎片化，而非结构化。这一方面意味着问题间差异大，另一方面则是互联网的数据并不足够将计算机视觉需要检测的场景都覆盖。这就意味着，像GPT之于语言理解领域一样，要解决这样的问题，计算机视觉领域也需要通用的视觉大模型。

今年4月，IDEA研究院曾推出“一句话检测、分割、生成一切”的工具Grounded SAM，其通过文字提示即可实现精准的目标检测，还可以利用Stable Diffusion模型对分割出来的区域做可控的文图生成，泛化能力极强。当时这个项目一经发布就在GitHub引起广泛讨论，基于生成模型其还可以做更多的拓展应用，如多领域精细化编辑、高质量可信的数据工厂的构建等。

沈向洋介绍研究团队带来的新作：视觉提示模型T-Rex。

此次大会上，沈向洋介绍同个研究团队带来的新作：视觉提示模型T-Rex。T-Rex是一个开箱即用的模型，无需重新训练或微调，即可检测模型在训练阶段从未见过的物体。产品研究团队表示，在真实应用场景中，许多罕见、复杂物体难以用文字充分描述，视觉提示的加入能够有效解决这一痛点。直观的视觉反馈与强交互性，也有助于提升检测的效率和精准度。

除此之外，沈向洋认为，大模型目前存在的另一个大问题即“一本正经地胡说八道”，“因为大模型整体是数据驱动，基本上可以把它想象为一个统计工具，所以其中一个最大的问题就是‘coherent nonsense’（有条理的胡诌）。”

如果真正要解决这个问题，提高大模型的深度推理能力，沈向洋认为必须要思考的是：第一大模型不擅长深度推理，相对较肤浅；第二大模型很自信讲出来的知识不可以溯源，所以真的是‘胡说八道’生成的；同时还有实时更新问题，目前通常用历史上的知识训练大模型，当有新的知识更新时，代价也比较大。

据沈向洋介绍，IDEA研究院的几个团队都在试图解决这一问题。在主题演讲中，他特别提到的一个思路是让大模型和知识图谱完成互补，即Think-on-Graph（思维图谱）技术。总体而言，大模型更擅长意图理解和自主学习，而知识图谱因其结构化的知识存储方式，则更擅长逻辑链条推理，具有更佳的可解释性与可实时更新性。Think-on-Graph通过实现两者的紧耦合交互，使大模型在知识图谱上“思考”，通过逐步搜索推理出最优答案（即在知识图谱的关联实体上一步一步搜索推理）。

据IDEA研究院执行院长、AI金融与深度学习研究中心负责人郭健介绍，“和ChatGPT相比，Think-on-Graph已经在七个典型的知识问答数据集上取得了SOTA（在特定时间实现的总体发展的最高水平）。除了深度推理能力提升外，还有一个天然优势即知识可追溯。”

“AI将对中低端人才形成冲击”

事实上，随着人工智能技术的快速发展，对于技术的担忧也越来越多。一个常常被讨论的问题是——这项技术发展到最后，将对人类意味着什么，会不会带来很多问题？

沈向洋也某种程度上间接做了回应，“如果在历史的长河中去思考，答案是非常简单也非常明确的。因为人类的存在在宇宙的发展中只是很短暂的一部分，人类的诞生是非常偶然的事情。”

更具体而言，当机器能写代码写论文，还能当医生以后，人类还能做什么？

对此，沈向洋提出两个观点：第一，现在人工智能的发展对尖端人才的要求跟以前没有太多的差距，但会对中端和低端人才形成冲击，比如简单准备收集资料的工作就可以由大模型完成。第二，沈向洋此前和他在微软的同事写过一本书《The Future Computed（计算未来）》，其中一个观点是，“如果未来的工具越来越好，生产力越来越高，人类的空余时间也会越来越多。就像以前一个星期工作7天，后来工作6天、5天，欧洲某些地方甚至只需要工作4天。同时空余时间多了以后，对于技能和人才也慢慢会出现新的定义。”

中国工程院院士高文也在对谈中回应道，相比AI，人更为擅长的地方是适应性强，“适应能力最强的科学家是最顶级、最优秀的科学家。”

高文认为，大模型出来后，随着人工智能的发展，对科学家、工程师的要求水涨船高，需要大家尽快调整，适应新情况。他举例说，“比如说写代码，已经不需要人从底层一点点往上写，更需要从中间或者更高层再往上写，所以就需要调整自己，尽快把以前那些自己觉得最骄傲的东西抛掉。在已有的基础上，能做得更好、与时俱进，才是更优秀的人才。”