实时交互、感知情绪……新版ChatGPT真的“更像人”了？-

这是美国开放人工智能研究中心（OpenAI）发布GPT-4o的直播视频截图

新华社北京5月15日电美国开放人工智能研究中心（OpenAI）13日展示最新版本ChatGPT：与使用者展开语音对话、识别图像并展开讨论、翻译……相比先前版本，它与使用者对话基本无延迟，会倾听，能唠嗑，还善于察言观色，让人惊呼新版本ChatGPT“更像人”了。

新版本ChatGPT取得了哪些突破？能在哪些领域实现应用？它对人工智能领域的影响有多大？新华社记者为您解局——

有哪些“进化”？

开放人工智能研究中心13日发布的人工智能模型名为GPT-4o，编号中的字母“o”代表“omni”（全能），既能接受文本、音频和图像的任意组合输入，还能生成文本、音频和图像的相关回应。

这一中心不仅围绕GPT-4o做了直播演示，还在社交媒体发布更多视频“炫技”。

在发布的视频中，GPT-4o听起来明显“更会聊天了”，还时不时抛出几个笑话。它的音调有些许变化，言语间带着笑意，与它聊天更像与真人交谈。

实时聊天是ChatGPT的关键技能。相比先前版本，GPT-4o的不同主要表现在：一是使用者可以随时打断聊天机器人，无需像从前那样等它把话说完；二是它会实时对问题作出回应，不再有两到三秒的时滞；第三，它能感知人的情绪，比如演示者呼吸急促，它会询问对方是否需要稍稍稳定下情绪。另外，GPT-4o可以生成不同风格的声音。

演示中，GPT-4o利用其视觉和语音能力，指导演示者在纸上逐步解出一道方程题，而不是直接给出答案。它还展示了英语与意大利语互译、用自拍照片识别情绪等能力。当一名演示者告诉它，自己正展示它是“多么有用和不可思议”时，它回答道：“哦，快别说了，怪害臊的。”

开放人工智能研究中心首席执行官萨姆·奥尔特曼当天在博客中写道，GPT-4o就像电影中的人工智能技术。“与电脑交谈一直让我感觉不自然，现在自然了。”

应用潜力如何？

北京邮电大学人机交互与认知工程实验室主任刘伟说，无论是在文本生成、做题、问答系统还是情感分析等任务中，GPT-4o都表现出很好的能力。这种技术的突破，无疑将对国内外的相关企业产生重大影响，它不仅推动了自然语言处理技术的发展，也让人工智能在多个领域的应用变得更加广泛和深入。

他认为，GPT-4o将推动人工智能在金融服务、教育、医疗、无人驾驶汽车等领域的应用，有望引领人工智能技术全面发展。

4月23日，在德国汉诺威工博会上，参观者与一款智能机器人进行“石头剪子布”游戏。新华社记者任鹏飞摄

近年来，开发更人性化、功能更强大的生成式人工智能工具竞争激烈。就在开放人工智能研究中心发布GPT-4o的第二天，谷歌母公司字母表公司召开谷歌开发者年度会议，人工智能是重头戏。硅谷企业家埃隆·马斯克、技术企业“深层思维”创始人之一穆斯塔法·苏莱曼也分别投资开发了聊天机器人Grok和Pi，将拟人化特点作为产品主攻方向。

英国广播公司评论，GPT-4o能够结合文本、音频和图像内容瞬间做出反应，目前在竞争中处于领先地位。

开放人工智能研究中心首席技术官米拉·穆拉蒂说，GPT-4o定于几周内上线，用户可免费试用。ChatGPT原有付费用户将获得新版本更多使用权限。

需要担忧什么？

在开放人工智能研究中心公布的一段演示视频中，GPT-4o一步步引导一名男孩解答出数学题。一些网友直呼，再也不用辅导孩子写作业了。一些人却担心，教师这一职业会不会被人工智能取代。

一些人工智能专家认为，新版ChatGPT虽然可能比竞争对手水平更高且更易使用，但不太可能很快让一些职业彻底消失，从事教学或翻译工作的人更有可能会使用这些工具，而不是被它们取代。

新加坡人工智能计划人工智能产品高级总监莱斯利·特奥说，教学工作涉及到人类的同理心，“教师自己经历了学习过程并且了解人如何克服困难，而人工智能不同”。他认为，教学、翻译和客户服务等工作不可能因GPT-4o的出现而消失。

也有一些专家认为，技术演示能在大多数人中引起反响，它通常是精心打造的，未必能反映产品的真实功能。

刘伟说，GPT-4o的语音功能改变了对话式人工智能的游戏规则，但依然没有实现聊天机器人的深度态势感知能力，比如意图理解、动机分析等。此外，GPT-4o的进步在人工智能伦理和安全方面带来了新的挑战，需要我们在数据隐私、信息可信性、潜在偏见、恶意使用、意识和责任等方面开展新的思考。（记者：陈丹、袁原；剪辑：韩婧伊（实习生）；编辑：王丰丰、鲁豫、程大雨、沈浩洋）