只需15秒音频，AI即可帮助失语者“重获声音”？-

OpenAI 在官网分享了他们在 AI 语音合成方面的一些进展——公布了一个名为“语音引擎”（Voice Engine）的模型的小规模预览的初步见解和结果。

据介绍，该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是，一个只有 15 秒样本的小型模型就能生成富有感情和逼真的声音。

早在 2022 年底，OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。

今天，通过一些实际案例，OpenAI 分享了一些 Voice Engine 的早期应用。

例如，使用 Voice Engine 帮助恢复一名因血管性脑肿瘤而失去流利语言能力的年轻患者的声音。

此外，Voice Engine 还可以被用来提供阅读帮助、翻译内容、为不会说话的人群提供支持等。

图库版权图片，转载使用可能引发版权纠纷

1）通过声音自然、富有感情的声音为非阅读者和儿童提供阅读帮助

这些声音代表了更广泛的说话者，而不是预设的声音。Age of Learning 是一家教育技术公司，该公司一直在使用 Voice Engine 生成预设的画外音（voice-over）内容。他们还利用 Voice Engine 和 GPT-4 创建实时、个性化的回应，与学生互动。

2）翻译视频和播客等内容

Voice Engine 可以让创作者和企业可以用自己的声音流利地向世界各地更多的人传播。据 OpenAI 介绍，HeyGen 是这方面的早期应用者之一。HeyGen 是一个人工智能视觉故事平台，通过使用 Voice Engine 进行视频翻译，将演讲者的声音翻译成多种语言，并覆盖全球受众。用于翻译时，Voice Engine 会保留原说话者的母语口音：例如，用法语说话者的音频样本生成英语，就会产生带有法语口音的语音。

3）为不会说话的人群提供支持

Voice Engine 可以为患有影响语言的疾病的人群提供治疗应用，为有学习需求的人群提供教育增强功能等。Livox 是一款人工智能替代性交流应用程序，为辅助性和替代性交流（AAC）设备提供支持，使残疾患者能够进行交流。Voice Engine 能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音，对于多语种用户，每种口语都能保持一致的语音。此外，Voice Engine 还通过改善偏远地区的基本服务提供深入全球社区。例如，Dimagi 正在为社区卫生工作者开发工具，从而提供各种基本服务，如“为母乳喂养的母亲提供咨询”。为了帮助这些工作人员提高技能，Dimagi 使用 Voice Engine 和 GPT-4 以每位工作人员的主要语言（包括斯瓦希里语或更加非正式的语言）提供互动反馈。

OpenAI 表示，由于合成语音有可能被滥用，他们对更广泛的发布采取了谨慎和知情的态度，选择在此时预览但不广泛发布这项技术。

他们在与这些合作伙伴签订的条款中，要求获得原发言人的明确和知情同意，且不允许开发人员为个人用户创建自己的声音。这些合作伙伴还必须向受众明确披露，其听到的声音是人工智能生成的。

此外，OpenAI 还实施了一系列安全措施，包括水印以追踪 Voice Engine 生成的任何音频的来源，以及主动监控其使用情况。

OpenAI 表示，他们鼓励在未来加快开发和采用追踪视听内容来源的技术，让人们始终清楚自己是在与真人互动还是在与人工智能互动，并帮助公众了解人工智能技术的能力和局限性，包括人工智能欺骗性内容的可能性等。

参考资料：

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices