OpenAI 开始推出 ChatGPT 的高级语音模式（Advanced Voice Mode），让用户首次体验到 GPT-4o 的超逼真语音回复。

CHATGPT入口2024-08-01 00:36:45894

一小部分 ChatGPT Plus 用户将可以使用 alpha 版本，OpenAI 表示，该功能将在 2024 年秋季逐步推广到所有 Plus 用户。不过，此前在GPT-4o 演示中的视频和屏幕共享功能将在未来推出。

ChatGPT 以前的音频解决方案使用了三个独立的模型：一个模型将语音转换成文本，GPT-4 处理提示，然后第三个模型将 ChatGPT 的文本转换成语音。

而集成了GPT-4o 的高级语音功能是一个端到端跨文本、视觉和音频的单一新模型，能够在没有辅助模型的帮助下处理这些任务，从而大大降低了对话的延迟。同时GPT-4o 可以感知语音中的情感语调，包括悲伤、兴奋或歌唱。

此外，该公司表示，高级语音模式将仅限于 ChatGPT 与付费配音演员合作制作的四种预设语音：Juniper、Breeze、Cove 和 Ember，在 OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。

这是由于这个名叫 Sky 的声音酷似电影《她》中人工助手的扮演者斯嘉丽-约翰逊（Scarlett Johansson）。在 OpenAI 演示之后不久，约翰逊说她拒绝了首席执行官山姆-奥特曼（Sam Altman）关于使用她的声音的多次询问，在看到 GPT-4o 的演示之后，她聘请了法律顾问为自己的肖像权辩护。

OpenAI 否认使用了约翰逊的声音，但后来删除了演示中的声音。 "我们已经确保 ChatGPT 不能冒充他人的声音，包括个人和公众人物的声音，并将阻止与这些预设声音之一不同的输出。"克里斯蒂安森说。

实际上高级语音模式原定于 6 月底发布 alpha 版，但 OpenAI 将推出时间推迟了一个月，以 "达到我们的推出标准"。作为延迟的一部分，该公司表示正在 "改进模型检测和拒绝某些内容的能力"。

OpenAI 发言人Taya Christianson 表示，公司与 100 多名 45 种不同语言的外部红队人员（试图攻击技术以找出弱点的人）一起测试了语音模型的能力。该公司最近在安全政策方面受到了很多审查，因此暂停测试可能是正确的选择。 OpenAI 还 "添加了新的过滤器，可以识别并阻止某些生成音乐或其他受版权保护音频的请求"，Christianson 说。

此外该公司还表示，它正在准备基础设施，以便为数百万用户提供实时响应。

ChatGPT 高级语音模式的发布也进一步将 OpenAI 与竞争对手拉开差距，如 Meta 的新款 Llama 模型和 Anthropic 的 Claude，并给专注于情感语音的人工智能初创公司 Hume 带来一定压力。

参考来源：

https://help.openai.com/en/articles/9617425-advanced-voice-mode-faq

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

本文链接：https://fsby.vip/chatgpt/84.html

chatgpt官网网页版 chatgpt官网登录后怎么用 chatgpt官网中文版能做什么 chatgpt官网哪里设置中文 chatgpt官网如何注册 chatgpt下载手机版官网 chatgpt官网怎么进入 openai官网下载chatgpt chatgpt4官网中文版 chatgpt官网下载