OpenAI 开始推出 ChatGPT 的高级语音模式(Advanced Voice Mode),让用户首次体验到 GPT-4o 的超逼真语音回复。
一小部分 ChatGPT Plus 用户将可以使用 alpha 版本,OpenAI 表示,该功能将在 2024 年秋季逐步推广到所有 Plus 用户。 不过,此前在GPT-4o 演示中的视频和屏幕共享功能将在未来推出。
ChatGPT 以前的音频解决方案使用了三个独立的模型:一个模型将语音转换成文本,GPT-4 处理提示,然后第三个模型将 ChatGPT 的文本转换成语音。
而集成了GPT-4o 的高级语音功能是一个端到端跨文本、视觉和音频的单一新模型, 能够在没有辅助模型的帮助下处理这些任务,从而大大降低了对话的延迟。同时GPT-4o 可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。
此外,该公司表示,高级语音模式将仅限于 ChatGPT 与付费配音演员合作制作的四种预设语音:Juniper、Breeze、Cove 和 Ember,在 OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。
这是由于这个名叫 Sky 的声音酷似电影《她》中人工助手的扮演者斯嘉丽-约翰逊(Scarlett Johansson)。 在 OpenAI 演示之后不久,约翰逊说她拒绝了首席执行官山姆-奥特曼(Sam Altman)关于使用她的声音的多次询问,在看到 GPT-4o 的演示之后,她聘请了法律顾问为自己的肖像权辩护。
OpenAI 否认使用了约翰逊的声音,但后来删除了演示中的声音。 "我们已经确保 ChatGPT 不能冒充他人的声音,包括个人和公众人物的声音,并将阻止与这些预设声音之一不同的输出。"克里斯蒂安森说。
实际上高级语音模式原定于 6 月底发布 alpha 版,但 OpenAI 将推出时间推迟了一个月,以 "达到我们的推出标准"。 作为延迟的一部分,该公司表示正在 "改进模型检测和拒绝某些内容的能力"。
OpenAI 发言人Taya Christianson 表示,公司与 100 多名 45 种不同语言的外部红队人员(试图攻击技术以找出弱点的人)一起测试了语音模型的能力。 该公司最近在安全政策方面受到了很多审查,因此暂停测试可能是正确的选择。 OpenAI 还 "添加了新的过滤器,可以识别并阻止某些生成音乐或其他受版权保护音频的请求",Christianson 说。
此外该公司还表示,它正在准备基础设施,以便为数百万用户提供实时响应。
ChatGPT 高级语音模式的发布也进一步将 OpenAI 与竞争对手拉开差距,如 Meta 的新款 Llama 模型和 Anthropic 的 Claude,并给专注于情感语音的人工智能初创公司 Hume 带来一定压力。
参考来源:
https://help.openai.com/en/articles/9617425-advanced-voice-mode-faq
https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/
本文链接:https://fsby.vip/chatgpt/84.html
chatgpt官网网页版chatgpt官网登录后怎么用chatgpt官网中文版能做什么chatgpt官网哪里设置中文chatgpt官网如何注册chatgpt下载手机版官网chatgpt官网怎么进入openai官网下载chatgptchatgpt4官网中文版chatgpt官网下载
网友评论