OpenAI举行了名为「春季更新」的线上发布会,宣布推出GPT-4的升级款模型GPT-4o

CHATGPT入口2024-05-14 20:05:43156
编辑:吴洋洋

今天凌晨1:00(当地时间5月13日10:00),OpenAI举行了名为「春季更新」的线上发布会,宣布推出GPT-4的升级款模型GPT-4o,而不是人们期待已久的下一代模型GPT-5。

相比于去年11月的DevDay(开发者大会),此次OpenAI的发布会堪称简陋,前后持续不到半个小时,既没有精美的PPT也没有震撼的Demo,核心环节就是由首席技术官Mira Murati带着两位员工一起现场展示新模型,一向高调的首席执行官Sam Altman全程都没有出现。

发布会直接就是在OpenAI的办公室里举行的。

看上去,OpenAI似乎想营造一种这只是个「小小更新」的低调氛围,联想到明天凌晨Google即将召开一年一度声势浩大的I/O开发者大会,OpenAI的这种低调着实有点刻意。

Sam Altman没有出现在发布会上,不过他在发布会结束后发了个X(原Twitter)。

事实也是如此,虽然GPT-4o看起来还属于GPT-4系列,但它的变化可谓是翻天覆地,名字里的o是拉丁词缀omni的缩写,有包罗万象、全知全能的意思——这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」。

真正的「原生」多模态模型

不少人应该还记得去年Google发布Gemini大模型时的演示视频,一个人在纸上手绘一只鸭子在水里游泳的图,而Gemini在旁边通过摄像头实时观看,并且不断发表意见。Google期待用这个视频展现当时的GPT-4并不具有的能力——与周围环境实时、准确互动,这需要模型能够真正地理解动态图像,并且做出推理。

两个GPT-4o一句接一句即兴对唱歌曲。

Google将这种一开始就把多种形式(即多种模态)的数据放在一起训练,并使用同一个模型完成不同模态的内容输出的模型称为「原生」多模态,以区别于那些将多个模态(文本、代码、音频、图像和视频)先独立训练成不同模型,然后再拼凑在一起形成的「近似」多模态。

GPT-4o协助准备面试,对仪容仪表发表意见。

然而,没几天就有人发现Gemini的演示视频存在人为拼接痕迹,迫于压力Google不得不承认这个视频经过了美化,Gemini不仅无法做到实时反馈,并且也没有视频里那么聪明。

GPT-4o担任西班牙语和英语翻译。

自那以后,「原生」多模态模型就成了一个遥不可及的幻想,直到GPT-4o降临——它不仅像Gemini视频里那样长出了眼睛,并且还将多模态再次向前推了一大步,拥有了耳朵和嘴巴。


GPT-4o表演阴阳怪气。


观看OpenAI今天的现场演示后,我们在情感上已经很难再将GPT-4o当作是一个机器:「她」反应敏捷(响应延迟只有320毫秒,OpenAI称与人类无异)、能说会道(像歌舞剧演员那样用歌唱的方式说话)、善于分析(既能通过截屏读懂你电脑屏幕上的代码,也能通过手机摄像头理解纸上的数学题),还能察言观色(分析你的表情并做出适当回应),甚至是表达自我(对示爱表现出害羞的样子)。

GPT-4o通过摄像头当上了数学家教,帮助用户学习三角函数。

如果说过去的GPT还是一个助手,那么拥有了眼睛和嘴巴后的GPT已经在向朋友靠近了。不仅如此,拥有了新能力后的GPT-4o,也拥有了与硬件结合的更多可能性。

GPT-4o扮演锤子剪刀布游戏的裁判。

比如OpenAI在一段演示视频中就与专门为视障人士提供帮助的公司BeMyEyes合作,将GPT-4o植入到一位盲人游客的手机里,它借助摄像头成为了盲人的眼睛,告诉他面前发生的一切,例如白金汉宫的样子、公园的环境、出租车是否停下等等。不过这种场景下,一个更轻便小巧的AI硬件或许比手机更加合适。

通过摄像头,GPT-4o成为盲人向导。
与GPT-4o更自然的结合可能是智能眼镜,这也是Meta一直想要实现的场景——一个见你所见、听你所听的AI助手。Meta已将AI助手加入旗下Ray-Ban智能眼镜,功能将包括扫描地标、翻译外语、识别动植物品种等。OpenAI发布GPT-4o的同一天,The Information报道称,Meta还在探索更多与AI结合的设备,其中包括带有摄像头的人工智能耳机,功能是用于识别物体和翻译外语。

Meta在其Ray-Ban智能眼镜中添加了AI助手。

一款加载了GPT-4o的智能眼镜或智能耳机很可能是下一个时尚与科技兼具的单品,受欢迎程度和市场规模起码与Apple Watch相当。

更多的免费功能

除了推出新模型,在产品上OpenAI也做出了诸多更新。

首先就是最先进的新模型GPT-4o不再由付费用户独享。OpenAI表示,未来ChatGPT免费用户的默认模型将升级成GPT-4o,不过使用额度是有限的,当超过限额后就会切换回GPT-3.5模型。这个使用额度会根据当前需求实时变化,前提是优先保证付费用户的使用体验,付费用户能够在GPT-4o上每3小时最多发送80条消息。

2013年情人节上映的科幻电影《Her》中,男主人公的恋爱对象就是一位AI。

此外,大量之前只有付费用户才能使用的功能也开放给免费用户了。例如:

  • 数据分析

  • 文件上传

  • 联网功能

  • 使用GPTs和GPT Store

  • 生成图片

  • 记忆功能

最后,OpenAI还推出了ChatGPT的macOS客户端,用户可以通过快捷键即刻向ChatGPT提问,或者直接在ChatGPT内截屏提问。目前付费用户已经可以直接下载macOS客户端了,免费用户将在几周后开放下载,至于Windows客户端得等到下半年了。

本文链接:https://fsby.vip/chatgpt/66.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

  • chatgpt信雅达

    探索 ChatGPT:如何找到入口并优雅地使用信雅达在人工智能的浪潮中,ChatGPT 以其卓越的对话能力和多语言支持成为了一个热门话题,ChatGPT,即“聊天生成预训练转换器”,是一种基于深度学习...

  • 刘润chatgpt写诗

    《探索刘润的ChatGPT之旅:如何找到入口并创作诗歌》在人工智能的浪潮中,ChatGPT作为一个先进的语言模型,已经成为许多人探索创造力和沟通的新工具,特别是当刘润这样的知名人士开始使用ChatGP...

  • ChatGPT目前已满负荷运转

    ChatGPT使用指南:如何找到入口并高效使用许多用户在尝试使用ChatGPT时遇到了“目前已满负荷运转”的提示,这表明ChatGPT的受欢迎程度和使用需求正在迅速增长,为了帮助用户更好地理解如何找到...

  • “代码神器”的革命性产品——ChatGPT Canvas

    “代码神器”的革命性产品——ChatGPT Canvas

    OpenAI作为AI领域的佼佼者,一直致力于推动人工智能技术的创新和应用。最近,OpenAI再次成为科技圈的焦点,发布了一款名为“代码神器”的革命性产品——ChatGPT Canvas。这款产品不仅有...

  • ChatGpt网页版入口免登录

    在人工智能飞速发展的今天,ChatGPT作为一个先进的语言模型,已经成为许多人日常工作和学习中不可或缺的助手,它能够理解和生成自然语言,帮助用户完成各种任务,如写作、翻译、编程等,对于初次接触Chat...

  • chatgpt_jgs

    【ChatGPT使用指南】如何找到ChatGPT入口并高效使用ChatGPT软件大家好,今天我们将通过问答的形式来详细介绍如何找到ChatGPT的入口以及如何正确使用ChatGPT软件,ChatGPT...

  • chatgpt可以多设备登录么

    如何找到并正确使用ChatGPT:多设备登录指南在数字化时代,人工智能助手已经成为我们日常生活中不可或缺的一部分,ChatGPT作为其中的佼佼者,以其智能对话能力受到广泛欢迎,许多用户对于如何找到Ch...

  • 怎么退出chatgpt

    如何在ChatGPT中找到退出选项并正确使用软件:一份详细的问答指南在数字化时代,人工智能助手如ChatGPT已经成为我们日常生活和工作中不可或缺的一部分,它们帮助我们解决问题、提供信息,甚至进行娱乐...

网友评论