OpenAI举行了名为「春季更新」的线上发布会,宣布推出GPT-4的升级款模型GPT-4o

nidongde2024-05-14 20:05:43115
编辑:吴洋洋

今天凌晨1:00(当地时间5月13日10:00),OpenAI举行了名为「春季更新」的线上发布会,宣布推出GPT-4的升级款模型GPT-4o,而不是人们期待已久的下一代模型GPT-5。

相比于去年11月的DevDay(开发者大会),此次OpenAI的发布会堪称简陋,前后持续不到半个小时,既没有精美的PPT也没有震撼的Demo,核心环节就是由首席技术官Mira Murati带着两位员工一起现场展示新模型,一向高调的首席执行官Sam Altman全程都没有出现。

发布会直接就是在OpenAI的办公室里举行的。

看上去,OpenAI似乎想营造一种这只是个「小小更新」的低调氛围,联想到明天凌晨Google即将召开一年一度声势浩大的I/O开发者大会,OpenAI的这种低调着实有点刻意。

Sam Altman没有出现在发布会上,不过他在发布会结束后发了个X(原Twitter)。

事实也是如此,虽然GPT-4o看起来还属于GPT-4系列,但它的变化可谓是翻天覆地,名字里的o是拉丁词缀omni的缩写,有包罗万象、全知全能的意思——这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」。

真正的「原生」多模态模型

不少人应该还记得去年Google发布Gemini大模型时的演示视频,一个人在纸上手绘一只鸭子在水里游泳的图,而Gemini在旁边通过摄像头实时观看,并且不断发表意见。Google期待用这个视频展现当时的GPT-4并不具有的能力——与周围环境实时、准确互动,这需要模型能够真正地理解动态图像,并且做出推理。

两个GPT-4o一句接一句即兴对唱歌曲。

Google将这种一开始就把多种形式(即多种模态)的数据放在一起训练,并使用同一个模型完成不同模态的内容输出的模型称为「原生」多模态,以区别于那些将多个模态(文本、代码、音频、图像和视频)先独立训练成不同模型,然后再拼凑在一起形成的「近似」多模态。

GPT-4o协助准备面试,对仪容仪表发表意见。

然而,没几天就有人发现Gemini的演示视频存在人为拼接痕迹,迫于压力Google不得不承认这个视频经过了美化,Gemini不仅无法做到实时反馈,并且也没有视频里那么聪明。

GPT-4o担任西班牙语和英语翻译。

自那以后,「原生」多模态模型就成了一个遥不可及的幻想,直到GPT-4o降临——它不仅像Gemini视频里那样长出了眼睛,并且还将多模态再次向前推了一大步,拥有了耳朵和嘴巴。


GPT-4o表演阴阳怪气。


观看OpenAI今天的现场演示后,我们在情感上已经很难再将GPT-4o当作是一个机器:「她」反应敏捷(响应延迟只有320毫秒,OpenAI称与人类无异)、能说会道(像歌舞剧演员那样用歌唱的方式说话)、善于分析(既能通过截屏读懂你电脑屏幕上的代码,也能通过手机摄像头理解纸上的数学题),还能察言观色(分析你的表情并做出适当回应),甚至是表达自我(对示爱表现出害羞的样子)。

GPT-4o通过摄像头当上了数学家教,帮助用户学习三角函数。

如果说过去的GPT还是一个助手,那么拥有了眼睛和嘴巴后的GPT已经在向朋友靠近了。不仅如此,拥有了新能力后的GPT-4o,也拥有了与硬件结合的更多可能性。

GPT-4o扮演锤子剪刀布游戏的裁判。

比如OpenAI在一段演示视频中就与专门为视障人士提供帮助的公司BeMyEyes合作,将GPT-4o植入到一位盲人游客的手机里,它借助摄像头成为了盲人的眼睛,告诉他面前发生的一切,例如白金汉宫的样子、公园的环境、出租车是否停下等等。不过这种场景下,一个更轻便小巧的AI硬件或许比手机更加合适。

通过摄像头,GPT-4o成为盲人向导。
与GPT-4o更自然的结合可能是智能眼镜,这也是Meta一直想要实现的场景——一个见你所见、听你所听的AI助手。Meta已将AI助手加入旗下Ray-Ban智能眼镜,功能将包括扫描地标、翻译外语、识别动植物品种等。OpenAI发布GPT-4o的同一天,The Information报道称,Meta还在探索更多与AI结合的设备,其中包括带有摄像头的人工智能耳机,功能是用于识别物体和翻译外语。

Meta在其Ray-Ban智能眼镜中添加了AI助手。

一款加载了GPT-4o的智能眼镜或智能耳机很可能是下一个时尚与科技兼具的单品,受欢迎程度和市场规模起码与Apple Watch相当。

更多的免费功能

除了推出新模型,在产品上OpenAI也做出了诸多更新。

首先就是最先进的新模型GPT-4o不再由付费用户独享。OpenAI表示,未来ChatGPT免费用户的默认模型将升级成GPT-4o,不过使用额度是有限的,当超过限额后就会切换回GPT-3.5模型。这个使用额度会根据当前需求实时变化,前提是优先保证付费用户的使用体验,付费用户能够在GPT-4o上每3小时最多发送80条消息。

2013年情人节上映的科幻电影《Her》中,男主人公的恋爱对象就是一位AI。

此外,大量之前只有付费用户才能使用的功能也开放给免费用户了。例如:

  • 数据分析

  • 文件上传

  • 联网功能

  • 使用GPTs和GPT Store

  • 生成图片

  • 记忆功能

最后,OpenAI还推出了ChatGPT的macOS客户端,用户可以通过快捷键即刻向ChatGPT提问,或者直接在ChatGPT内截屏提问。目前付费用户已经可以直接下载macOS客户端了,免费用户将在几周后开放下载,至于Windows客户端得等到下半年了。

本文链接:https://fsby.vip/chatgpt/66.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

网友评论