没想到,仅仅过了两个月,全球最强AI的宝座又易主了!
几个月前,Claude3 Opus全面超越GPT-4,全球的网友纷纷抛弃GPT,投向Claude3的怀抱,并纷纷分享Claude3带来的惊艳体验。
如今,OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!
在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:
除了命名为GPT-4-Turbo-2024-04-09的API版本,ChatGPT的Web版本也已经向付费PLUS会员开放。
如果你的知识库数据集截止时间已经更新为2023年12月,那恭喜你已经成功接收到了新版本的推送。如果还没有,那不妨再耐心等待一下。
值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。
虽然 GPT-4-Turbo 发布已久,但一直以“预览版”的方式提供。
这次也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。
据介绍,更新后的版本在写作、数学、逻辑推理以及编程等多个领域均实现了显著进步。
使用新版GPT4写作,你会发现它的响应速度提升,交流更为流畅,并且表达方式更趋于口语化。
简而言之,新版本的写作风格更贴近人类的自然语言,多了些人情味,少了点AI机器味。
AI邦第一时间通过国内最稳、更新最快的AI工具站BotGo·机器国进行了GPT-4-Turbo体验。
附BotGo·机器国地址(聚合数十款全球最新最强AI大模型):
https://botgo.cc
BotGo·机器国是一个AI大语言模型和智能机器人的竞技场,致力于发现和创造有灵魂的AI机器人。
他们正在做的一件事情就是对接全球最强的AI大语言模型和智能机器人,由真人在实战环境中对大模型和机器人进行基准测试,并汇总全部真人投票数据发布排行榜单。
所以,BotGo·机器国简直就是为做大模型测试量身定做的理想环境。
好了,话不多说,我们这就开始测评了,Bot go!
最新版GPT-4.5-Turbo 大战 Claude 3 Opus
代码能力测试
首先我们来看看代码debug方面的表现:
这是一个很隐蔽的bug,以前的Claude 3 Opus是完全没找到bug在哪,现在经过调教有所进步,已经能够发现Bug的问题,并且提供了修复的代码。
其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo不仅能找到bug,修改后的代码也更为优质,而且除了Bug之外还提出了索引处理和效率方面的问题及建议,整体表现确实比Claude3更为优秀。
非常惊艳,这应该是世界上唯二能够修复这个bug的AI了。
附BotGo·机器国地址(以上案例可在BotGo·机器国直接复现):
https://botgo.cc
科研学术能力测试
然后我们来看看专业学术问题的表现。
我们这次加大难度,上传一个生物样品图片给AI:
然后我们在BotGo·机器国上看看Claude3、GPT4和Gemini Pro这三个地表最强的多模态AI,对这个图片分析的结果:
结果发现,最新版的GPT-4好像还不能解析上传的图片,可能还在调测当中。在图片问答方面还是不如Claude-3 Opus。
这方面的能力排序是 Claude-3 > Gemini Pro > GPT-4。
附BotGo·机器国地址(以上案例可在BotGo·机器国直接复现):
https://botgo.cc
我们再换一个专业问题,让AI大模型来讲述最近大火的文生视频模型Sora的技术原理,而且要让高中生也能听明白哈哈。
关于Sora技术原理的解释,所有的AI中,GPT-4和Gemini表现都非常优秀。
Claude-3有些片段出现了知识性的错误——Sora是生成式的,不是检索式的。而Kimi则只提到了深度学习技术,但没明确具体的技术架构和路径。
Gemini非常形象地将Sora所采用的卷积网络技术类比于乐高的积木结构,确实更容易理解。GPT-4则在专业性上更胜一筹。
我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。
附BotGo·机器国地址(以上案例可在BotGo·机器国直接复现):
https://botgo.cc
营销能力测试
这次测试加大难度,直接丢给AI一个威狮云通信的介绍文档PDF,让它去生成一篇营销文案和搜索SEO的标题。
结果发现这次的GPT-4正式版是还不能支持文档分析的,这也和官方的公布信息一致,要进行文档分析还是要有请最强大的GPT4多模态全能版本。
AI写作能力测试
最后测试下AI写作能力!
写作的测试结果就要见仁见智了,每个人的看法都可能不一样。
这里面我最喜欢的是Claude-3写的文章,既能比较口语化富有感染力,内容也有一定的深度。
GPT-4和Gemini Pro差不多,GPT-4更专业,Gemini Pro更流畅,速度也快一些。
Kimi感觉相对欠缺一些,象写给低龄的孩子,稍显幼稚。
之前LMSYS平台曾曾专门做过测试对比,GPT4的英文写作更强,而Claude3的中文写作能力更胜一筹,这可能也是我从Claude2开始就喜欢上这个小德子的原因吧。
附BotGo·机器国地址(以上案例可在BotGo·机器国直接复现):
https://botgo.cc
好了,今天的评测就到这里了。你们更喜欢哪个AI呢?
最后附上GPT-4 的版本介绍:
▶ GPT-4-Turbo-2024-04-09
GPT-4-Turbo 首次发布的正式版
基础能力更新,按官方说法:Majorly improved GPT-4 Turbo model 自带读图能力,无需使用 4v 接口 128k 上下文 训练数据截止至 2023 年 12 月 输入:$10.00 / 100万 tokens 输出:$30.00 / 100万 tokens 读图:最低 $0.00085 / 图
▶ GPT-4
发布于去年的 3 月 14 日(即 0314 版),后续更新 0613 版,支持 8k 上下文,是经典版的 GPT-4。
输入:$30.00 / 100万 tokens 输出:$60.00 / 100万 tokens
▶ GPT-4-32k
与 GPT-4 同期发布,也是有 0314 和 0613 两个子版本,支持 32k 上下文,是当时上下文最长的模型,但非常贵。
输入:$60.00 / 100万 tokens 输出:$120.00 / 100万 tokens
另说一下,这个模型是邀请制,至今未公开提供。
▶ GPT-4-Turbo-Preview (即 GPT-4 Turbo 预览版)
发布于去年的 11 月 6 日(即 1106 版),后续更新 0125 版,支持 128k 上下文,并且大幅降价。
输入:$10.00 / 100万 tokens 输出:$30.00 / 100万 tokens
▶ GPT-4-Vision-Preview (即 GPT-4 Turbo 的读图版)
和 GPT-4-Turbo-Preview 同一时间发布,也包括 1106 版和 0125 版,价格保持一致,但给的用量不多。
输入:$10.00 / 100万 tokens 输出:$30.00 / 100万 tokens
读图的价格看分辨率:最低 $0.00085 / 图
附BotGo·机器国地址(以上所有模型版本均可在BotGo·机器国找到):
https://botgo.cc
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~感谢你看我的文章。
免责声明:本文观点仅供交流学习,内容基于公开资料整理,不代表任何官方立场。如有侵权,请及时联系删除。
一 叶 知 秋 一 隅 观 局
/ 点击👆 AI邦 👇关注我,加★星标★ /
网友评论