GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!

OpenAI 最新旗舰大模型 GPT-4o,不仅免费使用,功能更是全面覆盖听觉、视觉和语音,体验丝滑流畅毫无延迟,仿佛在进行一次视频通话。

图片[1]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

直播效果更是惊艳:

它能感知你的呼吸节奏,并用更加丰富的语气实时回应,甚至可以在适当时打断对话。

GPT-4o 中的 “o” 代表 Omni,即 “全能”,能够接受文本、音频和图像的任意组合输入,并生成相应的输出。

响应速度快至 232 毫秒,平均 320 毫秒,与人类对话反应速度一致。

图片[2]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

这是一次馈赠所有人的大礼,GPTo 与 ChatGPT Plus 会员版的所有功能,包括视觉、联网、记忆、执行代码、GPT Store 等,都将免费开放!

(新语音模式将在几周内优先向 Plus 用户开放)

在直播现场,CTO Murati 谦虚地表示:这是将 GPT-4 级别的模型开放给大家。

研究员 William Fedus 揭秘,GPT-4o 是之前在大模型竞技场进行 A/B 测试的模型之一,名为 im-also-a-good-gpt2-chatbot。

无论是用户体验还是竞技场排名,GPT-4o 都超过了 GPT-4-Turbo 级别模型,ELO 分数遥遥领先。

 

这样的超强模型还将提供 API 服务,价格减半,速度提高一倍,单位时间调用次数是原来的五倍!

 

观看直播的网友已经在畅想其应用前景,认为它可以帮助盲人“看见”世界,并且确实比之前的语音模式体验更佳。

 

考虑到许多人已经在 ChatGPT 语音模式中找到“恋爱”感觉,大家可以在评论区分享你的大胆想法。

图片[3]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

总裁 Brockman 在线演示

OpenAI 发布会选在谷歌 I/O 前一天,意在“打脸”。谷歌 Gemini 的发布会需要通过剪辑和提示词切换来实现的实时对话效果,OpenAI 则全程直播演示。

例如,让 ChatGPT 在不同语言间充当翻译器,实时将英语翻译成意大利语,反之亦然。

 

发布会直播之外,总裁 Brockman 还进行了额外的 5 分钟详细演示。

演示中两个 ChatGPT 互相对话,甚至唱起了对话内容,戏剧感满满。

这两个 ChatGPT,一个是旧版 APP,只能对话,另一个是新版网页,具备视觉等新功能。(分别简称为小 O 和小 N)

图片[4]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

Brockman 先向小 O 介绍情况,告知她将与一个拥有视觉能力的 AI 对话,她欣然接受。

然后,Brockman 向小 N 介绍情况,并展示了小 N 的视觉能力。

小 N 准确描述了 Brockman 的衣着和房间环境,并对与小 O 对话表示兴趣。

 

 

接下来是小 O 和小 N 的对话时间。她们从 Brockman 的衣着开始聊起,小 O 提出问题,小 N 一一解答。

然后,她们谈论了房间的风格、布置和光线,甚至小 N 还意识到 Brockman 正在上帝视角观看她们。

 

 

视频中有一名女性在 Brockman 身后做了些恶搞的手势,这是 Brockman 与她串通好,专门给小 N 设置的“考题”。

当 Brockman 问有无发现异常,小 N 直接识破并描述了女性的动作,小 O 听后感叹原来享受乐趣的不止她们两人。

Brockman 将这视为夸赞,并加入了对话。

最后的部分最为精彩,小 O 和小 N 在 Brockman 的指挥下对唱起来。几轮之后,衔接紧密,旋律悠扬,音色如真人。

图片[5]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

 

视频以 Brockman 唱出的 Thank you 结束,他在推文中透露新语音对话功能将在数周内向 Plus 用户开放。

 

端到端训练,一个神经网络搞定语音、文本和图像

正如奥特曼在发布会前所说,GPT-4o 让人感觉像魔法一样,那么它是如何做到的呢?

这次没有论文,也没有技术报告,只在官网博客有一段简短说明。

在 GPT-4o 之前,ChatGPT 语音模式由三个独立模型组成:语音转文本→GPT3.5/GPT-4→文本转语音。

整个系统的延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),丢失了大量信息,无法直接感受音调、多个说话者或背景噪音,也无法输出笑声、唱歌声,或表达情感。

GPT-4o 是跨文本、视觉和音频端到端训练的新模型,所有输入和输出都由同一个神经网络处理。

在语音翻译任务上,强于 OpenAI 的语音模型 Whisper-V3,以及谷歌和 Meta 的语音模型。

图片[6]-GPT-4o震撼夜间发布!AI实时视频通话如真人般流畅,Plus功能限时免费!-零度博客

在视觉理解上,也反超了 Gemini 1.0 Ultra 与对手 Claude Opus。

虽然技术细节透露不多,但有学者评价,一个成功的演示胜过千篇论文。

 

One More Thing

除了 OpenAI 的精彩内容,不要忘记北京时间 5 月 15 日凌晨,谷歌将召开 I/O 大会。

零度解说将继续第一时间带来最新消息。

有网友推测,GPT-4o 如此强大,还免费开放,是劝大家不续订 ChatGPT Plus 吗?

当然不是~

鉴于 OpenAI 春节期间在谷歌发布 Gemini 1.5 Pro 后半小时用 Sora 狙击,明天 OpenAI 或许还有新动作?

直播回放

https://www.youtube.com/watch?v=DQacCB9tDaw

参考链接:

[1] https://openai.com/index/hello-gpt-4o/

© 版权声明
THE END
喜欢就支持一下吧
点赞1527 分享
相关推荐
一夜暴涨!比特币飙升至6.3万美金,背后原因是什么?如何在电脑上挖矿? | 零度解说-零度博客

一夜暴涨!比特币飙升至6.3万美金,背后原因是什么?如何在电脑上挖矿? | 零度解说

https://www.youtube.com/watch?v=vSoHrKaGEHQ ====== 比特币挖矿软件下载:https://www.freedidi.com/11702.html
admin的头像-零度博客黄金会员admin
1.3W+1527
世界排名前5的比特币钱包,完全去中心化才是真正的安全 | 零度解说-零度博客
Windows10家庭版中开启组策略代码-零度博客

Windows10家庭版中开启组策略代码

@echo off pushd '%~dp0' dir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum >List.txt dir /b C:\Windows\servicing\Packages\Microso...
破解电脑开机密码!当你忘记电脑登入密码的时候,用这两种方法即可搞定!适合 win11/win10 系统 | 零度解说-零度博客

破解电脑开机密码!当你忘记电脑登入密码的时候,用这两种方法即可搞定!适合 win11/win10 系统 | 零度解说

https://youtu.be/p6FqRtr6VEQ?si=XU9btx8mW4Tog25u =========== Windows 11开机密码破解;https://www.youtube.com/watch?v=p6FqRtr6VEQ windows 10 开机密码破解:https://youtu.be/p6FqRtr6V...
admin的头像-零度博客黄金会员admin
1.7W+1682
微软过时的驱动程序列表使 Windows PC 多年来一直受到恶意软件攻击-零度博客

微软过时的驱动程序列表使 Windows PC 多年来一直受到恶意软件攻击

  根据最新的一份安全报告显示,微软近三年来未能正确保护 Windows PC 免受恶意驱动程序的侵害。尽管微软表示其 Windows 更新将新的恶意驱动程序添加到设备下载的阻止列表中,但Ars Techni...
admin的头像-零度博客黄金会员admin
1.6W+2250
美颜相机APP一网打尽!瘦身、变脸、美肤免费用!-零度博客

美颜相机APP一网打尽!瘦身、变脸、美肤免费用!

  1.美颜相机:【点击下载】 2.FaceU:【点击下载】 3.轻颜:【点击下载】 4.B612相机:【点击下载】 5.黄油美颜:【点击下载】
admin的头像-零度博客黄金会员admin
1.3W+1527
免费资源网站推荐!这8个都是宝藏,请君收下 | 零度解说-零度博客

免费资源网站推荐!这8个都是宝藏,请君收下 | 零度解说

1.Windows/Office 的 KMS 一键生成脚本 【按要求去除了,自行Google】 2.Audiohub是一个提供免版税音乐的国外网站 【官网】 3.免费AI图片、视频制作网站 【官网】 4.免费SSL证书一键生成【链接...
admin的头像-零度博客黄金会员admin
1.4W+1527
AnimateAnyone  只需一张图片,即可生成与角色一致且动作可控的生动视频-零度博客

AnimateAnyone 只需一张图片,即可生成与角色一致且动作可控的生动视频

Animate Anyone 只需一张角色图片,即可生成与角色一致且动作可控的生动视频。   https://www.youtube.com/watch?v=8PCn5hLKNu4       1、Github 开源项目 【点击前往 】 &...
admin的头像-零度博客黄金会员admin
2.1W+3252
苹果抛弃密码!这是您需要知道的一切-零度博客

苹果抛弃密码!这是您需要知道的一切

在 iOS 16 和 macOS Ventura 中,Apple 引入了密码——一种更方便、更安全的密码替代方案。   多年来,我们被承诺结束基于密码的登录。现在,无密码未来​​的现实正在向前迈出一大步,为...
admin的头像-零度博客黄金会员admin
1.6W+2250