谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看

科技巨头谷歌在年度I/O开发者大会重磅发布人工智能新品

北京时间5月15日凌晨,谷歌年度科技盛会I/O开发者大会拉开帷幕。正如预期,人工智能无疑成为了本次大会的核心主题。在为期两小时的精彩演讲中,谷歌相继发布了一系列人工智能创新产品和服务,引领AI科技浪潮。

人工智能新品抢先看:

图片[1]-谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看-零度博客

 

人工智能新品抢先看:

Gemini的广泛升级

谷歌推出了新模型“Gemini 1.5 Flash”,以作为Gemini 1.5 Pro更具成本效益的替代方案,同时仍具有强大的功能。Gemini 1.5 Flash从活动当天开始在谷歌的AI工作室和Vertex AI中提供公开预览版。

 

图片[2]-谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看-零度博客

2月份公布的Gemini 1.5 Pro也将迎来升级,在今年晚些时候将会把100万Tokens的窗口进一步扩大至200万,这将使其能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词。

谷歌CEO皮查伊强调了Gemini在跨语言方面的改进,它将以35种语言向全球所有开发人员提供。皮查伊表示,Gemini 1.5 Pro可以分析PDF和视频以提供摘要,这意味着当用户假期归来后,模型可以将电子邮件和附件一起进行总结。

专为在智能手机上运行而设计的Gemini Nano也从纯文本输入扩展到可以图片输入。谷歌表示,“手机将能通过文字、图片、视频、音频,理解用户的世界。”并且整个过程都是在本地运行,不会引发隐私泄露。

开源大模型Gemma也将有一系列的更新,定于下月推出的Gemma 2参数量将能达到270亿。最后,谷歌的第一个视觉语言模型PaliGemma也被添加到Gemma模型系列中。

Veo、Imagen 3、音频概述

针对OpenAI的Sora,谷歌也推出了自己的视频生成模型“Veo”,可以根据文字、图片和视频的提示,生成各种风格的高质量1080P视频。

公司表示,Veo可以更好地理解自然语言,从而生成更能代表用户视觉的视频。它还能理解“延时拍摄”等电影术语,以生成各种风格的视频,并让用户更好地控制最终输出。

图片[3]-谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看-零度博客

去年,谷歌推出了一款名为“SynthID”的工具,可以在AI生成的图像中嵌入人眼不可见的水印。在今天的大会上,公司宣布正在将这项工具扩展到文本和视频之中。上文提到的视频生成模型Veo,在该平台生成的所有视频都会包含SynthID水印。

谷歌还推出了新一代的图像生成模型“Imagen 3”,根据公司的说法该模型可生成迄今为止最高质量的图像,图像中具有更多细节和更少伪影,有助于创建更真实的视觉体验。

与Veo一样,Imagen 3也改进了其自然语言功能,可以更好地理解用户提示及其背后的意图。谷歌称,Imagen 3是渲染文本的最佳选择,目前只有选定的创作者才能使用,很快就会在Vertex AI中推出。

通过Gemini 1.5 Pro,音频概述(Audio Overview)功能可以基于源文件生成个性化和交互式音频对话。

AI赋能谷歌搜索

作为主业,谷歌自然会大力将AI融进其主导全球的搜索引擎之中。从本周开始,谷歌搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接归纳总结搜索结果。

同时谷歌搜索也将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题,并支持“拍视频”搜索解决方案的新搜索形式。

图片[4]-谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看-零度博客

根据现场演示,搜索引擎具备多步骤推理的能力,例如寻找一个瑜伽教室,同时展示新手优惠报价,和距离特定位置的步行时间。这个AI搜索引擎助手,还能介绍食谱、安排行程,以及接受视频形式的提问。

许多人可能都曾经历过花费数小时滚动浏览网页信息流来查找想要搜索的图片,对此,谷歌推出了AI解决方案。借助Gemini,用户可以在Google Photos中通过对话提示来查找他们寻找的图像。

在谷歌提供的案例中,一位用户希望看到他的女儿作为游泳运动员随着时间推移的进步,Google Photos自动筛选给出。谷歌表示,这项名为“Ask Photos”的功能将于今年夏季晚些时候推出。

Astra项目

谷歌在大会上宣布了一个名为“Astra”的高级视觉和对话响应智能体项目,即开发能在日常生活中提供帮助的通用AI智能体。媒体分析认为,这个项目旨在开发一种类似《钢铁侠》中人工智能系统“贾维斯”。

 

根据谷歌的说法,为了做到真正实用,智能体需要能够像人一样理解周围复杂多变的环境并做出反应——它需要能接收并记忆所见所闻,从而了解上下文信息并采取行动。

谷歌表示,它还需要具备主动性、“会学习”并能满足个性化需求,这样用户才能自然地与它交谈,不会有滞后或延迟。

DeepMind首席执行官Demis Hassabis在台上表示,“将响应时间缩短为对话式的内容是一项艰巨的工程挑战。”

AI芯片等硬件

谷歌推出了第六代TPU(张量处理单元)“Trillium”,将在2024年底向云客户提供。公司表示,与上一代TPU v5e相比,每个芯片的计算性能提高了4.7倍。

图片[5]-谷歌I/O发布会掀起科技狂潮,五大黑科技抢先看-零度博客

除了TPU,谷歌也会推出CPU和GPU来支持工作负载。

皮查伊也在大会上提到,谷歌云将成为首批提供英伟达Blackwell GPU的云提供商之一,他在演讲中强调了谷歌“与英伟达的长期合作伙伴关系”。

THE END
喜欢就支持一下吧
点赞1527 分享
安卓手机最好的免费音乐播放器推荐!-零度博客

安卓手机最好的免费音乐播放器推荐!

1. Leopard V7 音乐播放器 Leopard V7 的音乐播放器是适用于 Android 的最通用的免费音乐应用程序之一。如果您想拥有一款包含几乎所有经典歌曲和最新歌曲的集合的应用,您可以尝试一下。您可以...
老司机必备的6款软件!电脑远程控制、视频抠图、U盘系统启动等工具 | 零度解说-零度博客
如何使用 Google 日历处理任务和提醒-零度博客

如何使用 Google 日历处理任务和提醒

如果您将Google 日历用于约会、会议和活动,那么为什么不将它也用于任务和提醒呢?借助这些内置功能,您可以在一个方便的位置跟踪盘子上的所有内容。 市场上有很多任务应用程序和提醒应用程序。...
admin的头像-零度博客admin
1.5W+2251
快删!这9款“被植入病毒
Windows 11系统下找回 IE浏览器的代码-零度博客

Windows 11系统下找回 IE浏览器的代码

在文档下输入以下代码: CreateObject('InternetExplorer.Application').Visible=true   最后保存为VBS,运行即可调出IE浏览器!   详细的设置教程:https://www.freedidi.com/3540.h...
admin的头像-零度博客admin
1.5W+2251
完美解决电脑图片、视频不显示缩略图的问题! K-Lite 编解码器包-零度博客

完美解决电脑图片、视频不显示缩略图的问题! K-Lite 编解码器包

K-Lite 编解码器包有四种不同的变体。范围从仅包含最基本解码器的非常小的捆绑包到大型且更全面的捆绑包。变体之间的全局差异可以在下面找到。具体差异可以通过能力对比和内容页面对比来发现。 ...
admin的头像-零度博客admin
1.3W+1527
DuckDuckGo 现在向所有人提供反跟踪电子邮件服务-零度博客

DuckDuckGo 现在向所有人提供反跟踪电子邮件服务

DuckDuckGo 的跟踪器删除电子邮件服务已在私人测试版中提供了一年,现在 对使用 DuckDuckGo 移动应用程序、浏览器扩展程序或 Mac 浏览器的任何人开放。它还增加了一些隐私工具。   该服务...
admin的头像-零度博客admin
1.6W+2250
Github 上超强的10款开源软件和项目!-零度博客

Github 上超强的10款开源软件和项目!

  GitHub 免费开源项目推荐! 1.Lama Cleaner 这是一款完全免费开源,而且没有人分辨率限制的图片去水印、修复工具:Lama Cleaner,内置了多种AI 模型构建,功能相当的齐全。可用于快速去...
admin的头像-零度博客admin
1.8W+1682
谷歌 Chrome 浏览器新增“内存节省” 和 “省电模式” !提高性能、延长续航!附最新开启教程   零度解说-零度博客