首页 > 生活分享 > 免费教学 > 谷歌两小时I/O大会提了“AI”121次,发布了十余项更新及新品,却“缺乏惊喜

谷歌两小时I/O大会提了“AI”121次,发布了十余项更新及新品,却“缺乏惊喜

发布时间:2024-05-15 16:25:33

北京时间5月15日凌晨,谷歌年度开发者I/O 大会2024在美国加利福尼亚州山景城总部附近的海岸线圆形剧场召开。整场发布会由谷歌CEO桑达尔·皮查伊(Sundar Pichai)主持,全程历时两小时。

前一天,OpenAI刚发布GPT-4o和全新的ChatGPT,此次谷歌要在开发者大会上交出怎样的“AI”答卷外界充满了期待。

澎湃科技(www.thepaper.cn)注意到,整场开发者大会,桑达尔·皮查伊称,据Gemini统计,在整场发布会上他共提及“AI”121次,发布了十多项产品更新和新品,但外界评论称,和GPT-4o不到30分钟的发布会相比,“缺乏惊喜”。

谷歌年度开发者I/O 大会现场

此次开发者大会,谷歌将搜索业务做了最彻底的AI改造,还更新升级了Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。除此之外,谷歌推出自称效果超过Sora的生成视频模型Veo,另外还展示了与GPT-4o 相似的语音视觉交互功能Gemini Live,同时,还更进一步推出了AI智能体Project Astra。

Gemini 升级,更加轻量

当天大会上,谷歌宣布对Gemini模型进行更新,此前,谷歌推出的Gemini 1.5 Pro是一个中型多模态模型,上下文长度为100万tokens。

在此次开发者大会上,桑达尔·皮查伊宣布,通过改进数据和算法,提升模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力等,升级后的Gemini 1.5 Pro能够遵循越来越复杂和细微的指示,包括指定产品级行为的指示,如角色、格式和风格等。使用API的开发者和Google Cloud客户可以通过候补名单获取200万tokens上下文窗口的1.5Pro。

升级后的Gemini 1.5 Pro将面向全球开发者开放,支持超过150个国家的35种语言。

此外,为了满足用户对低延迟和低成本的需求,此次发布会上,谷歌发布了轻量化模型Gemini 1.5 Flash。

Gemini1.5Flash

相较于Gemini 1.5 Pro,该版本的特点是响应速度更快、成本低至0.35美元每百万tokens。而Gemini 1.5 Pro则针对对高质量内容有需求的用户,收费为7美元每百万tokens。

尽管Gemini1.5 Flash体积小巧,仍实现了100万个标记的长上下文窗口,开发人员还能注册尝试200万个标记,适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。据介绍,实现这些功能是因为谷歌采用了1.5Pro对该模型进行了被称作“蒸馏(distillation)的训练,将较大模型中最核心的知识和技能迁移到了更小、更高效的模型中。

发布AI智能体Project Astra

“很久以来,我们都有一个梦想,希望打造一个通用的AI Agent(AI智能体),帮助人们的生活变得更方便。现在,我们多年磨一剑,推出 Project Astra 的通用 AI 智能体。”桑达尔·皮查伊在发布会上说。这一智能体是基于Gemini模型,通过对视频帧进行连续编码,将视频和语音输入组合成事件时间轴,并缓存这些信息以便高效召回,从而能够更快地处理信息。

大会现场,来自谷歌 Deepmind的 CEO 杰米斯·哈萨比斯(Demis Hassabis)上台,讲解和展示了Project Astra的原型运作视频。

在展示过程中,谷歌在演讲中展示了一个人拿着手机,将摄像头对准办公室的各个地方,并用语言与其交互:“当你看到有东西发出声音时,请告诉我。”在这段视频演示中,Astra能识别各种物体甚至代码,并实时与人类进行语音互动。

在展示环节,有用户对Astra突然提出一个此前没有涉及到的问题,“你记得我把眼镜放哪里了么?”

“你的眼镜在桌上苹果旁边。”Astra回答到。这一过程引起现场惊呼。

这表明,当摄像头扫过的时候,Astra曾“看”到过用户的眼镜,Astra以视觉的形式记录了下来。

但在看过了GPT-4o的演示之后,Astra的演示就显得缺乏惊喜。

谷歌称,未来通过手机或眼镜,人们就能让随身AI专家助理提供服务。不过,这些功能要在今年晚些时候才能在Gemini应用和网络体验等Google产品中看见。

发布视频生成模型Veo对抗Sora

此次发布会上,杰米斯·哈萨比斯宣布,谷歌正式发布一款全新的视频生成模型Veo,将成为Sora新的劲敌。

谷歌声称,Veo能够根据文本、图像创建超过60秒的高质量1080P视频,用户可以对光照、镜头语言、视频颜色风格等进行设定。此外,Veo还能够理解电影和视觉技术,例如延时拍摄的概念。

用户仅需写出文本提示即可生成视频,比如文本提示:“在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。”“一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻”。

和Sora一样,Veo目前也不会公开,只提供给少量创作者。

搜索引擎升级,与Gemini结合

谷歌搜索负责人莉兹·里德( Liz Reid )在此次发布会上称,在过往的25年里,谷歌经历了许多技术变革,“我们不断重新构想和扩展 Google 搜索的功能。”

莉兹·里德宣布,如今,借助AI,谷歌搜索可以做的事情超出人们的想象。她表示,将 Gemini 包括多步推理、规划和多模态等功能与谷歌搜索系统结合在一起,推出AI Overviews。通过AI Overviews,用户可以上传演示其要解决的问题的视频,然后启动搜索在论坛和互联网的其他区域以找到解决方案。

此外,用户也可以向定制的 Gemini 模型提出复杂的问题。甚至当用户不知道自己问什么的时候,Google也可以给用户推荐,给用户做头脑风暴。用户可以直接与 Gemini 聊天,从整个收件箱中查找详细信息。

莉兹·里德称,“从回答、计划、需求定制到组织和视频搜索,Google都会替你完成,而你需要做的只有提问。”不过,AI Overviews将首先在美国推出。

Trillium:AI基础设施的更新

训练大模型需要大量的计算能力。在大会进行到中途,澎湃科技注意到,桑达尔·皮查伊低调宣布了谷歌的第六代张量处理单元 (TPU) ——Trillium。谷歌称其为“迄今为止性能最强、能效最高的 TPU”,与上一代 TPU v5e 相比,Trillium每个芯片的峰值计算性能提高了 4.7 倍。谷歌将于今年晚些时候向其云客户提供Trillium。

值得关注的是,谷歌此次也在安卓平台上推出一系列全新AI功能。谷歌表示,此前,"Circle to Search"功能允许用户无需切换应用即可搜索,现在起它还可以作为学习伴侣,解答数学题、图表等复杂问题。目前这一功能已在超过1亿台安卓设备上提供,预计到年底这一数字将翻倍。

 

免费教学更多>>

安道拓发布模块化座椅解决方案ModuTec 停产多年后启动大规模招聘,“山寨车鼻祖”众泰汽车艰难求生 中国品牌二手车销量跃升南非市场前列,Tiggo 4 Pro成最畅销车型 未来院孵化企业完成数亿元Pre-A轮融资 不敢在印度建厂造车,真是因为带不回利润? 行业首个!128TOPS单芯片跑通城市NOA,轻舟智航联手理想汽车,首发量产上车 吉利集团发布2030战略,剑指650万辆! 央企新能源转型生死局, Meta今年拟实现AI眼镜年产能翻番 剑指2000万副 抵挡敌意收购,Netflix考虑修改条款全现金收购华纳兄弟 美国科罗拉多州警车引入自动车辆识别系统 号称每小时可开出12张超速罚单 苹果为何选择与谷歌AI合作?郭明錤:迫于短期挑战、压力 苹果和谷歌谈成一笔大生意,马斯克发文:强烈不满! 本田启用新Logo,明年将率先搭载于新款纯电车和混动车 日本车企在中国销量连跌7年,该怎么稳定汽车市场呢 王自如回应不看格力工资条 还有下半句:基层员工一定要看 美系巨头们的“去中国化”豪掷,能赢吗? 8.88万元起售/智能AI加码,上汽大众朗逸 Pro上市 限时焕新价12.49万起 2026款捷途旅行者上市 小鹏汽车Q3毛利率首破20%,Q4交付目标上调至12.5万辆 已签约!安波福新项目落地武汉 Flyme Auto合作车型10月销量超19.5万辆,同比增长200% 3M动力电池解决方案——助力推动电动出行的未来 为Linux开发者而来!同星智能发布多款SocketCAN工具 三星有望重启 Galaxy A7x 系列,新机 Galaxy A77 在 Geekbench 跑分平台现身 优酷、B站,被一个后来者超车了 毫无预兆的,Gartner给大模型开发平台排了座次 USB接口的颜色可以说是快速识别性能的“视觉语言”,但并不是标准和推荐的方法 18个月月收33万刀!起底“AI套壳”生意经:是昙花一现还是隐形金矿? 你的快递,是无人车送的,物流公司为了降低亏损、补充人力