首页 > 生活分享 > 免费教学 > AI大家说|一口气看完Open AI、谷歌、微软最新发布会!

AI大家说|一口气看完Open AI、谷歌、微软最新发布会!

发布时间:2024-05-27 22:53:39来源: 15210273549

5月无疑是名副其实的“AI月”,从OpenAI直播演示ChatGPT更新内容,到谷歌的I/O开发者大会2024,再到微软的Build年度开发者大会。这些活动向世界进一步展示了AI生产力的无限可能。今天,我们为大家精心整理了这三场重磅发布会的亮点,帮助您迅速把握即将问世的新技术以及正在迅速崛起的行业趋势。

Open AI春季更新发布会

 

图源:现场截图

此次Open AI仅是在线上举办了“春季更新”活动。虽然活动没有精美的ppt,也没有震撼的demo,连Sam Altman都没有露面,但是它推出的新旗舰模型“GPT-4o”真实地震撼了大家。

 

1. 推出多模态大模型GPT-4o。它可以接受文本、音频和图像任意组合的输入,可以实时对音频、视觉和文本进行推理,并生成这些格式的相应输出。

 

2. 新模型使ChatGPT能够处理50种不同的语言,速度和质量同时得到提高。它可以在短短232毫秒内处理音频输入,平均耗时320毫秒,与人类对话中的反应时间相当

 

3. GPT-4o允许ChatGPT以更加逼真的方式与用户交流。它不仅能检测用户声音中的情绪,分析面部表情,还能根据用户需求改变语调和节奏。如果想听睡前故事,它可以用耳语说话。如果需要来一段带“酸味儿”的对话,它就能以轻松、讽刺的语气与人交谈。它甚至还可以按要求唱歌,一会儿是高亢的女高音,一会儿又能变成迷人的女低音;甚至还能表达自我,例如对示爱表现出害羞的样子。

 

4. 拥有了新能力后的GPT-4o,也拥有了与硬件结合的更多可能性。例如,以穿戴设备为载体,借助摄像头来帮助视障人士;通过智能眼镜、智能耳机等,成为人们的生活助理。

 

5. 除了推出新模型,在产品上Open AI也做出了诸多更新。首先,未来ChatGPT免费用户的默认模型将升级成GPT-4o,不过使用额度是有限的;此外,大量的付费功能开放给免费用户;最后,Open AI推出了macOS的客户端,并表示Windows客户端有望在下半年推出。

 

Google I/O 2024

 

图源:现场截图

在Open AI发布会的24小时后,2024年Google I/O全球开发者大会如期召开。在长达两个小时的开幕主题演讲中,谷歌展示的Project Astra和Veo,直接对标了目前Open AI领先的GPT-4o与Sora。此外,谷歌还展示了最新版Gemini加持的搜索能力,AI Overviews工具更是颠覆了搜索的逻辑。

 

1. 发布了GPT-4o同类产品Project Astra——基于Gemini模型开发,它可以通过摄像头“看到”周围环境并做出解说,能几乎没有延迟地与人互动,也能通过摄像头解读代码和做数学题。除了语音交互外,它借助Gemini和谷歌丰富的应用生态,链接更多谷歌应用,让用户“只用一句简单的prompt”,就能把信息链接起来,实现规划;另外还有记忆功能——对摄像头扫描过的地方形成记忆,即便当下视野不同,也能“根据记忆”告诉你想要找的东西。

 

2. 推出Gemini 1.5 Flash轻量级模型,速度更快,效率更高,从而能覆盖更多的用户。它擅长总结、聊天、凝练图像和视频,从长文档和表格中提取信息。Gemini 1.5 Flash通过Gemini 1.5 Pro“蒸馏”得来——“知识蒸馏”是一种模型压缩技术,让小模型学习大模型,将重要的知识和技能迁移过来。

 

3. Gemini 1.5 Pro(和1.5 Flash)支持100万tokens理解(年底,这个数字将直接翻番增至200万),是目前大模型服务中所能支持的最长上下文输入——它能充当“数据分析师”,从你上传的表格中“及时”发现洞察,构建自定义的可视化图表。全面接入Gemini的“谷歌办公全家桶”,也将在未来几个月内陆续上线“智能问答”“智能邮件回复”“表格图像化总结”等新功能。模型的推理更进一步,改进了对模型对具体用例响应的控制,遵循用户复杂和微妙的执行。

 

4. 发布了让用户自定义模型的Gems,对标Open AI的GPTs。

 

5. AI搜索现身,被命名为AI Overviews。这个功能可以“简化”用户提问,拥有更强大的多步推理能力。面对一个复杂问题,它会先将其拆解成多个简单问题,再将简单问题拆解成多个关键词——反馈给用户的页面中,将是高度格式化的解释、简洁实用的行动指引、直接引导后续行为的链接等。未来的搜索产品逻辑可能会被彻底颠覆,人们不需要一个单独的“搜索引擎”。

 

6. 更新了图像模型——Imagen 3,团队表示它生成的图片细节更好,错误更少;推出了新的音乐模型,但并没有透露模型名称,只提到正在和一些音乐人合作试用。

 

7. 对标OpenAI Sora的模型推出了文生视频模型Veo。官方称,Veo模型可以生成超过一分钟的1080p分辨率视频,并具有多种电影和视觉风格。

 

8. 此外,Android有了更多系统级AI功能。除了年初发布的画圈搜索功能外,新添加了TalkBack与诈骗电话实时监测两个功能:前者主要针对视力障碍人群,你可以让AI助手读取你手机屏幕的内容,并且用语音描述给你;后者用AI分析电话内容,当存在诈骗等风险时会弹窗提醒用户。

 

微软Build 2024开发者大会

 

图源:现场截图

“三十多年来,微软对于计算机一直有两个梦想——一是让计算机理解我们,而不是我们去理解计算机;二是在信息不断增加的世界中,让计算机帮助我们根据信息有效地进行推理、计划和行动。人工智能浪潮已经为我们的梦想找到了答案。”微软CEO萨蒂亚・纳德拉在发布会上说道。

 

在发布会上,微软一口气宣布了50多项AI能力更新,从推出新的Windows机器“Copilot+PC”,到Recall等AI驱动的生成式AI功能,每一项都在告诉我们“AI 将如何重塑你的未来”。

 

1. 推出内置AI的新电脑——Copilot+PC。新设备配备了一个名为Prism的模拟层,承诺与Windows的x86应用程序无缝兼容。最直观的变化是,新的键盘上会有一个Copilot键——用户只要按下按钮就能召唤Copilot,开启人工智能辅助功能。而这也是微软近三十年来首次调整键盘布局,上一次他们在键盘上加入的按钮是Windows键。

 

2. Microsoft Copilot。在本次大会上,微软展示了Copilot如何提升组织的团队协作和业务效率。主要介绍了以下三个升级:

a) Team Copilot:Copilot从幕后的个人AI助手,扩展为团队成员。用户将能够在Teams、Loop、Planner等协作工具中调用Copilot。Team Copilot能够在会议中担任会议主持人,管理会议议程、跟踪会议时间并记录会议要点;也可以在聊天中作为协作者,提供重要信息、跟踪行动项目并解决未决问题;它还可以担任项目经理,帮助确保每个项目顺利推进,并及时通知团队进行输入。微软宣布,Team Copilot将在今年晚些时候推出预览版。

免费教学更多>>

科技出海,长城汽车登陆CES 2025 长期主义的胜利,历经20年,CR-V 2024年终端销售仍接近18万辆 零跑的2024成绩单有多牛?全年交付近30万辆,提前超额完成目标! 中国车企突围之路:做不成偏科生比亚迪,做“全能生”的瑞虎也不错! 别人均奔驰E了!养一台30万的小米SU7,月薪8000都可能一分不剩 大空间够舒适,真四驱足够稳!传祺GS8冬季出行最佳搭档? 开年就摘得周销冠,吉利银河星舰7都做对了什么? 玩力升级,全新高尔夫与你一起奔赴热爱之约! 比亚迪夏杀疯了 24.98万起 能否短期内称霸MPV销量榜前三? 特斯拉年度成绩单!拿下2个世界第一,新能源汽车销量仅输一厂商 新势力车企2024成绩单:谁笑到了最后,谁又在生死边缘徘徊? 小米汽车挤上牌桌,雷军称2025年目标30万辆 上汽集团痛失蝉联18年的销量冠军 小米汽车工厂开放参观预约,你准备好了吗? 全球车企市值排名“巨变”:21家中国车企入围TOP50 小米、比亚迪分列三四 从汽车到战机,中国如何以“模式升维”领跑全球? 2024鸣金收兵:造车新势力疯狂发力,汽车大厂坐怀不乱 小鹏G9限时优惠,至高减免6W,特斯拉时代已经过去? 比亚迪“天神之眼”重磅升级!无图城市领航功能全国开通! 小米SU7掉落山崖一家人安然无恙 事故竟成小米带货现场? 诚意十足!本次零跑C11的OTA都有哪些亮点? 80亿增资落地,北京现代加速布局“在中国 为全球”战略 坚守紧凑级豪华,奥迪A3都做了什么 年至不惑,上汽大众,在改革中诞生,在变革中引领 『网红』难过一周期,『流量』难撑六十年,丰田的持久之道 2024年湖南长沙市发展和改革委员会招聘中级雇员公告 2025年湖南财经工业职业技术学院_衡阳财经工业学院人才引进26人公告 2024年湖南怀化市总工会属事业单位招聘和选调5人公告 2024年湖南衡阳市雁峰区事业单位急需紧缺人才引进6人公告 2024下半年广东肇庆市端州区教育局招聘中小学教师13人公告