首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

捷尼赛思计划五年内欧洲销量增长650%,全系车型将推Magma高性能版本 现代IONIQ 6 N正式在英国开启预订,起售价65,800英镑 特斯拉成加州去年市场份额流失最多的车企 一图读懂2025全球汽车销量TOP10国家 钧舵机器人牵手四家企业,组建生态联盟 1.1万家汽修厂苦等“接盘侠”,还有2.8万新玩家进场,谁被淘汰、谁在狂飙? 赛恩领动获全球头部车企定点 4D成像雷达量产进程再提速 频获海外项目定点,保隆科技“全球化2.0”做对了什么? 谷歌承认安卓“读出所选内容”功能 BUG 会导致音量键失灵 小米高管谈企业喷同行模仿 因羡慕嫉妒恨:苹果谷歌也大量买和抄 现代汽车聘请前英伟达、特斯拉高管领导自动驾驶业务 王小川,计划再造一个IPO,这是否意味着未来AI将大规模代替专业医生? 对手更惨,特斯拉第四季度美国电动汽车份额大增至59% 快手将推出“圈圈”App, 滴滴上线家政搬家入口,大厂抢食58同城 中国电动车在欧洲设定最低价意味着什么?专家解读 苹果用上了安卓AI,马斯克为啥急得跳脚? 不再只卖给女生,欧拉5这次能靠“15万级城区智驾”杀回来吗? 11月买车权益盘点:车企的“糖衣炮弹”这次砸向了老车主 谁能成为车展顶流?广州车展12款重磅新车前瞻 大换防,重出海,添增程,绑华为!阵痛广汽,尘埃落定? 玩换电,推增程,埃安电车到底要干什么 关于智能驾驶路线,L3就在眼前,但何小鹏却不要了 汽车“换道超车”,伪命题or真理? 出海 “搞钱”,中国机器人军团卷向全球 2025年1-9月电气化供应商装机量排行榜:弗迪系领跑多领域,车企自供模式持续强化 小鹏汽车今日宣布,小鹏 G7 官方改色上新“宠粉色”,并发布 AI 辅助生成海报 用AI视角看灿谷,矿企重估的开始 谷歌为其车联系统 Android Auto 集成 Gemini AI,为驾驶员带来更智能、更安全的车载交互体验 罗福莉首个小米成果!开源具身大模型 三星京东方握手言和:撤诉ITC,三年OLED专利战落幕