首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28来源: 15210273549

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

吉利2025新车曝光:9款重磅产品,旗舰SUV、轿车都来了 2025首周,吉利给比亚迪一个下马威 高阶智驾≠高价,丰田开始进场!15万级激光雷达智驾SUV来了 领航穿越美国“死亡公路” 魏牌全新蓝山为何如此勇? “以旧换新”新政落地,这回轮到国四车主换新车了 蜂巢能源第五届电池日大招不断!越野、蜂行电池等重磅新品发布 又一明星“入坑”:问界M9圈走多少高净值用户 龙头车企交出亮眼成绩单 20万元以上“重庆造”占比超两成 央企造车铸就“新实力”,岚图汽车2024年“八连涨” 澳洲超万辆Kia汽车紧急召回!涉及两款热门车型 电动狂飙!年度销量之争与市场新贵的诞生 同比实现翻番,“车谷造”汽车出海突破12万辆 四维图新:当“躺赚”的图商开始下场和智驾Tier1卷生死 2024年国产品牌销量榜,谁满面春风,谁步履艰难 进口车销量连续3年负增长,BBA在中国的“黄金时代”正式落幕 不愿搬迁者赔N+7!曝某合资车企总部搬迁,多款车型或合并 门槛更低了?宁德时代发布磐石底盘,车企“换个壳就能造车” 性价比低是个性小车魔咒?iCAR V23真好看 但配置有遗憾 极越难逃5折贬值和高售后成本?倒闭至今解决了哪些问题? 既生瑜何生亮 萤火虫是挺好 但架不住领克Z20实在太卷! GMC YUKON育空登陆中国,动感外观+卓越性能,引领豪华SUV新潮流 关于乐道和萤火虫、ET9、销量、盈利等,李斌3小时的回应 新合资时代里,东风本田发起了电动化反击 2024年海南儋州市教育局招聘中学教师44人公告 2024年海南三亚市天涯区教育系统招聘幼儿园编制教师16人公告 2024年湖南怀化市卫生健康委招聘6人公告 2024年中国医科大学招聘高层次和急需紧缺人才公告 2024年辽宁鞍山市公立医院招聘15人公告 2024年内蒙古鄂尔多斯市党校系统引进人才34人公告 2024年山西长治市沁源县招聘专职社区工作者54人公告