哭死啊,全球狂炼大模型,一互联网的数据不够用,根本不够用。
训练模型搞得跟《饥饿游戏》似的,全球AI研究者,都在苦恼怎么才能喂饱这群数据大胃王。
尤其在多模态任务中,这一问题尤为突出。
一筹莫展之际,来自人大系的初创团队,用自家的新模型,率先在国内把“模型生成数据自己喂自己”变成了现实。
而且还是理解侧和生成侧双管齐下,两侧都能生成高质量、多模态的新数据,对模型本身进行数据反哺。
模型是啥?
中关村论坛上刚刚露面的多模态大模型Awaker 1.0。
团队是谁?
智子引擎。由人大高瓴人工智能学院博士生高一钊创立,高瓴人工智能学院卢志武教授担任顾问。公司成立时还是2021年,就早早打入多模态这条“无人区”赛道。
MOE架构,解决多模态多任务训练冲突问题
这不是智子引擎第一次发布模型。
去年3月8日,潜心研发两年的团队对外发布了自研的第一个多模态模型,百亿级别参数的ChatImg序列模型,并基于此推出世界首个公开评测多模态对话应用ChatImg(元乘象)。
后来,ChatImg不断迭代,新模型Awaker的研发也在并行推进。后者还继承了前代模型的基础能力。
相较于前代的ChatImg序列模型,Awaker 1.0采用了MoE模型架构。
要说原因嘛,是想要解决解决多模态多任务训练存在严重冲突的问题。
采用MoE模型架构,可以更好地学习多模态通用能力以及各个任务所需的独特能力,从而让整个Awaker 1.0的能力在多个任务上有进一步提升。
数据胜千言:
鉴于主流多模态评测榜单存在评测数据泄露问题,智子团队从严构建了自有评测集,大部分测试图片来自个人手机相册。
表格显示,团队让Awaker 1.0和国内外最先进的3个多模态大模型进行了评测。
多提一嘴,由于GPT-4V和Intern-VL并不直接支持检测任务,它们的检测结果是通过要求模型使用语言描述物体方位得到的。
可以看到,在视觉问答和业务应用任务上,Awaker 1.0的基座模型超过了GPT-4V、Qwen-VL-Max和Intern-VL。
在描述、推理和检测任务上,Awaker 1.0的基座模型达到了次好效果。
最后来看平均分,Awaker 1.0处于几者中的最高值。
因此,上述结果也印证了多任务多模态模型采用MoE架构的有效性。
数据集评测结果有了,真实效果还需进一步上手体验。
这里主要问了它和对比大模型一些关于中文OCR(图片文字识别)和计数问题、详细描述任务等问题。
这个主要考计数:
Awaker 1.0能正确地给出答案,而其它三个模型均回答错误。
这个主要考中文OCR:
正确回答的选手是Qwen-VL-Max和Awaker 1.0。