首页 > 生活分享 > 免费教学 > 比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

发布时间:2024-03-30 21:52:16来源: 15210273549

大模型的幻觉问题怎么解?谷歌DeepMind:用AI来做同行评审!事实核验正确率超过人类,而且便宜20倍。

 

AI的同行评审来了!

一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:

大模型的幻觉问题,好像被终结了?

 

论文地址:https://arxiv.org/pdf/2403.18802.pdf

项目地址:https://github.com/google-deepmind/long-form-factuality

在这篇工作中,研究人员介绍了一种名为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

对于LLM的长篇回答,SAFE使用其他的LLM,将答案文本分解为单个叙述,然后使用诸如RAG等方法,来确定每个叙述的准确性。

 

——简单来说就是:AI答题,AI判卷,AI告诉AI你这里说的不对。

真正的「同行」评审。

另外,研究还发现,相比于人工标注和判断事实准确性,使用AI不但便宜20倍,而且还更靠谱!

 

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道,尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT:虽然我的知识储备只到2021年9月,但我敢于毫不犹豫地回答任何问题。

 

Claude 3:我可以谦卑且胡说八道。

 

为了对大模型的长篇回答进行事实性评估和基准测试,研究人员首先使用GPT-4生成LongFact,这是一个包含数千个问题的提示集,涵盖38个主题。

LongFact包含两个任务:LongFact-Concepts和LongFact-Objects,前者针对概念、后者针对实体。每个包括30个提示,每个任务各有1140个提示。

 

然后,使用搜索增强事实性评估器(SAFE),利用LLM将长篇回复分解为一组单独的事实,并使用多步骤推理过程来评估每个事实的准确性,包括使用网络搜索来检验。

此外,作者建议将F1分数进行扩展,提出了一种兼顾精度和召回率的聚合指标。

 

SAFE工作流程

免费教学更多>>

科技出海,长城汽车登陆CES 2025 长期主义的胜利,历经20年,CR-V 2024年终端销售仍接近18万辆 零跑的2024成绩单有多牛?全年交付近30万辆,提前超额完成目标! 中国车企突围之路:做不成偏科生比亚迪,做“全能生”的瑞虎也不错! 别人均奔驰E了!养一台30万的小米SU7,月薪8000都可能一分不剩 大空间够舒适,真四驱足够稳!传祺GS8冬季出行最佳搭档? 开年就摘得周销冠,吉利银河星舰7都做对了什么? 玩力升级,全新高尔夫与你一起奔赴热爱之约! 比亚迪夏杀疯了 24.98万起 能否短期内称霸MPV销量榜前三? 特斯拉年度成绩单!拿下2个世界第一,新能源汽车销量仅输一厂商 新势力车企2024成绩单:谁笑到了最后,谁又在生死边缘徘徊? 小米汽车挤上牌桌,雷军称2025年目标30万辆 上汽集团痛失蝉联18年的销量冠军 小米汽车工厂开放参观预约,你准备好了吗? 全球车企市值排名“巨变”:21家中国车企入围TOP50 小米、比亚迪分列三四 从汽车到战机,中国如何以“模式升维”领跑全球? 2024鸣金收兵:造车新势力疯狂发力,汽车大厂坐怀不乱 小鹏G9限时优惠,至高减免6W,特斯拉时代已经过去? 比亚迪“天神之眼”重磅升级!无图城市领航功能全国开通! 小米SU7掉落山崖一家人安然无恙 事故竟成小米带货现场? 诚意十足!本次零跑C11的OTA都有哪些亮点? 80亿增资落地,北京现代加速布局“在中国 为全球”战略 坚守紧凑级豪华,奥迪A3都做了什么 年至不惑,上汽大众,在改革中诞生,在变革中引领 『网红』难过一周期,『流量』难撑六十年,丰田的持久之道 2024年湖南长沙市发展和改革委员会招聘中级雇员公告 2025年湖南财经工业职业技术学院_衡阳财经工业学院人才引进26人公告 2024年湖南怀化市总工会属事业单位招聘和选调5人公告 2024年湖南衡阳市雁峰区事业单位急需紧缺人才引进6人公告 2024下半年广东肇庆市端州区教育局招聘中小学教师13人公告