|

321网址导航
2000活跃值=1元

首页 > 生活分享 > 免费教学 > 比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

发布时间：2024-03-30 21:52:16

大模型的幻觉问题怎么解？谷歌DeepMind：用AI来做同行评审！事实核验正确率超过人类，而且便宜20倍。

AI的同行评审来了！

一直以来，大语言模型胡说八道（幻觉）的问题最让人头疼，而近日，来自谷歌DeepMind的一项研究引发网友热议：

大模型的幻觉问题，好像被终结了？

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

论文地址：https://arxiv.org/pdf/2403.18802.pdf

项目地址：https://github.com/google-deepmind/long-form-factuality

在这篇工作中，研究人员介绍了一种名为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法。

对于LLM的长篇回答，SAFE使用其他的LLM，将答案文本分解为单个叙述，然后使用诸如RAG等方法，来确定每个叙述的准确性。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

——简单来说就是：AI答题，AI判卷，AI告诉AI你这里说的不对。

真正的「同行」评审。

另外，研究还发现，相比于人工标注和判断事实准确性，使用AI不但便宜20倍，而且还更靠谱！

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道，尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT：虽然我的知识储备只到2021年9月，但我敢于毫不犹豫地回答任何问题。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

Claude 3：我可以谦卑且胡说八道。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

为了对大模型的长篇回答进行事实性评估和基准测试，研究人员首先使用GPT-4生成LongFact，这是一个包含数千个问题的提示集，涵盖38个主题。

LongFact包含两个任务：LongFact-Concepts和LongFact-Objects，前者针对概念、后者针对实体。每个包括30个提示，每个任务各有1140个提示。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

然后，使用搜索增强事实性评估器（SAFE），利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程来评估每个事实的准确性，包括使用网络搜索来检验。

此外，作者建议将F1分数进行扩展，提出了一种兼顾精度和召回率的聚合指标。

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

SAFE工作流程

比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“321网址导航用户上传并发布"，本平台仅提供信息存储服务。

下一篇:谷歌Pixel Watch 3智能手表曝光，配307mAh容量电池

上一篇:比人类便宜20倍！谷歌DeepMind推出“超人”AI系统

免费教学更多>>

安道拓发布模块化座椅解决方案ModuTec 停产多年后启动大规模招聘，“山寨车鼻祖”众泰汽车艰难求生中国品牌二手车销量跃升南非市场前列，Tiggo 4 Pro成最畅销车型未来院孵化企业完成数亿元Pre-A轮融资不敢在印度建厂造车，真是因为带不回利润？行业首个！128TOPS单芯片跑通城市NOA，轻舟智航联手理想汽车，首发量产上车吉利集团发布2030战略，剑指650万辆！央企新能源转型生死局， Meta今年拟实现AI眼镜年产能翻番剑指2000万副抵挡敌意收购，Netflix考虑修改条款全现金收购华纳兄弟美国科罗拉多州警车引入自动车辆识别系统号称每小时可开出12张超速罚单苹果为何选择与谷歌AI合作？郭明錤：迫于短期挑战、压力苹果和谷歌谈成一笔大生意，马斯克发文：强烈不满！本田启用新Logo，明年将率先搭载于新款纯电车和混动车日本车企在中国销量连跌7年，该怎么稳定汽车市场呢王自如回应不看格力工资条还有下半句：基层员工一定要看美系巨头们的“去中国化”豪掷，能赢吗？ 8.88万元起售/智能AI加码，上汽大众朗逸 Pro上市限时焕新价12.49万起 2026款捷途旅行者上市小鹏汽车Q3毛利率首破20%，Q4交付目标上调至12.5万辆已签约！安波福新项目落地武汉 Flyme Auto合作车型10月销量超19.5万辆，同比增长200% 3M动力电池解决方案——助力推动电动出行的未来为Linux开发者而来！同星智能发布多款SocketCAN工具三星有望重启 Galaxy A7x 系列，新机 Galaxy A77 在 Geekbench 跑分平台现身优酷、B站，被一个后来者超车了毫无预兆的，Gartner给大模型开发平台排了座次 USB接口的颜色可以说是快速识别性能的“视觉语言”，但并不是标准和推荐的方法 18个月月收33万刀！起底“AI套壳”生意经：是昙花一现还是隐形金矿？你的快递，是无人车送的，物流公司为了降低亏损、补充人力

Copyright 2014-2025 321网址导航版权所有京ICP备20140891号