首页 > 生活分享 > 免费教学 > 谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

谷歌Deepmind、斯坦福大学研究人员推出AI事实核查工具

发布时间:2024-03-31 20:20:01来源: 15210273549

 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍

免费教学更多>>

科技出海,长城汽车登陆CES 2025 长期主义的胜利,历经20年,CR-V 2024年终端销售仍接近18万辆 零跑的2024成绩单有多牛?全年交付近30万辆,提前超额完成目标! 中国车企突围之路:做不成偏科生比亚迪,做“全能生”的瑞虎也不错! 别人均奔驰E了!养一台30万的小米SU7,月薪8000都可能一分不剩 大空间够舒适,真四驱足够稳!传祺GS8冬季出行最佳搭档? 开年就摘得周销冠,吉利银河星舰7都做对了什么? 玩力升级,全新高尔夫与你一起奔赴热爱之约! 比亚迪夏杀疯了 24.98万起 能否短期内称霸MPV销量榜前三? 特斯拉年度成绩单!拿下2个世界第一,新能源汽车销量仅输一厂商 新势力车企2024成绩单:谁笑到了最后,谁又在生死边缘徘徊? 小米汽车挤上牌桌,雷军称2025年目标30万辆 上汽集团痛失蝉联18年的销量冠军 小米汽车工厂开放参观预约,你准备好了吗? 全球车企市值排名“巨变”:21家中国车企入围TOP50 小米、比亚迪分列三四 从汽车到战机,中国如何以“模式升维”领跑全球? 2024鸣金收兵:造车新势力疯狂发力,汽车大厂坐怀不乱 小鹏G9限时优惠,至高减免6W,特斯拉时代已经过去? 比亚迪“天神之眼”重磅升级!无图城市领航功能全国开通! 小米SU7掉落山崖一家人安然无恙 事故竟成小米带货现场? 诚意十足!本次零跑C11的OTA都有哪些亮点? 80亿增资落地,北京现代加速布局“在中国 为全球”战略 坚守紧凑级豪华,奥迪A3都做了什么 年至不惑,上汽大众,在改革中诞生,在变革中引领 『网红』难过一周期,『流量』难撑六十年,丰田的持久之道 2024年湖南长沙市发展和改革委员会招聘中级雇员公告 2025年湖南财经工业职业技术学院_衡阳财经工业学院人才引进26人公告 2024年湖南怀化市总工会属事业单位招聘和选调5人公告 2024年湖南衡阳市雁峰区事业单位急需紧缺人才引进6人公告 2024下半年广东肇庆市端州区教育局招聘中小学教师13人公告