刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面了。
GPT-4的高阶心智理论(ToM),已经正式超越人类!
就在刚刚,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的学者发布的研究证实,GPT-4在心智理论任务上的表现,已经完全达到了成年人类的水平。
而且,它在第6阶推理上的表现,更是大幅超过了人类!
论文地址:https://arxiv.org/pdf/2405.18870
无独有偶,此前Nature子刊《自然·人类行为》的一项研究也证实了,GPT-4在心智理论上的表现已经位于人类水平之上,能够比人类更好地察觉出言语中的讽刺和暗示。如果你不这么觉得,那它大概率只是在隐藏实力而已。
总之,这前后脚的两项研究清晰地表明,如今表现最好的大语言模型,已经发展出广义的心智理论能力,而GPT-4,已经是其中的佼佼者。
所以,距离各位LLM用心智和权术把我们人类玩弄于股掌之间的那一天,还有多远?
高阶心智理论
这次的研究,探讨了LLM究竟能在多大程度上发展高阶心智理论(higher-order ToM)。
所谓高阶心智理论,就是人类以递归方式,推理他人的多种心理和情感状态的能力。
比如,「我认为你相信她知道」这句话中,就包含了非常复杂的多层推理,属于一个三阶陈述。
在以前,大部分相关研究,都集中在二阶ToM上。
用什么样的方法,能衡量出LLM对如此复杂问题的把握能力?
团队特意引入了一套手写测试套件——多阶心智理论问答测试。
而参与PK的选手,有5个LLM和一大群成年人。