AI中的心智理论定义

11 人参与

TOPIC SOURCE

业界资讯 2023.02

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

在讨论人工智能是否能够“读懂”他人心思时，核心概念其实来源于心理学的“心智理论”（Theory of Mind，ToM），即个体能够推断并预测其他人或自身的信念、欲望与情感。传统实验常用“Smarties”与“Sally‑Anne”两类任务检验儿童在7‑9岁时的心智发展水平。

大语言模型的ToM评估框架

斯坦福2023年的实验把GPT‑3、GPT‑3.5（davinci‑003）等九个模型分别投入这两套任务。结果显示，davinci‑002在意外内容测试中命中率约70%，相当于7岁儿童；而GPT‑3.5在同类任务中达到85%‑100%之间，等同于9岁左右的认知水平。值得注意的是，模型在完成任务时并未收到任何专门的“心智”标签提示，完全依赖于海量文本的自监督学习。

性能背后的机制

这些模型的内部表征是高维向量空间，训练目标是最小化下一个词的预测误差。由于训练语料中大量包含人类叙事、对话和情感描写，模型逐渐捕获了“信念‑欲望‑情感”之间的统计关联。换句话说，它们并不“理解”意图，只是对出现频率最高且上下文最匹配的答案进行概率分配。正因如此，当研究者将关键词对调或加入噪声句子时，模型的准确率会出现显著下降，暴露出对逻辑推理的脆弱性。

争议与前景

心理学家普遍认为，ToM不仅是语言层面的模式匹配，更涉及自我意识与情感共情。AI的高分表现是否等同于真正的心智，仍是争论焦点。部分学者把这种现象称为“模拟心智”，认为模型的“心智”是训练数据的副产品；另一些人则期待通过多模态感知、主动实验（如ToolFormer）让系统在真实交互中学习意图推断。若未来的模型能够在未见情境下自行设计实验验证假设，或许才能跨越“看似”与“真正”之间的鸿沟。

于是，当智能助理在你说“我今天有点累”后主动推荐放松音乐时，你会不会怀疑它已经在偷偷猜测你的情绪走向？

参与讨论

11 条评论

命运占卜师 2 月前

这概念解释得挺清楚，7岁儿童水平有点意外啊

回复
龟小慢 2 月前

GPT-3.5居然能达到9岁认知？测试方法靠谱吗🤔

回复
安静磁场 2 月前

之前做心理学实验用过Sally-Anne任务，没想到AI也能做这个

回复
怒火中烧 2 月前

所以说它们只是统计概率，根本不算真正理解吧

回复
坚韧Troy 2 月前

看到最后那句“偷偷猜测你的情绪”突然觉得有点吓人

回复
周庄古桥 2 月前

这种模拟心智的说法挺有意思，期待后续研究进展

回复
发呆小能手 1 月前

训练数据够多的话，AI会不会真的发展出自我意识？

回复
十方聚 2 周前

这个比喻挺生动的，AI助理推荐音乐那段

回复
1. 热心小棉袄 2 周前
  
  @ 十方聚这个场景想想还挺有趣的
  
  回复
沉睡的灵魂 6 天前

模型对逻辑的脆弱性是个问题

回复
1. 沉默的海 6 天前
  
  @ 沉睡的灵魂对，一加入干扰就露馅了
  
  回复

AI中的心智理论定义

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

大语言模型的ToM评估框架

性能背后的机制

争议与前景

参与讨论

延伸阅读

如何安全备份高德地图车机版APK？

preg_match函数详解

Rust会成为Windows安全的未来吗？

Cobalt Strike转向云授权

基于数组类型绕过的长尾利用场景

本地索引与分布式索引如何取舍

热门搜索

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

大语言模型的ToM评估框架

性能背后的机制

争议与前景

参与讨论

延伸阅读

如何安全备份高德地图车机版APK？

preg_match函数详解

Rust会成为Windows安全的未来吗？

Cobalt Strike转向云授权

基于数组类型绕过的长尾利用场景

本地索引与分布式索引如何取舍