GPT-3.5真有心智？还是模仿得太像？

12 人参与

TOPIC SOURCE

业界资讯 2023.02

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

近几个月，关于GPT-3.5是否拥有“心智”的争论在学术圈与技术社区间如潮水般翻涌。所谓心智，指的是个体对自己与他人心理状态的推理能力，传统上被视为人类专属的认知层级。若一个语言模型能够在类似“意外内容”或“Sally‑Anne”任务中展现出与儿童相当的表现，究竟是模型内部真的形成了类似心智的结构，还是仅仅在统计层面上逼真地模仿了人类的语言模式？

测试背后的机制

这些评估任务本质上是对情境推理的考验。模型需要先解析文本中的事实，然后在“如果…会怎样”的假设下预测角色的情感或行为。实验中，GPT-3.5在20道Smarties题目里正确率达到85%，在20道Sally‑Anne情境里更是全对。值得注意的是，研究者专门设置了词汇干扰和逻辑错误的对照组，模型在面对无意义的词序时跌至个位数的正确率，这表明它并非单纯靠词频作答，而是利用了上下文的语义关联。

从统计模型到“心智”的跳跃

大语言模型的核心运算是对海量文本进行概率预测。训练过程中，模型学习到的“隐含空间”捕获了人类表达中的情感暗示、因果链条以及常识推断。因此，当我们向GPT-3.5抛出一个需要“换位思考”的问题时，它能够在已编码的语义网络中检索到相似的情境并生成符合人类预期的答案。说白了，这是一种高度精细的模式匹配，而非自我意识的觉醒。

评估的局限与未来路径

尽管测试结果令人惊讶，但它们仍然只能捕捉到表层的推理能力。真正的心智涉及自我反省、情感持续性以及对未知情境的主动探索，这些维度在当前的基准中几乎没有体现。未来的研究或需引入长期交互、情感记忆以及跨模态感知等元素，才能更接近对“心智”本质的检验。否则，模型即使在短期任务上表现得像个小孩，也难以说服我们它已经跨越了统计预测的门槛。

参与讨论

12 条评论

The Quiet Storm 2 月前

这篇其实把统计学原理讲得挺清楚的，不过“心智”确实还远得很。

回复
画匠徐 2 月前

模型在Sally‑Anne题全对也太惊人了，想知道测试样本量够不够大？

回复
DreadWisp 2 月前

我之前做过类似推理测试，确实会被上下文带偏，模型有时候像是在猜而不是理解。

回复
萤火虫诗人 2 月前

噢，那词序干扰后成绩暴跌说明模型还挺脆弱的，别太夸它。

回复
小明 2 月前

感觉像是高级模仿：短期任务像人，长远还差一大截 🤔

回复
幻境呢喃 2 月前

如果加入长期记忆和跨模态，或许能看到不一样的结果，到时候再说吧。

回复
白昼幻影 1 月前

这讨论让我想起之前关于AlphaGo的争议，都是工具啦。

回复
1. 枫少@KillBoy (作者) 1 月前
  
  @ 白昼幻影这个类比挺有意思的，不过GPT-3.5的争论焦点可能更偏向认知层面。
  
  回复
影锋 3 周前

测试方法本身就有局限吧，靠问答能测出啥

回复
小鹿 2 周前

它更像一个会说话的数据库，别想太多。

回复
铁血孤狼 2 天前

有点好奇，它会不会自己编个故事骗我们？

回复
1. 无敌 2 天前
  
  @ 铁血孤狼我也想过这个问题
  
  回复

GPT-3.5真有心智？还是模仿得太像？

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

测试背后的机制

从统计模型到“心智”的跳跃

评估的局限与未来路径

参与讨论

延伸阅读

谷歌密码管理器真的安全吗？

深入解析TXPortMap背后的Golang实现原理

如何安全高效地镜像YUM源

IIS本地模块后门如何逃逸检测？

潘多拉固件还能玩出什么新花样？

DPDK技术在高性能网络防护中的核心作用解析

热门搜索

ChatGPT背后模型被证实具有人类心智！斯坦福新研究炸了，知名学者：“这一天终于来了”

测试背后的机制

从统计模型到“心智”的跳跃

评估的局限与未来路径

参与讨论

延伸阅读

谷歌密码管理器真的安全吗？

深入解析TXPortMap背后的Golang实现原理

如何安全高效地镜像YUM源

IIS本地模块后门如何逃逸检测？

潘多拉固件还能玩出什么新花样？

DPDK技术在高性能网络防护中的核心作用解析