我国学者在大语言模型复制心理学实验研究方面取得进展

科研动态3个月前更新国家自然科学基金委员会

1,506 0 0

文章导读

大语言模型能当“替身”做心理学实验？我国清华团队用GPT-4、Claude、DeepSeek等AI模型，大规模复现156项心理学与管理学实验，首次系统揭示AI模拟人类决策的规律。研究发现，AI不仅主效应复制成功率高达81%，还暴露出效应值被放大的风险，在性别、种族等议题上不同模型表现悬殊。这项发表于《自然-计算科学》的成果，标志着“硅基被试”时代来临，或将重塑社会科学研究范式，提升效率并降低成本。AI如何改变科学实验？答案正在浮现。

— 内容由好学术AI分析文章内容生成，仅供参考。

图大语言模型复现率总体情况

　　在国家自然科学基金项目（批准号：72202117）资助下，清华大学经济管理学院李宁教授指导的研究团队，在人工智能赋能社会科学研究领域取得进展。研究成果以“使用大语言模型对心理学和管理学情境实验的大规模复制（A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management Using Large Language Models）”为题，于2025年7月在《自然-计算科学》（Nature Computational Science）发表。论文链接：https:// https://www.nature.com/articles/s43588-025-00840-7。该研究第一作者为清华大学经管学院四年级博士生崔紫妍，主要作者为博士后研究员周怀康。

　　随着人工智能技术的快速发展，大语言模型在科学研究中的应用潜力日益凸显，特别是在社会科学领域，传统的人类被试实验面临成本高昂、样本获取困难等挑战。如何利用AI技术突破这些局限，探索社会科学研究的新范式，成为学术界关注的前沿问题。然而，大语言模型能否有效复制人类在心理学实验中的行为反应，其复制效果的系统性规律如何，仍缺乏大规模的实证验证。

　　研究团队创新性地提出“硅基复制”研究方法，即用AI模拟人类参与者进行心理学实验，从五个顶级学术期刊中随机选择了156个心理学和管理学实验，使用GPT-4、Claude 3.5 Sonnet和DeepSeek V3三个最先进的大语言模型进行实验复制，构建了迄今最大规模的AI复制心理学实验数据库。结果显示，AI模型在主效应复制成功率高（73%~81%），效应方向一致性约80%，说明大语言模型能够较好地模拟人类心理反应。

　　研究解释了AI模型在心理学实验复制中的关键规律：一是AI系统性地产生了比人类研究更大的效应值，这可能源于其作为“理想被试”免于人类被试的疲劳和注意力分散；二是原始研究显示零效应时，AI产生显著结果的比例较高（68%~83%），这反映了数据清洁性，也提示了效应值过估的风险；三是不同模型在种族、性别等社会敏感议题上表现差异显著，体现了模型价值观对齐程度的差别。

　　该研究为人工智能在社会科学的应用提供了重要的实证和方法论支持，证实大语言模型可作为传统人类被试研究的重要补充，适用于初步假设验证、实验设计优化和方法学三角验证等领域，能够显著提高效率并降低成本。该成果推动了计算社会科学的发展，体现了我国学者在AI赋能科学研究国际前沿的贡献，对于AI技术在管理科学研究中的规范化应用具有重要的理论与实践价值。