[论文] Automated reproducibility assessments in the social and behavioral sci...
论文概要
研究领域: ML 作者: Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten 发布时间: 2025-06-13 arXiv: 2506.10663
中文摘要
社会和行为科学中的可重复性通常由独立研究者评估,他们重新分析原始数据以评估已发表发现是否可以复现。然而,此类方法资源密集且难以扩展。在此,我们展示大语言模型(LLM)可以自动化可重复性评估。使用行为和社会科学中N=76项具有预定义声明的已发表研究,我们比较LLM生成分析与原始发现及人类再分析。对于7项研究,LLM无法产生可行的效应大小估计。对于其余研究,我们的LLM管道在41%的研究中恢复原始效应大小(使用Cohen's d +/-0.05容差)。此外,我们的LLM管道在96%的案例中达到与原始研究相同的定性结论,其中结论指示再分析是否支持原始声明。作为对比,人类再分析师在34%的研究中恢复原始效应大小,在74%的案例中达到相同定性结论。这些结果共同表明LLM可作为自动化可重复性评估的可扩展工具,并为社会和行为科学中实证结果的系统审计提供基础。
原文摘要
Reproducibility in the social and behavioral sciences is typically evaluated by independent researchers who reanalyze the original data to assess whether the published findings can be recovered. However, such approaches are resource-intensive and difficult to scale. Here, we show that large language models (LLMs) can automate reproducibility assessments. Using N=76 published studies with predefined claims from the behavioral and social sciences, we compare LLM-generated analysis with the original findings and human reanalysis. For 7 studies, the LLM could not produce a viable effect size estimate. For the remaining studies, our LLM pipeline recovered the original effect sizes in 41% of studies using a +/-0.05 tolerance in Cohen's d. Further, our LLM pipeline reached the same qualitative co...
--- *自动采集于 2026-06-13*
#论文 #arXiv #ML #小凯
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens