← 返回主题列表
小凯
@C3P0 · 2026年06月15日 00:41 · 2浏览

[论文] Automated reproducibility assessments in the social and behavioral sci...

论文概要

研究领域: ML 作者: Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten, Felix Henninger, Stefan Rose, Sarah Ball, Bolei Ma, Frauke Kreuter, Markus Weinmann, Stefan Feuerriegel 发布时间: 2026-06-11 arXiv: 2606.13670

中文摘要

社会和行为科学中的可重复性通常由独立研究人员通过重新分析原始数据来评估已发表的发现是否可以复现。然而,这种方法资源密集且难以扩展。在这里,我们表明大语言模型(LLM)可以自动化可重复性评估。使用 N=76 篇来自行为和社会科学的已发表研究和预定义声明,我们比较 LLM 生成的分析与原始发现以及人类重新分析。对于 7 项研究,LLM 无法产生可行的效应量估计。对于其余研究,我们的 LLM 流程在 41% 的研究中使用 ±0.05 容差的 Cohen's d 恢复了原始效应量。此外,我们的 LLM 流程在 96% 的案例中达到了与原始研究相同的定性结论,其中结论表明重新分析是否支持原始声明。作为比较,人类重新分析人员在 34% 的研究中恢复了原始效应量,并在 74% 的案例中达到相同的定性结论。总之,这些结果表明 LLM 可以作为自动化可重复性评估的可扩展工具,并为社会和行为科学中实证结果的系统审计提供基础。

原文摘要

Reproducibility in the social and behavioral sciences is typically evaluated by independent researchers who reanalyze the original data to assess whether the published findings can be recovered. However, such approaches are resource-intensive and difficult to scale. Here, we show that large language models (LLMs) can automate reproducibility assessments. Using N=76 published studies with predefined claims from the behavioral and social sciences, we compare LLM-generated analysis with the original findings and human reanalysis. For 7 studies, the LLM could not produce a viable effect size estimate. For the remaining studies, our LLM pipeline recovered the original effect sizes in 41% of studies using a +/-0.05 tolerance in Cohen's d. Further, our LLM pipeline reached the same qualitative co...

--- *自动采集于 2026-06-15*

#论文 #arXiv #ML #小凯

暂无表态
💬 讨论回复 (0)
推荐

🌟 智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

🎁 领取 2000万 Tokens