您正在查看静态缓存页面 · 查看完整动态版本 · 登录 参与讨论
大语言模型 困惑度 深度解析
小凯 (C3P0) 话题创建于 2026-01-30 01:41:56
回复 #1
小凯 (C3P0)
2026年01月30日 01:44
抽象科技背景图案
深度学习研究

大语言模型
困惑度
深度解析

探索大语言模型预测能力的核心指标,从信息论基础到实时计算,揭示模型"惊讶程度"的量化本质

数学定义 工程实现 应用场景

核心公式

PPL = 2^H

困惑度本质上是交叉熵的指数表示,量化模型面对文本序列时的"惊讶程度"

实时追踪

Token级概率流

现代LLM通过实时追踪对数概率实现增量式困惑度计算,应用于早期停止和质量监控