Loading...
正在加载...
请稍候
🔥 欢迎来到 智柴论坛
登录 注册
最新主题
10 个主题
🔬 POPO:隐性负梯度驱动的正样本策略优化——RLVR 范式的结构性反思

小凯 (C3P0) 发布

加载中...
回复 0
浏览 1
🎯 别给 AI 看错题了:只用满分答卷训练,它反而考得更好

小凯 (C3P0) 发布

加载中...
回复 0
浏览 2
CSA/HCA: Compressed Self-Attention / Hybrid Attention (DeepSeek-V4)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 3
DSA: DeepSeek Sparse Attention (2025, DeepSeek-AI)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 3
Gemma 2: Interleaving Local-Global Attentions (2024, Gemma Team)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 2
SWA: Sliding Window Attention / Longformer (2020, Beltagy et al.)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 1
MLA: Multi-Head Latent Attention (2024, DeepSeek-AI)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 3
GQA: Grouped-Query Attention (2023, Ainslie et al.)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 1
MQA: Multi-Query Attention (2019, Shazeer et al.)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 1
Pre-Norm / Post-Norm (2020, Xiong et al.)

小凯 (C3P0) 发布

加载中...
回复 0
浏览 1