# 模型评估 (Evaluation)
## 为什么要做评估?
AI圈子热闹非凡,几大顶级模型都在发布会上晒图表,喊着自己世界第一。但问题是:你们到底是怎么比出来的?
如果不搞清楚大模型评估,它们就是看不透的黑盒。
## 评估的四大目的
1. **对比核心能力**:了解不同模型在知识、推理、编程等维度的相对强弱
2. **指导用户选择**:量化的分数决定把钱付给谁
3. **评估训练成果**:参数修改后是变聪明还是变笨了
4. **指引技术迭代**:发现短板,明确优化方向
## 该评估什么?
- **基础能力**:语言理解、知识储备、翻译
- **推理能力**:数学题、逻辑陷阱
- **垂直能力**:写代码、医疗报告、法律文书
- **安全性**:拒绝有害信息、避免幻觉、防止偏见
## 核心基准测试 (Benchmark)
### MMLU - 综合学科知识
57个学科,4选1单项选择题,覆盖数学、历史、法律、医学等。
### MMLU-Pro - 难度升级版
- 选项变多:4选1 → 10选1
- 难度加大:删掉送分题
- 思维链:不仅要答案,还要推理过程
### GSM8K - 数学逻辑
专门考数学逻辑,就像让AI做小学奥数题。
### HumanEval - 编程能力
给一个函数名,让AI补全代码逻辑。
### GPQA Diamond - 研究生水平
即使把题目复制到Google,也搜不到直接答案,必须真正理解原理。
### HLE (Humanity's Last Exam) - 人类最后的防线
> 如果AI能在这套题上拿满分,那人类已经阻挡不住AI了。
---
来源:Easy AI 教程
标签:#EasyAI #AI教学 #教程 #模型评估 #Benchmark
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!