数据流水线:从原始垃圾到黄金教材
一、模型的"教材"从哪里来
如果你问一个刚入行做 AI 的人:"训练模型最重要的是什么?" 他可能会说算法、算力、模型架构。
但如果去问一个训练过百亿参数模型的人,他很可能会回答你:数据。
这不是谦虚。2023 年之后,业界慢慢形成一个共识——模型性能的天花板,很大程度上取决于它读了多少、读得有多好。再聪明的模型,喂进去的都是垃圾,吐出来的也只能是垃圾。
问题是:数据从哪来?从网上扒下来的原始资料是一团乱麻,不能直接喂。得经过一连串工序——标注、清洗、构建、整理——才能变成模型能"吃"的教材。这条流水线,就是本文要讲的东西。
---
二、第一步:数据标注——给原始数据贴上"正确答案"
想象你教一个小孩认动物。你指着一张猫的照片说:"这是猫。" 你指的那一下、说的那一句,就是"标注"。
AI 模型也一样。一段光秃秃的文字,模型根本不知道你希望它拿来干嘛。得有人在旁边告诉它:这句话是"好评"还是"差评"、这个问题的"理想回答"长这样。加上这些说明的过程,就是数据标注。
就像老师批改作业时写上对错和评语。模型靠这些"批改",才慢慢学会什么是对的、人更喜欢哪一种。
标注有三种常见 flavor:
指令标注 —— 给一条指令,人工写出或修订一个"理想回答",让模型照着学怎么办事。比如:"用一句话解释光合作用" → "植物利用阳光,把二氧化碳和水变成养分和氧气。"
偏好标注 —— 同一个问题给两个回答,人工标出"哪个更好",让模型学人的喜好。比如问"朋友失恋了怎么安慰",A 说"先陪着,让他说",B 说"下一个会更好"——标 A 更好,模型就学会了共情比敷衍更重要。
评估标注 —— 给模型的回答打分或判对错,攒成一套"考卷+标准答案",用来检验模型水平。这种标注不直接喂给模型学习,而是用来考试。
这活儿可以全靠人手工做,也可以让一个现成的模型先做个初稿、再由人来审。怎么标、标得准不准,直接影响模型学得好不好。
---
三、第二步:数据清洗——把脏水洗成清水
从网上扒来的原始数据是一团乱麻:有重复的、有乱码、有广告、有骂人的、格式还五花八门。就像你从河里打了一桶水,里面有泥沙、树叶、甚至死鱼。
把这些垃圾挑出去扔掉的过程,就是数据清洗。
就像做饭前要洗菜、择菜、把烂叶子摘掉。菜没洗干净,再好的厨子也炒不出好菜。模型也一样:脏数据喂进去,它会跟着学坏。
清洗是一条流水线,分五步走:
去重 —— 把一模一样、或几乎一样的内容删到只剩一份。网上同一篇文章常被转载几百遍,不处理的话模型会把同样的内容读几百次,浪费时间还学不到新东西。
去噪 —— 清掉网页标签、广告、乱码、导航栏这些跟正文无关的杂物。你爬一个新闻网页,抓下来的内容里可能夹杂着"点击领红包""推荐阅读"——这些对模型学习毫无帮助。
低质过滤 —— 扔掉太短、语句不通、信息量太低的内容。"哈哈哈哈哈哈""666"这种,留着只会拉低整体质量。
有害过滤 —— 过滤掉辱骂、违法、不安全的内容,免得模型学会说这些。这一步的道德和安全意义,怎么强调都不为过。
格式统一 —— 把编码、标点、字段格式统一成一个样,模型才好成批读取。
走完这五步,原始数据可能只剩下原来的三分之一——但全是能用的。量少了,质高了。
---
四、第三步:数据集构建——让机器自动"出题"
你手里可能有一摞资料:产品手册、客服记录、行业文档。模型没法直接"读"这一摞——它要学的,是一条条整理好的"一问一答"。
把文档变成成千上万条这样的问答,就是数据集构建。
一条条手写当然行,但几万条写下来要累垮人。所以现在更常见的做法是:让一个工具把文档拆开、自动出题、自动作答,人只在旁边把关。
具体怎么跑?大概六步:
1. 拆文档 —— 把一摞长文档切成一块块语义完整的段落。 2. 自动出题 —— 让模型读完一段,自己生成几个相关问题。 3. 自动作答 —— 再用模型根据原文回答这些问题。 4. 质量把关 —— 人抽查,把答得不准的挑出来改。 5. 去重去噪 —— 再次清洗,去掉重复的问答对。 6. 导出格式 —— 整理成模型训练需要的标准格式。
这套流程跑下来,一本两百页的产品手册,可以变成几千条问答对。机器负责"出力",人负责"把质量关"。
---
五、第四步:训练数据集——不是一锅烩,是分三种
好不容易攒出来的数据,不是随便混在一起就喂给模型的。一个模型从白纸到能干活,要分几个阶段学,每个阶段喂的材料长得完全不一样。
第一种:预训练语料(第一阶段) 海量、原始、不带标准答案。让模型先把语言本身学明白:词怎么搭、句子怎么接、世界大概是什么样。
就像婴儿先听大人说话,不指望他听懂每个词,先熟悉语言的韵律和规律。模型读几十亿字的网页、书籍、代码,目的就是这个。
第二种:指令数据(第二阶段) 一问一答,带"标准答案"。教模型"听懂人话、按要求办事"——给一个指令,配一个理想回答。
这是让模型从"会说话"变成"会办事"的关键一步。你问它"把这句话翻译成英文",它要知道该输出英文,而不是跟你讨论翻译理论。
第三种:偏好数据(第三阶段) 同一个问题,两个回答比好坏。告诉模型"人更喜欢哪种回答"。
这一步是让模型从"做对"变成"做好"。两个回答都没错,但一个更贴心、一个更敷衍。模型要学会人的口味。
三种数据各管一个阶段:先用海量语料把底子打牢,再用指令数据教它听话,最后用偏好数据把回答的口味调到人喜欢。缺哪种,模型就缺哪块本事。
---
六、一条流水线,四个车间
把这四步串起来,就是一条完整的数据流水线:
原始数据 → 数据标注(贴标签) → 数据清洗(去垃圾) → 数据集构建(出问答) → 训练数据集(分阶段喂)
每一步都不复杂,但每一步都省不得。跳过清洗,模型会学坏;跳过标注,模型不知道学什么;跳过分阶段,模型可能"会聊天但不会办事"。
2024 年之后,数据质量的重要性被提到了前所未有的高度。DeepSeek-V3、GPT-4o 这些模型的突破,除了架构创新,很大一部分功劳要记在"数据工程"上。算法是药方,数据是药材,两者缺一不可。
---
参考资料:
- easy-learn-ai 数据标注模块(commit 9621a05)
- easy-learn-ai 数据清洗模块(commit 9621a05)
- easy-learn-ai 数据集构建模块(commit 9621a05)
- easy-learn-ai 训练数据集模块(commit 9621a05)
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens