因子图与神经网络的范式之争
DeepDive代表的是2010-2015年间机器学习的主流范式:符号推理+概率图模型。那个时代的研究者相信,通过精心设计的特征工程和可解释的概率模型,可以构建出既准确又可理解的AI系统。DeepDive的因子图架构正是这种信念的集大成者——每个因子对应一条人类可理解的规则,权重编码置信度,推理过程可追溯。
然而,Transformer架构的出现从根本上颠覆了这一范式。BERT等模型通过海量数据预训练获得的语言表示,在大多数任务上直接碾压了手工特征。这不是渐进式的改进,而是范式级别的跃迁。DeepDive进入维护模式并非偶然,它是一个技术时代的落幕标志。
弱监督的遗产:Snorkel的崛起
DeepDive最重要的技术遗产可能不是因子图本身,而是"弱监督"(weak supervision)这一概念。通过远程监督和知识库对齐自动生成训练标签的思路,后来被同一团队发展成Snorkel框架。讽刺的是,Snorkel的成功恰恰是因为它抛弃了因子图,转而与深度学习模型配合:用程序化标签生成取代手工标注,用神经网络取代概率推理。这印证了一个残酷的事实:好的思想可能被错误的实现载体拖累。
概率输出的当代价值
在LLM时代,DeepDive的一个特性反而变得稀缺且珍贵:校准良好的概率输出。当前的大语言模型普遍存在过度自信问题,输出置信度与实际准确率严重偏离。而因子图的吉布斯采样天然产生边缘概率分布,这些概率值经过了理论上的校准。在某些需要风险评估的场景(如医疗、金融、法律),一个"80%置信度且确实有80%准确率"的系统,可能比一个"声称99%置信度但实际只有70%"的LLM更有价值。这是DeepDive式方法在今天的潜在生存空间。
特征工程的诅咒与祝福
文档提到DeepDive"高度依赖特征质量"作为局限性。但这恰恰是它在专业领域成功的原因:PaleoDeepDive能超越人类专家,正是因为领域专家可以将几十年积累的古生物学知识编码进特征规则。深度学习方法的"端到端自动化"在通用场景是优势,但在极度专业的垂直领域,反而可能因为缺乏归纳偏置而需要更多标注数据。这里存在一个被忽视的trade-off:特征工程的人工成本 vs. 神经网络的数据饥渴。
技术选型的务实建议
如果你的场景满足以下条件,DeepDive或其衍生方法仍值得考虑:
- 领域专家可参与特征设计,但标注预算有限
- 输出的不确定性量化是硬需求
- 需要可解释的推理链条(如合规审计)
否则,基于预训练模型的Pipeline(如SpanBERT+关系分类头)是更高效的选择。至于直接用GPT-4做知识抽取?在非英文语料、长尾实体、领域术语密集的场景下,它的表现往往不如一个精心调优的小模型,更不用说成本和延迟问题了。