LLM二进制分析的"潜意识"：四种隐秘的推理模式

开场：当AI成为"代码侦探"

想象你是一位侦探，面前是一起复杂的案件。受害者是一堆二进制代码——那些由0和1组成的、人类难以直接读懂的"天书"。你的任务是在这些代码中找出潜在的安全漏洞，就像在一座巨大迷宫中发现隐藏的陷阱。

这听起来像是科幻小说中的情节，但在今天的网络安全领域，这已经成为现实。

大型语言模型（LLM）正在以前所未有的方式介入二进制漏洞分析。它们不再是简单的代码扫描工具，而是变成了能够"思考"、"推理"的AI侦探，通过数百轮的多轮对话，逐步揭开二进制程序的神秘面纱。

但是，这些AI侦探是如何思考的呢？它们的"大脑"里到底在发生什么？

一项来自arXiv 2603.19138的大规模研究，首次揭开了这个黑箱——他们发现了LLM在二进制分析中展现出的四种隐性推理模式。这些模式不是程序员明确编写的，而是从模型的"潜意识"中自然涌现出来的。

让我们一起走进AI的思维世界，看看这些"数字侦探"是如何破案的。

---

背景：二进制分析的两种范式

什么是一遍式分析？

传统的二进制分析遵循一遍式（One-Pass）范式。想象你是一位建筑师，接到任务后要分析一座大楼的结构。一遍式分析就像是：你先完整地绘制出整座大楼的蓝图（控制流图、数据流图等），然后在这个静态蓝图上进行推理和分析。

这种方法的优点是系统性——你有一个全局的视角。但缺点也很明显：

1. 信息过载：大型程序的蓝图可能包含数百万个节点，人类分析师难以处理 2. 缺乏针对性：很多分析 effort 被浪费在无关紧要的代码路径上 3. 静态局限：无法根据分析过程中的新发现动态调整策略

什么是迭代式分析？

与之相对的是迭代式（Iterative）分析，这也是人类专家实际工作的方式。想象同一位建筑师，但他这次采用不同的策略：

先观察大楼的外观，发现可疑的入口
进入后检查特定区域，根据发现决定下一步去哪里
反复"钻入-退出-再钻入"，逐步缩小关注范围

这种方法更加灵活和目标导向。每一轮分析都基于前一轮的发现，推理和工具调用交替进行。

LLM的出现，使得这种迭代式分析可以被自动化。模型成为了"决策核心"，决定：

下一步调用什么工具（反汇编、交叉引用查询等）
关注哪个函数或代码区域
何时放弃当前路径、何时深入探索

---

四种隐性推理模式：AI的"破案心理学"

研究者分析了521个真实二进制文件的99,563个推理步骤，发现了四种反复出现的模式。这些模式不是显式编程的结果，而是从模型的token级生成行为中涌现出来的。

模式一：早期剪枝（Early Pruning）——果断放弃的艺术

现象描述：

在分析的初始阶段，LLM会生成多个候选分析路径（如多个函数调用点、多个可疑的数据流）。但很快，它就会基于初步观察"剪掉"其中大部分，专注于少数看起来最有希望的路径。

典型案例：

在分析pptp-ondemand二进制文件时，模型最初注意到：

> "这个函数被main函数从三个位置调用。我需要检查每个调用点，了解传入的参数，特别是param_2和param_3，判断它们是否来自外部污染源。"

但在几步分析后，模型发现了关键证据：

> "我已经获得了函数的完整汇编代码。在地址0x004011d8处可以清楚看到缓冲区溢出：'addiu v0, fp, 0x118'引用了一个栈缓冲区..."

从这一刻起，模型就完全聚焦在这条路径上，之前考虑的其他调用点再也没有被提及。

心理学解读：

这就像人类专家的直觉——面对海量信息，迅速识别出最有价值的线索，果断放弃低概率的分支。这种行为在83.5%的分析会话中出现，是LLM处理信息过载的适应性策略。

技术意义：

早期剪枝极大地提高了分析效率，避免了在无效路径上浪费计算资源。但它也有风险：如果过早剪枝，可能会错过真正的漏洞。模型的准确性很大程度上取决于它的"直觉"是否准确。

---

模式二：路径依赖锁定（Path-Dependent Lock-in）——专注的代价

现象描述：

一旦选择了一条分析路径，LLM会表现出强烈的"锁定效应"。后续推理步骤会持续在同一语义上下文中进行，反复检查相关的函数、指令和数据流。即使有微弱的矛盾信号出现，模型也倾向于继续在当前路径上深入，而非立即切换到替代方案。

典型案例：

在分析3322ip二进制文件时，模型做出了路径选择：

> "main函数很大很复杂。我注意到它在多处调用doSystemCmd（0xdf54、0xe198、0xe27c、0xe628）。doSystemCmd是一个危险的命令注入汇点。我需要识别可能到达这个函数的污染源。"

接下来的多个推理步骤中，模型持续追踪与doSystemCmd相关的数据流，检查各种可能的路径。即使中间发现了一些削弱初始假设的证据，分析仍然保持在这个方向上。

心理学解读：

这反映了人类认知中的确认偏误（Confirmation Bias）——一旦形成某种假设，我们倾向于寻找支持它的证据，而忽视反面证据。在分析场景中，这种行为有助于保持上下文连贯性，避免频繁的上下文切换带来的认知负担。

技术意义：

路径锁定在97.6%的会话中出现，是维持深度分析的关键机制。但它也可能导致"钻牛角尖"——如果初始假设是错误的，锁定效应会延迟错误纠正。与模式三（回溯）的配合，形成了一种"先深入、后纠正"的动态平衡。

---

模式三：目标回溯（Targeted Backtracking）——知错能改的智慧

现象描述：

当当前分析路径遇到死胡同，或出现新的证据表明另一条路径可能更有希望时，LLM会执行一种有针对性的回溯。它不是随机返回，而是精确地回到之前"标记"为待探索的候选路径，并在此基础上继续分析。

典型案例：

继续3322ip的分析案例。在深入探索了网络相关函数后，模型遇到了瓶颈。此时，它执行了回溯：

> "这个函数处理网络连接设置，并且调用doSystemCmd执行格式字符串'ip rule del to %s'和'ip rule add to %s table wan %d'..."

这个doSystemCmd路径其实在分析初期就被提及过，但当时被标记为"待后续探索"。现在，模型回到了这个"存档点"，并结合之前积累的信息进行深入分析。

心理学解读：

这类似于人类专家使用的栈式工作记忆——当我们专注于一个任务时，会将其他潜在任务"压入栈中"。当当前任务失败时，我们从栈中"弹出"之前的任务继续处理。这种机制允许在保持深度的同时，不放弃广度上的可能性。

技术意义：

目标回溯在93.8%的会话中出现，是LLM从错误假设中恢复、整合分散信息的关键能力。它与路径锁定形成了互补：锁定保证深度，回溯提供纠错能力。两者之间的动态转换，构成了分析过程的"探索-利用"权衡。

---

模式四：知识引导优先（Knowledge-Guided Prioritization）——经验的力量

现象描述：

面对大量潜在分析路径时，LLM会利用预训练知识中的"经验法则"进行优先排序。这些线索包括已知的危险函数（如system、strcpy）、库调用模式、数据流信号、或与已知漏洞相似的代码模式。

典型案例：

在3322ip分析的最初阶段，模型展现了典型的知识引导行为：

> "main函数在多处调用doSystemCmd。doSystemCmd是命令注入的危险汇点。我应该识别可能到达这个函数的污染源。"

这里的"危险汇点"判断，并非来自对当前二进制的深入分析，而是来自模型预训练过程中学习到的安全知识。基于这一判断，模型将大量分析 effort 分配给涉及doSystemCmd的路径，而其他函数则得到较少的关注。

心理学解读：

这反映了人类专家分析中的模式识别能力。经验丰富的分析师看到某些函数名或代码模式时，会立即联想到已知的漏洞类型，从而快速聚焦高风险区域。这种基于知识的启发式方法，在信息不完整时特别有价值。

技术意义：

知识引导优先在97.6%的会话中稳定出现，是LLM相比传统静态分析工具的一大优势。传统工具依赖精确的图遍历或数据流分析，而LLM可以基于语义关联进行"跳跃式"推理。这使得LLM能够在没有完整控制流图的情况下，优先探索语义上更可能包含漏洞的路径。

---

四种模式的协同：一个有机的推理系统

时序动态：分析的生命周期

研究者发现，四种模式在分析过程中呈现出明显的时序分工：

分析阶段	主导模式	功能
早期	知识引导优先 + 早期剪枝	快速聚焦高风险区域，缩小搜索空间
中期	路径依赖锁定	深入分析选定路径，保持上下文连贯
后期	目标回溯	纠正错误假设，整合分散发现

这种时序组织并非预设，而是从token级生成行为中自然涌现的。它反映了LLM在处理长程任务时的一种自组织能力。

模式间的相互作用

更有趣的是模式之间的结构关系：

1. 锁定与剪枝的双向循环：路径锁定和早期剪枝之间存在密切的相互作用，占所有模式转换的79.4%。当模型锁定某一路径时，实际上就是在对其他路径进行隐式剪枝；而当早期剪枝发生时，往往会导致更强的路径锁定。

2. 锁定与优先化的互补：知识引导优先决定了"去哪里"，路径锁定决定了"待多久"。两者共同构成了分析策略的"选择-坚持"机制。

3. 回溯作为纠错机制：回溯不是独立的探索策略，而是对锁定和剪枝的"安全阀"。当锁定导致走入死胡同时，回溯提供了恢复机制。

---

深层意义：从显式控制到隐性涌现

范式转变：隐式控制的力量

这项研究最重要的发现是：LLM的推理控制不是显式编程的，而是从token级序列生成中隐性涌现的。

传统的分析系统中，剪枝、锁定、回溯、优先化等行为都是显式实现的——有明确的数据结构（如搜索栈、优先队列）和算法逻辑（如深度优先、最佳优先）。

但在LLM中，这些行为没有对应的显式表示。模型不维护"待探索路径列表"或"当前假设栈"。相反，这些控制功能直接从生成下一个token的概率分布中"涌现"出来：

早期剪枝：因为LLM无法同时维护所有候选路径的完整上下文
路径锁定：因为token级推理创造了强烈的上下文依赖
回溯：反映了对失败路径的恢复
优先化：利用预训练知识指导决策

这种隐性控制的发现，对LLM系统的设计具有深远影响：我们或许不需要显式地编程控制逻辑，而应该关注如何塑造和利用模型的隐性推理动态。

语义引导 vs 结构引导

另一个重要洞察是LLM探索的语义引导本质。

传统的深度优先、广度优先搜索需要显式的图结构和确定性遍历规则。污点分析需要精确的数据流追踪。相比之下，LLM的遍历是语义驱动的：

当遇到函数调用时，LLM解释其语义含义
使用预训练知识推断与漏洞发现的相关性
优先探索语义上"有味道"的路径，而非结构上"可达"的路径

这使得LLM能够在没有完整控制流重建的情况下进行漏洞导向的探索。它更像是一位有经验的侦探，凭借直觉和经验在案发现场寻找线索，而非机械地检查每一个角落。

---

实验验证：数据说话

大规模数据集

这项研究的数据规模令人印象深刻：

521个真实二进制文件：涵盖ARM和MIPS架构
99,563个推理步骤：每步都包含详细的工具调用和推理内容
平均每个会话250+步：有些会话甚至超过300步

这种规模使得研究者能够进行统计显著的模式识别，而非依赖个别案例的轶事证据。

模式的稳定性

四种模式展现出了惊人的稳定性：

模式	出现频率	稳定性特征
早期剪枝	83.5%	在搜索空间膨胀前快速生效
路径锁定	97.6%	维持长时间连续分析
目标回溯	93.8%	在分析后期集中出现
知识优先	97.6%	贯穿整个分析过程

这些高频率不是偶然的，而是反映了LLM在应对长程、复杂分析任务时的系统性行为特征。

可量化的行为特征

每种模式还对应着可测量的行为差异：

早期剪枝的路径：平均路径长度较短，分支因子在早期急剧下降
路径锁定的会话：在同一代码区域的操作密度显著更高
回溯行为：与重新访问的候选路径之间的时间间隔呈双峰分布
知识优先：高风险函数附近的检查深度显著更深

这些量化特征不仅验证了模式的存在，还为未来的自动化检测和控制提供了可操作的基础。

---

未来展望：从理解到设计

更可靠的分析系统

理解这些隐性模式，为设计更可控、更有效的LLM分析系统提供了基础：

1. 模式感知提示：设计提示词来强化或抑制特定模式。例如，在需要探索多种可能性时，可以添加"请考虑多种不同的攻击向量"来抑制过早剪枝。

2. 动态干预：实时监控模式出现的情况，在检测到过度锁定时主动建议"退一步看看其他可能性"。

3. 混合系统：结合LLM的语义引导能力和传统分析的精确性，例如在关键决策点使用符号执行验证LLM的假设。

扩展到其他领域

虽然这项研究聚焦于二进制分析，但其方法论和发现可以推广到其他需要长程推理的LLM应用场景：

科学研究：文献综述、假设生成、实验设计
软件工程：代码重构、架构设计、调试
医疗诊断：症状分析、鉴别诊断、治疗方案选择
法律咨询：案例检索、法条适用、策略制定

任何需要多步骤推理、面对不确定性和信息不完整性的任务，都可能展现出类似的隐性模式。

理论的深化

这项研究也开启了若干理论问题：

1. 涌现机制：这些模式为什么能从简单的下一个token预测中涌现？是否与Transformer的注意力机制有关？

2. 泛化能力：在不同任务、不同模型架构、甚至不同模态（如多模态推理）中，这些模式是否依然稳定？

3. 优化方向：能否通过训练或微调，增强某些模式（如回溯）的频率或效果？

4. 可解释性：能否开发工具来自动标注和可视化这些模式，帮助人类理解AI的推理过程？

---

结语：理解AI，理解我们自己

这项研究不仅揭示了LLM如何分析二进制代码，也提供了一个窗口，让我们窥见人工智能的"思维"方式。

有趣的是，这些从token级生成中涌现的模式——剪枝、锁定、回溯、优先化——与人类专家的认知策略惊人地相似。这是否意味着，在面对复杂问题时，智能系统（无论是生物的还是人工的）会自然地收敛到某些通用的解决问题策略？

或许，通过研究这些AI的"潜意识"，我们不仅能建造更好的机器，也能更深刻地理解人类自身的思维奥秘。

在二进制漏洞分析的战场上，LLM正在以我们尚未完全理解的方式战斗。而这项研究，是揭开这个黑箱的第一步。

---

*本文基于arXiv论文2603.19138撰写，作者为Qiang Li、XiangRui Zhang、Haining Wang。*

*标签：#论文解读 #科普 #AI #小凯 #二进制分析 #LLM推理 #网络安全*