相似性度量(Similarity Measures)是案例推理(Case-Based Reasoning, CBR)系统的核心组件之一,用于评估新问题与已存储案例之间的相似程度,从而检索出最匹配的旧案例来辅助问题解决。以下基于论文《Case-Based Reasoning – Methods, Techniques, and Applications》中的第3节内容,进行详细解释。我将从认知视角、数学定义、具体措施、选择方法、分类、应用扩展以及语义等方面逐一剖析,并结合公式、例子和统计桥接,提供全面解读。
1. 相似性的认知视角
人类在推理问题时倾向于使用“相似性”概念,但往往无法精确定义它,因为相似性是一个高度不连贯(incoherent)的概念。从认知科学角度,相似性可以从多个视角看待:
- 整体相似性(Overall Similarity):两个对象在整体概念上相似,例如一辆红色自行车和一辆蓝色自行车在“自行车”概念上相似。
- 身份(Identity):完全相同。
- 相似(Similarity):部分匹配,但有差异(如颜色不同)。
- 部分相似性(Partial Similarity):仅在特定属性上相似。
论文强调,在智能系统中,需要灵活的控制策略来建模这些类型,尤其在图像数据库中,图像内容可从不同视角(如颜色、形状)查看。系统应通过对话策略(conversational strategies)确定视角,并应用相应相似性,以实现目标。例如,在图像检索中,用户可能从“颜色”或“对象类型”视角查询,系统需动态调整相似性计算。这要求系统具备灵活性和计算机化推理,以模拟人类的多维相似判断。
2. 相似性的数学视角与Minkowski度量
从数学角度,相似性通常通过距离度量(distance measures)表示,最常用的技术问题是Minkowski度量(Minkowski metric),公式如下:
$$
d^{(p)}_{i i'} = \left( \frac{1}{J} \sum_{j=1}^{J} |x_{i j} - x_{i' j}|^p \right)^{1/p}
$$
- \( i \) 和 \( i' \) 表示两个案例。
- \( J \) 是属性(features)的数量。
- \( x
{i j} \) 是案例 \( i \) 的第 \( j \) 个属性值。
- \( p \) 是参数,决定对差异的重视程度。
- Minkowski度量的性质:满足对称性(symmetry)、身份(identity)和不等性(inequality)等度量属性。
参数 \( $p$ \) 的选择取决于差异的重要性:
- p = 1 (City-Block metric 或 Manhattan distance):大差异和小差异影响相同,适合均匀重视所有点差异的场景。
- p = 2 (Euclidean metric):对大数据点差异更敏感,因为它平方差异后求平均,适合强调大偏差的应用。
- p = ∞ (Max-Norm 或 Chebyshev distance):所有差异不得超过预定义阈值,确保最大偏差受控。
例子:论文以机器人轴信号为例说明。假设计算真实机器人轴的一维路径信号与从压缩数据点重构的信号之间的相似性:
- 如果选择 p=2(Euclidean),它会平均所有点,但更强调大差异,可能导致对噪声敏感。
- p=1(City-Block)时,大小差异平等影响,适合平滑路径。
- p=∞ 时,确保无点差异超过阈值,机器人轴运动平滑,不会突变如阶跃函数。
这个例子显示,领域知识(domain knowledge)可指导 p 的选择:在机器人控制中,p=∞ 可确保路径偏差可控,避免极端情况。
如果无先验知识(a-priori knowledge),选择方法是通过试验不同相似性,并基于质量准则观察行为:
- 对于分类问题,使用错误率(error rate)作为准则。
- 对于聚类,使用类别度量(category measures),如评估相似对象分组紧致性和不同组区分度(类似于聚类中的轮廓系数或机器学习中的F1分数)。
3. 相似性度量的分类与不变性
相似性度量可基于数据类型维度分类:
- 数值数据(Numerical data):如Minkowski。
- 符号数据(Symbolical data):如基于字符串匹配。
- 结构数据(Structural data):如图匹配(graphs [29])。
- 混合数据类型(Mixed-data types):结合以上。
其他分类基于应用:
- 时间序列(time-series [54]):如动态时间规整(DTW)。
- 形状(shapes [53]):如Hausdorff距离。
- 图(graphs [29]):如编辑距离。
- 音乐分类(music [13]):基于谱特征。
不变性(Invariance):技术系统中重要,包括平移(translation)、尺寸(size)、缩放(scale)和旋转(rotation)不变性,确保度量不受这些变换影响。
现实应用复杂,通常涉及多种属性(如传感器数值 + 元知识类别)。这些可形成部分相似性(partial similarities) Sim1, Sim2, ..., Simn,每个基于不同度量。整体相似性可通过加权求和:
$$
\text{Sim} = w_1 \text{Sim}_1 + w_2 \text{Sim}_2 + \dots + w_n \text{Sim}_n
$$
- 权重 \( $w_i$ \) 建模每个部分的影響。
- 例子:图像分割参数的元学习 [14] 或医疗诊断 [15],证明这种策略的有效性。
4. 学习相似性度量
引入权重使相似性从全局转向局部(global to local similarity)。学习属性权重可为特定应用构建自定义度量。方法包括:
- 线性或随机优化 [18]。
- 启发式搜索 [17]。
- 遗传编程 [25]。
- 案例排序 [20] 或 NN-分类中的查询排序。
相关反馈(Relevance Feedback) [21, 22]:基于用户反馈学习距离函数,流行于数据库和图像检索。优化准则为系统准确性,而非单个案例对。偏向学习方法和案例描述。
新方向:桥接案例与解决方案 [23]。基于用户偏好关系 [26] 或相似关系 [27] 排序案例,学习度量和相关特征。假设:相似解决方案应有相似描述。优化特征集和权重,直至满足假设。通过线性特征变换学习距离 [19]。
5. 相似性的语义(Semantic of Similarity)
宜将相似值归一化到 [0,1] 区间,便于比较:
- 0 表示身份(完全相同)。
- 1 表示不相等。
- 0.5 中性;0.5~0 更相似;0.5~1 更不相似。
常见归一化:基于特征值的上下界(upper and lower bounds)。
增量系统挑战:案例库初始小,界限基于有限案例判断,可能不准。随着时间 \( t
k \) 新案例加入,界限变化,导致相似尺度变动,决策不一致。论文指出 [55] 首次解释此问题,需要特殊处理以确保稳定性(类似于统计中的在线学习标准化)。
6. 桥接统计与CBR,以及开放问题
相似性度量桥接CBR与统计社区:如聚类准则 [24, 30]、MDL/MML学习。论文强调CBR的增量性质,使其适合动态环境,但需解决归一化在在线学习中的问题。未来可探索更鲁棒的度量,以处理噪声和复杂数据。