相似性度量(Similarity Measures)是案例推理(Case-Based Reasoning, CBR)系统的核心组件之一,用于评估新问题与已存储案例之间的相似程度,从而检索出最匹配的旧案例来辅助问题解决。以下基于论文《Case-Based Reasoning – Methods, Techniques, and Applications》中的第3节内容,进行详细解释。我将从认知视角、数学定义、具体措施、选择方法、分类、应用扩展以及语义等方面逐一剖析,并结合公式、例子和统计桥接,提供全面解读。
#### 1. 相似性的认知视角 人类在推理问题时倾向于使用“相似性”概念,但往往无法精确定义它,因为相似性是一个高度不连贯(incoherent)的概念。从认知科学角度,相似性可以从多个视角看待:
- 整体相似性(Overall Similarity):两个对象在整体概念上相似,例如一辆红色自行车和一辆蓝色自行车在“自行车”概念上相似。
- 身份(Identity):完全相同。
- 相似(Similarity):部分匹配,但有差异(如颜色不同)。
- 部分相似性(Partial Similarity):仅在特定属性上相似。
#### 2. 相似性的数学视角与Minkowski度量 从数学角度,相似性通常通过距离度量(distance measures)表示,最常用的技术问题是Minkowski度量(Minkowski metric),公式如下:
$$ d^{(p)}_{i i'} = \left( \frac{1}{J} \sum_{j=1}^{J} |x_{i j} - x_{i' j}|^p \right)^{1/p} $$
- 参数解释:
- \( i \) 和 \( i' \) 表示两个案例。
- \( J \) 是属性(features)的数量。
- \( x_{i j} \) 是案例 \( i \) 的第 \( j \) 个属性值。
- \( p \) 是参数,决定对差异的重视程度。
- Minkowski度量的性质:满足对称性(symmetry)、身份(identity)和不等性(inequality)等度量属性。
- p = 1 (City-Block metric 或 Manhattan distance):大差异和小差异影响相同,适合均匀重视所有点差异的场景。
- p = 2 (Euclidean metric):对大数据点差异更敏感,因为它平方差异后求平均,适合强调大偏差的应用。
- p = ∞ (Max-Norm 或 Chebyshev distance):所有差异不得超过预定义阈值,确保最大偏差受控。
- 如果选择 p=2(Euclidean),它会平均所有点,但更强调大差异,可能导致对噪声敏感。
- p=1(City-Block)时,大小差异平等影响,适合平滑路径。
- p=∞ 时,确保无点差异超过阈值,机器人轴运动平滑,不会突变如阶跃函数。
如果无先验知识(a-priori knowledge),选择方法是通过试验不同相似性,并基于质量准则观察行为:
- 对于分类问题,使用错误率(error rate)作为准则。
- 对于聚类,使用类别度量(category measures),如评估相似对象分组紧致性和不同组区分度(类似于聚类中的轮廓系数或机器学习中的F1分数)。
- 数值数据(Numerical data):如Minkowski。
- 符号数据(Symbolical data):如基于字符串匹配。
- 结构数据(Structural data):如图匹配(graphs [29])。
- 混合数据类型(Mixed-data types):结合以上。
- 时间序列(time-series [54]):如动态时间规整(DTW)。
- 形状(shapes [53]):如Hausdorff距离。
- 图(graphs [29]):如编辑距离。
- 音乐分类(music [13]):基于谱特征。
现实应用复杂,通常涉及多种属性(如传感器数值 + 元知识类别)。这些可形成部分相似性(partial similarities) Sim1, Sim2, ..., Simn,每个基于不同度量。整体相似性可通过加权求和: $$ \text{Sim} = w_1 \text{Sim}_1 + w_2 \text{Sim}_2 + \dots + w_n \text{Sim}_n $$
- 权重 \( $w_i$ \) 建模每个部分的影響。
- 例子:图像分割参数的元学习 [14] 或医疗诊断 [15],证明这种策略的有效性。
- 线性或随机优化 [18]。
- 启发式搜索 [17]。
- 遗传编程 [25]。
- 案例排序 [20] 或 NN-分类中的查询排序。
新方向:桥接案例与解决方案 [23]。基于用户偏好关系 [26] 或相似关系 [27] 排序案例,学习度量和相关特征。假设:相似解决方案应有相似描述。优化特征集和权重,直至满足假设。通过线性特征变换学习距离 [19]。
#### 5. 相似性的语义(Semantic of Similarity) 宜将相似值归一化到 [0,1] 区间,便于比较:
- 0 表示身份(完全相同)。
- 1 表示不相等。
- 0.5 中性;0.5~0 更相似;0.5~1 更不相似。
增量系统挑战:案例库初始小,界限基于有限案例判断,可能不准。随着时间 \( t_k \) 新案例加入,界限变化,导致相似尺度变动,决策不一致。论文指出 [55] 首次解释此问题,需要特殊处理以确保稳定性(类似于统计中的在线学习标准化)。
#### 6. 桥接统计与CBR,以及开放问题 相似性度量桥接CBR与统计社区:如聚类准则 [24, 30]、MDL/MML学习。论文强调CBR的增量性质,使其适合动态环境,但需解决归一化在在线学习中的问题。未来可探索更鲁棒的度量,以处理噪声和复杂数据。