Activate Func

Sigmoid and Tanh:

ReLu and The Others:

ReLu's Trans:

GeLU:

Swish:

KL Divergence And L1/2 Regularization

1. KL 散度

英文名称：KL Divergence
全称：Kullback-Leibler Divergence
简要解释：KL 散度是一种衡量两个概率分布之间差异的非对称性度量。它用于比较两个概率分布 (P) 和 (Q)，计算 (P) 相对于 (Q) 的信息增益。公式为：
[
D_{\text{KL}}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}
]
KL 散度在机器学习中常用于生成模型（如变分自编码器）和自然语言处理中的语言模型。

2. L1 正则化

英文名称：L1 Regularization
全称：L1 Regularization 或 Lasso Regularization
简要解释：L1 正则化通过在损失函数中添加参数的绝对值之和来惩罚模型的复杂度。其数学形式为：
[
\text{Loss} = \text{Original Loss} + \lambda \sum_{i |}w_i|
]
L1 正则化倾向于使某些参数变为零，从而实现稀疏性，常用于特征选择。

3. L2 正则化

英文名称：L2 Regularization
全称：L2 Regularization 或 Ridge Regularization
简要解释：L2 正则化通过在损失函数中添加参数的平方和来惩罚模型的复杂度。其数学形式为：
[
\text{Loss} = \text{Original Loss} + \lambda \sum_{i} w_i^2
]
L2 正则化使参数的值更小且更平滑，从而减少过拟合，常用于线性回归和神经网络。

在深度学习模型中，正则化和分布相似性度量是两个常见但用途不同的概念。用户的查询主要围绕以下问题：能否用L1或L2范数替代KL散度来衡量两个分布的相似性，尤其是在一致性训练（如半监督方法UDA）中，并且将L1/L2与KL散度放入损失函数时，学习过程有何区别。以下是对这些问题的详细回答。

L1、L2与KL散度的基本定义与用途

首先，我们明确这三种度量的含义和典型应用场景：

L1范数（Lasso正则化）：计算向量各元素绝对值之和。在正则化中，L1通过将权重绝对值加到损失函数中，倾向于产生稀疏解（部分权重变为0），用于防止过拟合。
L2范数（Ridge正则化）：计算向量各元素平方和的平方根（即欧几里得距离）。在正则化中，L2通过惩罚权重平方和，使权重变小但不一定为0，同样用于控制模型复杂度。
KL散度（Kullback-Leibler散度）：衡量两个概率分布之间的差异，公式为 ( KL(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)} )。它在信息论中有重要意义，表示用基于Q的编码表示P分布时所需的额外信息量，常用于比较分布相似性，例如在变分自编码器或一致性训练中。

在半监督方法UDA（Unsupervised Data Augmentation）中，KL散度被用来确保模型对原始数据和增强数据的预测分布一致。具体来说，损失函数通常包含 ( KL(P_{\text{original}} || P_{\text{augmented}}) )，目标是让增强数据的预测分布接近原始数据的预测分布。

能否用L1或L2衡量两个分布的相似性？

答案是可以，但需要将分布转化为向量形式。例如，假设有两个离散概率分布 ( P = [p_1, p_2, ..., p_n] ) 和 ( Q = [q_1, q_2, ..., q_n] )，表示对 ( n ) 个类别的预测概率，我们可以：

计算 L1距离：( L1(P, Q) = \sum_{i=1}^n |p_i - q_i| )，即概率差的绝对值之和。
计算 L2距离：( L2(P, Q) = \sqrt{\sum_{i=1}^n (p_i - q_i)^2} )，即概率差的欧几里得距离。

在这两种情况下，当 ( P = Q ) 时，L1和L2距离均为0；当分布差异越大，距离值越大。因此，从技术上讲，L1和L2确实可以用来衡量两个分布的相似性，并作为一致性训练的损失函数。

将L1/L2与KL散度放入损失函数的区别

虽然L1和L2可以衡量分布相似性，但与KL散度相比，它们在学习过程中的行为有显著差异。以下从几个关键方面进行对比：

1. 对称性

KL散度：非对称的，即 ( KL(P||Q) \neq KL(Q||P) )。在UDA中，通常选择 ( KL(P_{\text{original}} || P_{\text{augmented}}) )，强调增强数据预测应接近原始数据预测，具有明确的方向性。
L1/L2：对称的，即 ( L1(P, Q) = L1(Q, P) ) 和 ( L2(P, Q) = L2(Q, P) )。这意味着它们平等对待两个分布的差异，可能无法体现一致性训练中“以原始分布为基准”的意图。

2. 对分布差异的敏感性

KL散度：对分布尾部（低概率区域）的差异更敏感。例如，若 ( P = [0.9, 0.1] )（高置信度），( Q = [0.5, 0.5] )（不确定），( KL(P||Q) ) 会显著惩罚Q的不确定性。
L1/L2：更关注分布的整体差异（“几何距离”）。对于上述例子，( L2(P, Q) \approx 0.566 )，值较温和，且不会特别强调置信度的差异。

3. 学习目标与置信度

KL散度：在一致性训练中，最小化 ( KL(P_{\text{original}} || P_{\text{augmented}}) ) 会鼓励 ( P_{\text{augmented}} ) 不仅与 ( P_{\text{original}} ) 一致，还保持高置信度（接近one-hot分布）。这与熵正则化的效果类似。
L1/L2：最小化L1或L2距离仅要求两个分布接近，但对预测的置信度没有强约束。例如，( P_{\text{augmented}} ) 可能趋向于平滑分布（如 ( [0.5, 0.5] )），而不是匹配 ( P_{\text{original}} ) 的高置信度。

4. 优化动态

KL散度：其梯度与模型logits（softmax前的输出）的关系与交叉熵损失类似，易于优化，且在概率模型中有理论依据（如最大似然估计）。
L1/L2：梯度计算基于概率差，可能导致不同的优化路径，尤其在神经网络中，可能不如KL散度与softmax输出自然契合。

5. 概率解释与实际效果

KL散度：源于信息论，与概率分布的建模紧密相关，常用于需要良好概率校准的场景（如UDA），实践效果经过广泛验证。
L1/L2：作为通用距离度量，缺乏概率上的特定解释，在一致性训练中可能不如KL散度有效，尤其在强调预测一致性和置信度的任务中。

举例说明

假设有两个预测分布：

( P_{\text{original}} = [0.9, 0.1] )（高置信度）
( P_{\text{augmented}} = [0.5, 0.5] )（不确定）
KL散度：( KL(P_{\text{original}} || P_{\text{augmented}}) = 0.9 \log \frac{0.9}{0.5} + 0.1 \log \frac{0.1}{0.5} \approx 0.51 )，惩罚较大，促使 ( P_{\text{augmented}} ) 提高置信度并接近 ( P_{\text{original}} )。
L2距离：( L2(P_{\text{original}}, P_{\text{augmented}}) = \sqrt{(0.9-0.5)^2 + (0.1-0.5)^2} \approx 0.566 )，值较小，仅反映几何距离，未突出置信度差异。

若换成 ( P_{\text{augmented}} = [0.8, 0.2] )：

KL散度：( KL(P_{\text{original}} || P_{\text{augmented}}) \approx 0.02 )，很小，表示分布已较接近。
L2距离：( L2(P_{\text{original}}, P_{\text{augmented}}) \approx 0.141 )，也减小，但不体现置信度惩罚。

结论

能否使用L1/L2：可以，通过将分布视为向量，计算L1或L2距离来衡量相似性，并将其放入损失函数。
与KL散度的区别：KL散度因其非对称性、对尾部敏感性及概率意义，在一致性训练中更能鼓励高置信度和方向性一致的预测；而L1/L2作为对称的几何距离，可能导致模型优化方向不同，置信度约束较弱，效果可能不如KL散度，尤其在如UDA的场景中。

因此，在深度学习一致性训练中，虽然L1和L2理论上可行，但KL散度通常是更优选择，因其学习动态更符合任务需求。使用L1或L2可能影响性能，需根据具体应用场景实验验证。

大模型八股(一)