Activate Func

Sigmoid and Tanh:

Image

ReLu and The Others:

Image

ReLu's Trans:

Image

GeLU:

Image

Swish:

Image


KL Divergence And L1/2 Regularization

1. KL 散度

2. L1 正则化

3. L2 正则化


在深度学习模型中,正则化和分布相似性度量是两个常见但用途不同的概念。用户的查询主要围绕以下问题:能否用L1或L2范数替代KL散度来衡量两个分布的相似性,尤其是在一致性训练(如半监督方法UDA)中,并且将L1/L2与KL散度放入损失函数时,学习过程有何区别。以下是对这些问题的详细回答。


L1、L2与KL散度的基本定义与用途

首先,我们明确这三种度量的含义和典型应用场景:

在半监督方法UDA(Unsupervised Data Augmentation)中,KL散度被用来确保模型对原始数据和增强数据的预测分布一致。具体来说,损失函数通常包含 ( KL(P_{\text{original}} || P_{\text{augmented}}) ),目标是让增强数据的预测分布接近原始数据的预测分布。


能否用L1或L2衡量两个分布的相似性?

答案是可以,但需要将分布转化为向量形式。例如,假设有两个离散概率分布 ( P = [p_1, p_2, ..., p_n] ) 和 ( Q = [q_1, q_2, ..., q_n] ),表示对 ( n ) 个类别的预测概率,我们可以:

在这两种情况下,当 ( P = Q ) 时,L1和L2距离均为0;当分布差异越大,距离值越大。因此,从技术上讲,L1和L2确实可以用来衡量两个分布的相似性,并作为一致性训练的损失函数。


将L1/L2与KL散度放入损失函数的区别

虽然L1和L2可以衡量分布相似性,但与KL散度相比,它们在学习过程中的行为有显著差异。以下从几个关键方面进行对比:

1. 对称性

2. 对分布差异的敏感性

3. 学习目标与置信度

4. 优化动态

5. 概率解释与实际效果


举例说明

假设有两个预测分布:

若换成 ( P_{\text{augmented}} = [0.8, 0.2] ):


结论

因此,在深度学习一致性训练中,虽然L1和L2理论上可行,但KL散度通常是更优选择,因其学习动态更符合任务需求。使用L1或L2可能影响性能,需根据具体应用场景实验验证。