[PUBLISHER] Merge #29

Ecankk · web-flow · commit b54f63271a69 · 2025-04-06T15:57:08.000+08:00
* PUSH NOTE : 模型蒸馏简单上手.md

* PUSH NOTE : 小土堆pytorch教程.md
diff --git a/docs/ML/小土堆pytorch教程.md b/docs/ML/小土堆pytorch教程.md
@@ -8,7 +8,7 @@ completed?: true
 keyword_for_dataview: ""
 share: true
 category: docs/ML
-modify: 2025-04-05 20:20
+modify: 2025-04-06 15:55
 ---
 
 # Python 的法宝函数
@@ -121,9 +121,11 @@ writer.close()
 关注函数描述的输入和输出（见官方文档），注意函数的参数
 1. `ToTensor()` 把数据类型转换成 Tensor
 2. `Normalize()` 会对输入张量的**每个通道**执行以下计算，它的核心作用是通过对每个通道的像素值进行**线性变换**，将数据调整到特定的均值和标准差范围
+   
 $$
 \text{output\_channel} = \frac{\text{input\_channel} - \text{mean}}{\text{std}}
 $$
+
 3. `Resize()` 将输入图像（PIL Image 或 Tensor）的尺寸调整为指定大小，​**强制统一所有输入图像的尺寸**，以满足深度学习模型对固定输入尺寸的要求
 4. `Compose`**的作用是将多个图像变换（`transform`）按顺序组合成一个整体**。是PyTorch中构建图像预处理流水线的核心工具，通过将多个变换按顺序组合，确保数据在输入模型前经过规范化的处理。多个变换的顺序很重要，前一个的输出作为下一个的输入。
 
@@ -152,7 +154,11 @@ $$
 
 
 输入特征图 $X \in \mathbb{R}^{H×W×C}$，卷积核 $W \in \mathbb{R}^{k×k×C×N}$：
-$$Z_{i,j,n} = \sum_{c=1}^C \sum_{u=-k}^{k} \sum_{v=-k}^{k} W_{u,v,c,n} \cdot X_{i+u,j+v,c} + b_n$$
+
+$$
+Z_{i,j,n} = \sum_{c=1}^C \sum_{u=-k}^{k} \sum_{v=-k}^{k} W_{u,v,c,n} \cdot X_{i+u,j+v,c} + b_n
+$$
+
 * 在 pytorch 中的尝试
 ```python
 import  torch
@@ -197,7 +203,11 @@ tensor([[[[ 1,  3,  4, 10,  8],
 通过反向传播自动学习滤波器参数，网络能够自适应地发现对任务最有判别力的特征组合。
 **参数学习机制**：
 虽然未执行核翻转，但通过梯度下降算法：
-$$\frac{\partial L}{\partial K} = \frac{\partial L}{\partial (f \star K)} \ast f$$
+
+$$
+\frac{\partial L}{\partial K} = \frac{\partial L}{\partial (f \star K)} \ast f
+$$
+
 网络会自动学习到与数学卷积等效的旋转滤波器参数。
 ## 通道是什么？
 通道（Channel）是深度学习中对数据特征的维度抽象，在不同领域有不同表现形式：
@@ -237,10 +247,15 @@ $$\frac{\partial L}{\partial K} = \frac{\partial L}{\partial (f \star K)} \ast f
 池化过程在一般卷积过程后。池化（pooling） 的本质，其实就是采样。Pooling 对于输入的 Feature Map，选择某种方式对其进行降维压缩，以加快运算速度。
 本质是特征提取，用来压缩或者降维。要损失一部分信息。
 * 池化层没有参数
+
 以最大池化为例子，$3\times3$ 的池化核就是对于数据每 $3\times3$ 的数据取最大值，比如就可以把 $9\times9$ 压缩为 $3\times3$  
 ## 线性层
 给定输入向量 $\mathbf{x} \in \mathbb{R}^{d_{in}}$，权重矩阵 $W \in \mathbb{R}^{d_{out} \times d_{in}}$，偏置 $\mathbf{b} \in \mathbb{R}^{d_{out}}$：
-$$\mathbf{z} = W\mathbf{x} + \mathbf{b}$$
+
+$$
+\mathbf{z} = W\mathbf{x} + \mathbf{b}
+$$
+
 
 | 特性 | 描述 | 典型应用场景 |
 |------|------|--------------|
diff --git a/docs/ML/模型蒸馏简单上手.md b/docs/ML/模型蒸馏简单上手.md
@@ -8,7 +8,7 @@ completed?: true
 keyword_for_dataview: ""
 share: true
 category: docs/ML
-modify: 2025-04-05 20:19
+modify: 2025-04-06 15:56
 ---
 # 数据和模型
 利用 `CIFAR-10` 数据集，用两个层次不一样的模型作为教师模型和学生模型
@@ -127,16 +127,20 @@ def train_knowledge_distillation(teacher, student, train_loader, epochs, learnin
 ## T 对蒸馏的影响
 **软化**：通过增大 T ，减少 logits 的相对差异，使概率分布更均匀。
 利用 T 软化 softmax 的概率分布，让输出更倾向于分布而不是分类本身
+
 $$
 p(i) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}
 $$
+
 从而区别于数据集给出的这个图象是什么，而是让教师模型告诉学生模型，这张图很像 a，但也有一点像 b
 
 T 越大，分布越平滑，次要类别概率越高。
 ## 蒸馏损失公式
+
 $$
 \text{soft\_targets\_loss} = \frac{\sum \left( p_{teacher} \cdot (\log p_{teacher} - \log p_{student}) \right)}{\text{batch\_size}} \cdot T^2
 $$
+
 * $T^2$ 补偿梯度减小，确保损失对优化的贡献稳定
 * 此处的蒸馏损失是 KL 散度的变体，用于衡量两个概率分布的差异
 ## 蒸馏结果 1
@@ -149,18 +153,22 @@ Student accuracy with CE + KD: 71.40%
 
 # CosineEmbeddingLoss
 *  余弦相似度
+
 $$
 \text{cosine\_similarity}(x_1, x_2) = \cos(\theta) = \frac{x_1 \cdot x_2}{\|x_1\| \|x_2\|}
 $$
 
+
 * 损失定义
+
 $$
 \text{loss}(x_1, x_2, y) =
 \begin{cases} 
 1 - \cos(x_1, x_2), & \text{if } y = 1 \\
 \max(0, \cos(x_1, x_2) - \text{margin}), & \text{if } y = -1 
 \end{cases}
 $$
+
 1. 对于正样本 `y=1`
 	1. 让两个向量尽肯能的对齐，如果完全对齐的话 $cos(x_1,x_2)$ 为 1，损失为 0
 2. 对于负样本 `y=-1`
@@ -308,8 +316,11 @@ def test_multiple_outputs(model, test_loader, device):
     - 卷积核在输入上滑动（卷积运算），每次计算局部区域的加权和，生成一个值。
     - 滑动完成后，形成一个二维特征图。
 - **公式**
-$$\text{Feature Map}_{i,j} = \sum_{m,n} \text{Input}_{i+m, j+n} \cdot \text{Kernel}_{m,n} + \text{Bias}
+  
 $$
+\text{Feature Map}_{i,j} = \sum_{m,n} \text{Input}_{i+m, j+n} \cdot \text{Kernel}_{m,n} + \text{Bias}
+$$
+
 因此，一次卷积操作（用一个卷积核扫一遍图像），输出就是一张特征图，他代表神经网络在某一方面提取到的某个特征
 ## 查看特征图的尺寸
 ```text