深入理解神经网络

为什么从边缘开始学习?为什么 Conv2d 必不可少?为什么必须在卷积后加 ReLU?**

许多刚开始学习深度学习的人都会有类似的疑问:

  • 为什么神经网络的第一层只学习 边缘(edge),而不是 形状(shape)
  • 为什么图像任务几乎都使用 Conv2d(二维卷积)
  • 卷积(Convolution)到底是什么?
  • 为什么每次卷积后都要加 ReLU
  • 为什么网络越深,能力越强,预测越精准?

这篇文章将以 结构化、深入但易懂 的方式,帮你完整理解神经网络的工作原理。


🔥 第 1 部分:为什么越深的层能学习越复杂的特征?

神经网络会自动以 层级结构(Hierarchical Feature Learning) 的方式学习特征:

层级 学到的特征 为什么
第1层 边缘、线条 最简单、信息最丰富
第2层 基本形状(角、曲线) 由边缘组合而成
第3层 纹理(Texture) 由形状形成重复模式
第4层及以上 物体部件(眼睛、车轮、树叶等) 从纹理组合而来
最后输出层 完整物体(猫、车、人等) 最抽象的表示

❗关键点:我们并没有告诉网络学习这些。

神经网络的唯一目标是:

\text{最小化损失(Loss)}

通过梯度下降(Backpropagation),每一层都会自动学习
最有助于降低 loss 的特征

边缘是最强信号 → 最先学到
形状由边缘组成 → 后面学到
纹理由形状组成 → 更后面学到

这种现象叫 分层特征学习


🔍 第 2 部分:卷积(Convolution)到底是什么?

卷积是一种通过 小滤波器(Kernel)扫描图像 来检测模式(Pattern)的操作。

例如,一个 3×3 的垂直边缘检测滤波器:

[ 1  0 -1 ]
[ 1  0 -1 ]
[ 1  0 -1 ]

卷积的步骤:

  1. 将滤波器覆盖到图像局部区域
  2. 每个像素与滤波器对应元素相乘
  3. 求和得到输出值
  4. 向右移动一格
  5. 重复整个图像

卷积能自动检测:

  • 边缘
  • 转角
  • 曲线
  • 纹理
  • 形状
  • 物体部件
  • 甚至完整物体

而这些滤波器的权重由训练过程自动学习得到。


🟦 第 3 部分:为什么图像任务一定要用 Conv2d?

因为二维卷积最适合图像数据。原因如下:

✔ 1. 图像具有强烈的空间结构

相邻像素高度相关,Conv2d 恰好利用了局部区域(locality)。

✔ 2. 权重共享(Weight Sharing)

一个 3×3 的卷积核在整张图片中反复使用 →
参数极少、泛化能力更强。

✔ 3. 平移不变性(Translation Invariance)

物体在图中移动位置,卷积仍能识别。

✔ 4. 高效

如果用全连接层处理 224×224×3 的图片:
需要 150,000+ 参数。
卷积层只需要 9(3×3)参数。

✔ 5. 形成多层特征结构

Conv → ReLU 的叠加使特征自然从简单到复杂发展

这就是为什么经典模型如:

  • LeNet
  • AlexNet
  • VGG
  • ResNet
  • MobileNet

都基于卷积。

即使 Vision Transformer(ViT)也在第一步使用 Conv-like patch embedding。


⚙️ 第 4 部分:理解 Conv2d 的参数

常见调用方式:

nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding)
参数 含义
in_channels 输入通道数(RGB = 3)
out_channels 要学习的滤波器数量
kernel_size 卷积核大小(如 3×3)
stride 移动步长
padding 是否在边缘补零

示例:

nn.Conv2d(3, 64, 3, stride=1, padding=1)

🔥 第 5 部分:为什么 Conv2d 后一定要加 ReLU?

ReLU(Rectified Linear Unit)是卷积后的关键步骤,原因如下:

✔ 1. 卷积是线性的

无论堆多少层卷积,仍然是线性变换 → 无法学习复杂模式。

✔ 2. ReLU 添加非线性

ReLU(x) = \max(0, x)

这让网络可以学习:

  • 复杂纹理
  • 非线性形状
  • 高级语义特征
  • 深层决策边界

✔ 3. 避免梯度消失

ReLU 对正值梯度为 1 → 学习更快更稳定。

✔ 4. 强化重要特征,抑制无意义特征

负值变 0 → 特征图更干净、更稳定。

因此 CNN 的基本结构几乎都是:

Conv → ReLU → Conv → ReLU → Conv → ReLU → …

🧠 总结

尽管神经网络看起来很神秘,但它的核心逻辑非常清晰:

  • 卷积 提取图像中的局部模式
  • ReLU 增加非线性,使网络能学习复杂结构
  • 梯度下降 自动更新所有滤波器
  • 多层结构 让特征从简单(边缘)逐渐发展到复杂(完整物体)

我们不需要告诉网络“学边缘”“学形状”
它会自己找到最优方式来降低误差。

这就是深度学习真正的美。


Get in Touch with us

Chat with Us on LINE

iiitum1984

Speak to Us or Whatsapp

(+66) 83001 0222

Related Posts

Our Products