【AI词典】卷积神经网络CNN - 一种用于图像处理的深度学习模型

AI词典2026-04-22 18:48:00

卷积神经网络（CNN）定义

卷积神经网络（Convolutional Neural Network，简称CNN）是一种专为处理具有网格状拓扑结构数据（如图像、视频）而设计的深度学习模型，其核心通过卷积运算自动提取数据的层次化特征，是计算机视觉领域的基石性架构。

你可以将CNN理解为一个高度智能、分阶段工作的“视觉特征解析流水线”。它并非一次性理解整张图像，而是像人类先观察边缘、再组合成形状、最后识别物体一样，层层递进地分析。

其工作流程主要基于三个核心操作：

卷积（Convolution）：这是CNN的灵魂。模型使用一系列可学习的“过滤器”（或称卷积核），像探照灯一样在输入图像上滑动扫描。每个过滤器专门负责检测一种特定的局部模式，如垂直边缘、纹理或颜色过渡。通过这种局部连接和权值共享的方式，它高效地提取出图像的初级特征图。
池化（Pooling）：在卷积提取特征后，池化层（如最大池化）会对特征图进行降采样。它像将高分辨率图片压缩为缩略图，保留最显著的特征信息（如“这个区域里有一个明显的边缘”），同时减少数据量和计算负担，并赋予模型一定的平移不变性。
全连接（Fully Connected）：经过多轮“卷积-池化”的层次化特征提取后，得到的高级抽象特征会被展平，送入一个或几个全连接层。这部分像一个传统的分类器，负责将学到的特征进行综合，最终输出分类结果（如“这是一只猫”）或回归预测。

凭借其强大的特征提取能力，CNN已广泛应用于：

图像识别与分类：这是CNN最经典的应用。从识别照片中的物体（猫、狗、汽车）、场景（森林、城市），到医疗影像中辅助诊断（识别X光片中的病灶、病理切片中的癌细胞），CNN都展现出了超越人类的精度。
目标检测与定位：不仅识别图中有什么，还要精确框出它们的位置。这项技术驱动着自动驾驶系统实时感知行人、车辆和交通标志，也应用于安防监控、无人机巡检等领域。
图像生成与增强：基于生成对抗网络（GAN）和变分自编码器（VAE）等衍生模型，CNN可以用于创造逼真的图像、进行艺术风格迁移、修复老照片、提升图像分辨率（超分辨率）以及为黑白图像上色。

若希望系统学习CNN，可以从斯坦福大学的CS231n课程（《卷积神经网络视觉识别》）在线讲义与视频入手，该课程被誉为计算机视觉的经典入门教程。此外，阅读Yann LeCun、Geoffrey Hinton等先驱者的早期论文，能帮助理解CNN的思想起源与演变。

Post Views: 50