医学图像分割的范式跃迁 — 45 分钟讲稿（含 CNN 扩展）

说明： 本讲稿配合 medical_seg_evolution_v2.pptx（23 页）使用。图片通过 URL 引用，放映时建议打开链接展示原图。

一、开场 + 核心挑战（~5 分钟）

0:00–2:00 — 标题页

各位老师、同学大家好。今天我分享的题目是 “医学图像分割的范式跃迁——从 CNN 到视觉-语言基础模型”。

这不仅是技术的演进，更是一条从"机器看"到"机器理解"的认知升级之路。过去十年，医学图像分割经历了三次范式革命：

CNN 时代——用卷积核提取像素级特征
Transformer 时代——用自注意力捕获全局上下文
多模态时代——用文本先验引导视觉理解

今天的报告会沿着这条线索展开，重点剖析其中的关键模型和核心思想。

2:00–5:00 — 医学分割的核心挑战（Slide 2）

在进入技术细节前，我们先回顾一下医学图像分割到底难在哪里。

首先是标注成本极高。自然图像分类打个标签几秒钟，但医学分割需要在像素级勾画轮廓——一张 WSI（全切片图像）可能包含上亿像素，标注耗时数小时，而且必须由专业的临床医生完成。

其次是数据异质性与微小病灶。肿瘤微环境极其复杂，同类肿瘤在不同患者身上可能表现迥异，而微小病灶肉眼都容易遗漏，对模型的灵敏度要求极高。

第三是域偏移。不同医院、不同厂商的扫描设备采集的图像分布差异明显，在 A 医院训练的好模型到了 B 医院性能可能断崖式下降。

最后是临床落地的壁垒——模型不仅要准，还要可解释、实时、合规。

正是这些挑战驱动着分割技术的代际演进。让我们从 CNN 开始讲起。

建议展示： 医学分割标注示例图 https://wiki.cancerimagingarchive.net/download/attachments/70230397/annotation_example.png

二、CNN 的黄金时代（~15 分钟）【重点展开】

5:00–6:30 — 卷积神经网络的基本思想（过渡引入）

在讲具体架构之前，我们先回顾卷积神经网络最核心的三个设计思想：

局部感受野——每个神经元只关注输入的一个局部区域，通过堆叠层来扩大感受范围
权值共享——同一个卷积核在整个图像上滑动，大幅减少参数量
平移不变性——目标位于图像的任何位置，网络都能识别

这三个特性使 CNN 天然适合处理图像数据。让我们从最早的 LeNet 开始，看这条技术路线如何一步步走向成熟。

建议展示：CNN 卷积运算动图 https://upload.wikimedia.org/wikipedia/commons/4/4c/2D_Convolution_Animation.gif

6:30–8:00 — LeNet-5（1998）：一切开始的地方

LeNet-5 由 Yann LeCun 等人在 1998 年提出，是最早的现代卷积神经网络，用于手写数字识别（支票、邮编）。

架构速览：

输入：32×32 灰度图
结构：C1 卷积(6@5×5) → S2 平均池化 → C3 卷积(16@5×5) → S4 平均池化 → C5 卷积(120@5×5) → F6 全连接(84) → 输出(10)
总参数量：约 6 万

放在今天看，LeNet 只有区区 6 万参数，但它在 1990 年代就确立了卷积→池化→全连接的经典流水线。

建议展示：LeNet-5 架构图 https://www.researchgate.net/profile/Adit-Kumar/publication/340989271/figure/fig2/AS:885545894416384@1588230607211/Architecture-of-LeNet-5-a-Convolutional-Neural-Network-here-for-digits-recognition.png

8:00–10:00 — AlexNet（2012）：深度学习的大爆炸

如果说 LeNet 点燃了火种，那么 AlexNet 就是引爆了炸药桶。

2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 带着 AlexNet 参加了 ImageNet 竞赛，以 top-5 错误率 15.3%（第二名 26%）的绝对优势夺冠。这个差距之大，彻底宣告了深度学习的时代到来。

核心创新：

ReLU 激活函数——解决了 sigmoid 在深层网络中的梯度饱和问题，训练速度快了几倍
Dropout——随机丢弃 50% 的神经元，有效防止过拟合
数据增强——随机裁剪、翻转，等效地扩大了训练数据
双 GPU 训练——将网络拆分到两块 GPU 上并行（当时的无奈之举，现在看来是模型并行的雏形）
重叠池化——步长小于池化窗口尺寸，减少信息丢失

架构： 5 个卷积层 + 3 个全连接层，共 6200 万参数。

建议展示：AlexNet 双 GPU 架构图 https://miro.medium.com/v2/resize:fit:1400/1*Za1tcZYK8BZoHkXVwIgOaA.png

10:00–11:30 — VGGNet（2014）：深度与简洁的极致

2014 年，牛津大学视觉几何组的 Simonyan 和 Zisserman 提出了 VGGNet。

VGGNet 的设计哲学极简——全部用 3×3 卷积。他们发现堆叠两个 3×3 卷积等价于一个 5×5 的感受野，堆叠三个等价于 7×7，但参数量更少、非线性更强。

架构特点：

全部使用 3×3 卷积（stride=1, padding=1）
全部使用 2×2 最大池化（stride=2）
每经过一次池化，通道数翻倍：64 → 128 → 256 → 512 → 512
VGG16（16 层权值层，13 个卷积 + 3 个全连接）是最经典版本
参数量 1.38 亿——其中大部分来自最后三个全连接层

VGGNet 虽然在当年只拿了 ILSVRC 2014 分类第二（第一是 GoogLeNet），但它的简洁和规整使它成为最受欢迎的"特征提取骨架"。直到今天，很多下游任务仍然在用 VGG 做特征提取。

建议展示：VGG16 结构示意图 https://media.geeksforgeeks.org/wp-content/uploads/20200219152317/vgg16-architecture.png

11:30–13:00 — GoogLeNet / Inception（2014）：多尺度并行卷积

同一年，Google 的 Szegedy 等人提出了 GoogLeNet（Inception v1），拿了 ILSVRC 2014 分类冠军。

它的核心创新是 Inception 模块——在同一层中并行使用 1×1、3×3、5×5 卷积和 3×3 最大池化，然后将结果在通道维度拼接。这样网络可以同时捕捉不同尺度的特征。

然而直接这样做计算量太大。关键技巧是在 3×3 和 5×5 卷积之前插入 1×1 卷积进行降维。举个例子：输入 192 通道，如果不加 1×1 瓶颈，5×5 卷积有 192×5×5×32 ≈ 15 万参数；加上 16 个 1×1 滤波器降到 16 通道，再经过 5×5，仅需 192×16 + 16×5×5×32 ≈ 1.5 万参数——计算量降到原来的十分之一。

整个 GoogLeNet 堆叠了 9 个 Inception 模块，只有 500 万参数——是 AlexNet（6200 万）的十二分之一，VGG16（1.38 亿）的三十分之一，但性能却更好。

建议展示：Inception 模块结构对比图（naive vs 带 1×1 降维） https://www.researchgate.net/profile/Jie-Qian-11/publication/326160161/figure/fig1/AS:644555125104640@1531013643496/Inception-module-with-dimension-reductions-a-Naive-inception-module-b-Inception-module.png

13:00–15:00 — ResNet（2015）：残差学习，彻底解放深度

讲到这里，我们面临一个核心矛盾：深度是好的，但越深越难训练。

理论上，更深的网络表达能力更强。但在实践中，当网络深度增加到几十层后，训练误差反而上升——这就是"退化问题"（Degradation Problem）。注意这不是过拟合，是优化困难。

2015 年，何恺明等人提出了 Residual Network（ResNet），一举拿下 ILSVRC 2015 五项冠军，并训练出了 152 层的网络。

核心思想极其简洁：

原本一个模块要学习映射 H(x)，现在改为学习残差 F(x) = H(x) - x，然后通过跳跃连接让输出 y = F(x) + x。

为什么这样有效？两个原因：

梯度高速路——反向传播时，梯度除了经过权重层，还可以直接通过跳跃连接回传到浅层。这个"+1"项意味着导数永远不会消失。
恒等映射容易学——如果某层不需要变换，网络只需把 F(x) 设为零即可，比去学一个恒等映射容易得多。

架构变体：

Basic Block（ResNet-18/34）：两个 3×3 卷积 + 跳跃连接
Bottleneck Block（ResNet-50/101/152）：1×1 降维 → 3×3 → 1×1 升维，进一步减少计算量

ResNet 的跳跃连接后来被几乎所有视觉架构借鉴——包括 U-Net 的跳跃连接、Transformer 的残差连接，本质上都是同一个思想。

建议展示：ResNet 残差块结构图（推荐显示 Basic 和 Bottleneck 对比） https://miro.medium.com/v2/resize:fit:1400/1*D0F3UitQ2l5Q0Ak-tjEdJg.png

附加展示：退化问题曲线图（来自原始论文，展示 56 层 vs 20 层 plain 网络的错误率对比）

15:00–16:00 — DenseNet（2017）：密集连接，极致特征复用

在 ResNet 之后，黄高等人进一步思考：既然跳跃连接有用，为什么不把所有层都连起来？

DenseNet 的 Dense Block 中，每一层的输入是前面所有层输出的拼接。对于一个 L 层的密集模块，共有 L×(L+1)/2 条连接。

和 ResNet 的关键区别：ResNet 是加（求和），DenseNet 是拼（拼接）。

这带来了几个好处：

特征复用——浅层的边缘、纹理特征可以直接被深层使用
梯度流动极好——损失函数可以直接"看到"每一层
参数效率极高——用约三分之一于 ResNet 的参数达到相同精度
天然的正则化——密集连接有隐式的正则效果，在小数据集上不易过拟合

建议展示：DenseNet 密集连接示意图 https://miro.medium.com/v2/resize:fit:1400/1*5Hw_fzE7aCt6D3klT0CMJg.png

16:00–18:00 — 语义分割专用架构（FCN、DeepLab）

前面讲的都是图像分类架构——输出是整图的类别标签。但医学分割需要逐像素的分类。

FCN（Fully Convolutional Network，2015）——全卷积网络。核心贡献：把最后的全连接层替换为卷积层，使网络能接受任意尺寸输入，输出空间维度一致的分割图。另外引入跳跃连接融合浅层细节和深层语义。

DeepLab 系列（v1–v3+，2016–2018）——Google 推出的语义分割架构，核心创新包括：

空洞卷积（Atrous/Dilated Convolution）——往卷积核里插"空洞"。rate=1 是普通卷积，rate=2 是每隔一格采一个点。在不增加参数的情况下扩大感受野。
ASPP（Atrous Spatial Pyramid Pooling）——用不同扩张率的空洞卷积并行提取多尺度特征，然后融合。相当于在特征层面做了"多尺度分析"。
DeepLabV3+——在 V3 基础上增加了编码器-解码器结构，结合 ASPP 的高层语义和编码器的空间细节。

建议展示：空洞卷积原理图 https://miro.medium.com/v2/resize:fit:720/1*SVjJadB4A3EPXXp4hZcc3g.gif

ASPP 结构 https://developers.arcgis.com/python/latest/guide/how-deeplabv3-works/

18:00–20:00 — U-Net（2015）：医学分割的标杆

终于到了医学分割中最重要的架构——U-Net。

Ronneberger 等人在 2015 年提出了 U-Net，专为医学图像分割设计。它的名字就来自那个标志性的 U 形结构：

编码器（左侧，下采样路径）：

重复：3×3 卷积 + ReLU + 2×2 最大池化
每经过一层，空间尺寸减半、通道数翻倍
捕捉越来越抽象的语义特征

解码器（右侧，上采样路径）：

重复：转置卷积上采样 + 与编码器对应层的跳跃连接拼接 + 3×3 卷积
空间尺寸逐渐恢复、通道数逐渐减少

跳跃连接（关键创新）：

将编码器每一层的特征图直接拼接到解码器对应层
与 FCN（元素级相加）不同，U-Net 是通道级拼接
效果：解码器同时拥有高层语义（定位目标）和浅层细节（精修边界）

U-Net 的成功在于它完美适配了医学图像的特点——数据量小、需要精细边界、全局结构相对固定。

建议展示：U-Net 原始架构图（来自论文 Figure 1） https://www.researchgate.net/profile/Olaf-Ronneberger/publication/308932167/figure/fig1/AS:410260664741921@1474756018827/U-Net-architecture.png

20:00–21:00 — V-Net / 3D CNN（2016）

医学影像中很多是 3D 数据（CT、MRI）。将 2D 切片独立分割会丢失层间连续性信息。

V-Net（Milletari et al., 2016）将 U-Net 扩展到了 3D：

用 3D 卷积替代 2D 卷积（卷积核从 3×3 变为 3×3×3）
引入 Dice Loss，直接优化分割重叠度，天然解决类别不平衡问题

代价：3D 卷积计算量和显存消耗比 2D 高出约一个数量级。

21:00–22:00 — CNN 小结

到这里我们快速回顾了 CNN 的发展脉络。我来总结一下 CNN 为医学分割留下了哪些遗产：

核心优势：

局部感受野——擅长捕获纹理、边缘、组织边界
平移不变性——对位置变化鲁棒
参数共享——适合密集预测

三条核心设计范式：

深度设计——从 LeNet 的 5 层到 ResNet 的 152 层，更深的网络 = 更强的表达
跳跃连接——从 FCN 的雏形到 U-Net 的标准配置，再到 ResNet 的全网覆盖
多尺度——从 GoogLeNet 的 Inception 到 DeepLab 的 ASPP

但 CNN 的固有局限也暴露出来： 不管怎么堆叠，卷积核的局部性决定了它在长程依赖建模上的效率瓶颈。

这自然引出下一个问题：我们能不能让模型有"全局视野"？

建议展示：CNN 架构演进时间线图 https://miro.medium.com/v2/resize:fit:1400/1*NcmyYEGDYg3qL0FHmJQq5w.png

三、CNN 的局限 → 注意力与 ViT（~5 分钟）

22:00–23:00 — CNN 的局限性（Slide 4）

刚刚讲的是 CNN 的优点，现在来看它的硬伤：

全局上下文缺失。 3×3 卷积核只能看到周围 3×3 的区域。即使堆叠多层，信息传输效率也远不如一步到位的全局连接。
语义孤岛。 纯视觉模型只"看"不"懂"。如果两种组织在视觉上相似（比如 CT 图像中的肿瘤和炎症区域），模型很难区分。
长程依赖效率低下。 在超大图像（比如 WSI）中，跨区域的像素依赖需要经过大量中间层传递，容易丢失信息。

23:00–25:00 — Attention Is All You Need：Vision Transformer（Slide 5）

2017 年，Google 的"Attention Is All You Need"开启了 Transformer 时代。2020 年，Dosovitskiy 等人将 Transformer 引入视觉。

Self-Attention 的核心思想：

QKV（Query-Key-Value）机制——每个位置可以关注到所有其他位置
全局感受野——一步到位，不需要层层堆叠
多头注意力——不同头关注不同子空间的特征

ViT 的架构流：

1
2


图像 → 切割成 Patch（如 16×16）→ Linear Embedding → Position Encoding
→ Transformer Encoder（×N 层）→ 分类头

去除了所有卷积操作！ 这个简单的设计在 ImageNet 上达到了媲美甚至超越 CNN 的效果。

医学分割方向的代表工作：

TransUNet——CNN + Transformer 混合编码器，CNN 提取底层特征、Transformer 建模全局关系
Swin-UNet——基于 Swin Transformer 的纯 Transformer U-Net，用移位窗口实现高效全局注意力

建议展示：ViT 架构图（论文 Figure 1） https://miro.medium.com/v2/resize:fit:1400/1*53t3SX4kXlNEss52pxH24Q.png

四、超大图像与弱监督策略（~3 分钟）

25:00–26:30 — 多实例学习 MIL & CLAM（Slide 6）

在处理超大图像时，显存是最直接的限制。一张 WSI 可能达到 10 万 × 10 万像素——即使 ResNet 也无法直接处理。

MIL（多实例学习）将 WSI 视为一个"包"（Bag），包中的每个 Patch 是一个"实例"。只要包中至少有一个正实例，包就标为正——这个松弛假设恰好适配病理场景（一张 WSI 中只要有癌细胞，这张片子就是癌）。

CLAM（2020）：

使用注意力池化（Attention Pooling）自动筛选关键 Patch
不需要精细的像素级标注，只需要 slide-level 标签
注意力权重可以可视化，告诉病理医生"模型在看哪里"

建议展示：MIL to CLAM 示意图 https://pubs.rsna.org/na101/home/literatum/publisher/rsna/journals/content/radiographics/2022/04204282/20220014/20220014_fig5.jpeg

26:30–27:00 — 过渡引入文本

我们有了 CNN、有了 Transformer、有了 MIL——它们都是纯视觉方法。但它们共享一个问题：只利用像素信息。

接下来进入报告的核心——为什么需要文本？

五、为什么需要文本 + 早期融合（~5 分钟）

27:00–28:30 — 为什么要引入文本（Slide 7）

在临床场景中一个常常被忽视的现实：医学影像从来不是孤立存在的。

每一张影像都伴随一份诊断报告，里面包含丰富的临床先验知识——病灶位置、形态、边界特征、与周围组织的关系、恶性程度、鉴别诊断要点……这些信息被完全编码在自然语言中。

文本的独特优势：

高密度语义先验——一句话概括关键发现，比上千个像素更高效
减少歧义——两个视觉相似的区域，通过文本描述可以明确区分
结构化知识——人体解剖学知识可以编码为文本先验
利用海量未标注数据——医院存量数据中，大量图文对（影像+报告）可以用于自监督学习

28:30–30:00 — 早期多模态融合的探索（Slide 8）

早期的多模态融合方法比较朴素：把文本表征和图像表征简单拼接（Concat）后输入分类器。这种方案的问题在于，文本和图像在特征空间中没有对齐——向量相加可能只是视觉特征主导，文本信息几乎没有发挥作用。

融合策略经历了几代演进：

第一代（2017–2019）： 简单拼接 → 晚期融合（各自处理再合并） → 联合嵌入 第二代（2020–2022）： 跨模态注意力 → 共同注意力 → 循环交互 第三代（2023–）： 对比学习对齐 → 统一多模态 Transformer → 基础模型

关键转折点：从"拼接"到"对齐"——让文本真正引导视觉特征的学习。

建议展示：多模态融合演化路径图

六、LViT：语言驱动的视觉架构（~3 分钟）

30:00–31:30 — LViT 详解（Slide 9）

LViT（Language-driven Vision Transformer）是多模态分割的代表性工作。

核心思想： 在特征提取的早期和深层网络中引入文本嵌入，利用文本先验来校准视觉注意力权重——让模型知道该"看哪里"。

具体实现：

文本-视觉交叉注意力模块
多层级融合：浅层关注轮廓引导，深层关注语义校准
对比损失拉近图文特征距离

与传统 U-Net 的对比：

1
2
3
4


传统 U-Net:    图像 → 编码 → 解码 → 分割掩码
LViT:          图像 + 文本 → 文本引导编码 → 交叉注意力解码 → 语义感知分割掩码
                                          ↑
                                   文本嵌入校准每一层注意力

效果：在模糊边界、小病灶、低对比度区域，Dice 提升 5–15%。

七、CLIP 及其医学适配（~6 分钟）

31:30–33:30 — CLIP 的诞生（Slide 10）

2021 年，OpenAI 发布了 CLIP（Contrastive Language-Image Pre-training），它的训练方式极其优雅：

从互联网收集 4 亿图文对，训练两个编码器：

图像编码器——将图像映射到 d 维向量
文本编码器——将文本映射到同样的 d 维空间

训练目标：对比损失（InfoNCE）——让匹配的图文对向量距离近，不匹配的距离远。

损失函数形式：

1

L = -log( exp(sim(I·T⁺)/τ) / Σ exp(sim(I·T⁻)/τ) )

CLIP 的核心贡献：

零样本能力——训练完成后，不需要任何训练数据就能识别新类别
开放词汇——任意文本提示即可检索图像
图文对齐——两个模态在特征空间中对齐

建议展示：CLIP 对比学习框架图 https://miro.medium.com/v2/resize:fit:1400/1*Y0liFYGs4o9dMi1s6rX-fg.png

33:30–35:00 — MedCLIP（Slide 11）

直接将 CLIP 移植到医学领域效果并不好。原因有三：

自然图像和医学图像的领域差异巨大
医学文本高度专业化，术语密集
医学图文对数量少、质量参差不齐

MedCLIP 的解决方案：

在医学数据集（MIMIC-CXR、肿瘤病理）上继续预训练
解耦对比学习——标准 CLIP 严格要求"一个图像对一个文本"，但医学数据中常常多图共用一个报告、或一个图有多条描述。MedCLIP 解耦了这种对应关系
用自然 CLIP 权重初始化，医学数据微调

建议展示：MedCLIP 解耦对比学习图示

35:00–37:00 — CLIP 驱动的分割 & CLIP + SAM（Slide 12）

把 CLIP 从图像级对齐下放到像素级对齐，是最近的研究热点。

Prompt 驱动分割：

输入文本 Prompt，如"恶性肿瘤细胞"
CLIP 返回图像中语义最匹配的区域
任意文本描述，无需固定类别集

Dense CLIP：

保持 CLIP 对齐能力，加上像素级分割头
文本嵌入作为锚点，引导像素分类
显著提升小样本和零样本分割性能

CLIP + SAM 的最强组合：

SAM（Segment Anything Model）——提供高质量的 Mask Proposal（通用分割能力）
CLIP——用文本赋予 Mask 语义标签（零样本识别）
无需任何标注数据，只需要描述目标组织的文本 Prompt

建议展示：CLIP + SAM 管道示意图 https://segment-anything.com/asset/map.jpg

八、零样本与小样本分割（~3 分钟）

37:00–39:00 — 零样本与小样本（Slide 13）

零样本分割：

不需要任何目标类别的标注图像
直接通过文本 Prompt 描述目标结构即可分割
对于罕见病变（长尾分布）尤其重要

少样本分割：

1–10 张标注图像即可适配新任务
CLIP 提供强初始化，少量微调即收敛
大幅降低标注成本

临床价值： 一个新病灶类型出现时，不需要重新标注训练集——写一段描述文字即可。不同医院间的快速适配也变得可行。

挑战：

零样本精度与全监督仍有差距
Prompt 工程影响巨大——写"肺部磨玻璃结节"和"GGO"效果可能不同
罕见医学术语在 CLIP 的词表中可能不存在

九、工程落地与总结（~4 分钟）

39:00–40:30 — 工程挑战（Slide 14）

多模态模型的计算开销不容忽视。

资源瓶颈应对策略：

善用预训练权重——从 CLIP/MedCLIP 初始化，而不是从头训练
LoRA / Adapter 微调——冻结大部分参数，只微调少量适配器参数
混合精度训练（FP16/BF16）——显存减半，速度翻倍
梯度检查点——用计算换显存
渐进式训练——先对齐 → 再分割 → 再下游微调

安全红线： 多模态模型在临床场景中可能会产生"幻觉"——生成看似合理但不正确的关联。在假阳性可能导致不必要手术、假阴性可能延误治疗的场景中，必须有充分的 OOD（分布外）检测和人工审核机制。

40:30–42:00 — 总结与展望（Slide 15）

技术演进路线：

1
2


CNN（像素特征）→ ViT（全局感受野）→ LViT（文本先验）
→ CLIP（跨模态对齐）→ GPT-V / 通用医疗智能体

未来方向：

从分割到预后——分割只是手段，最终目标是辅助临床决策
端到端医疗 AI 助手——文本 + 图像 + 临床数据的统一理解
通用基础模型的医学适配——让 GPT-4V 级别的模型真正理解医学图像
多模态对齐 + 因果推断——不光看到关联，还要理解因果

三条关键启示：

文本先验是打破视觉瓶颈的关键
对比学习是跨模态对齐的有效范式
零样本能力是医疗落地的理想目标

42:00–45:00 — Q&A

（预留互动时间）

附录：推荐扩展阅读

LeNet-5: LeCun et al., “Gradient-Based Learning Applied to Document Recognition”, 1998
AlexNet: Krizhevsky et al., “ImageNet Classification with Deep CNNs”, NIPS 2012
VGGNet: Simonyan & Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, ICLR 2015
GoogLeNet: Szegedy et al., “Going Deeper with Convolutions”, CVPR 2015
ResNet: He et al., “Deep Residual Learning for Image Recognition”, CVPR 2016
FCN: Long et al., “Fully Convolutional Networks for Semantic Segmentation”, CVPR 2015
U-Net: Ronneberger et al., “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015
V-Net: Milletari et al., “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation”, 3DV 2016
DenseNet: Huang et al., “Densely Connected Convolutional Networks”, CVPR 2017
DeepLab: Chen et al., “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, TPAMI 2017
ViT: Dosovitskiy et al., “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, ICLR 2021
TransUNet: Chen et al., “TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation”, 2021
CLAM: Lu et al., “Data-efficient and weakly supervised computational pathology on whole-slide images”, Nature Biomedical Engineering 2021
CLIP: Radford et al., “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021
MedCLIP: Wang et al., “MedCLIP: Contrastive Learning from Unpaired Medical Images and Text”, EMNLP 2022
LViT: Li et al., “LViT: Language meets Vision Transformer in Medical Image Segmentation”, IEEE TMI 2023
SAM: Kirillov et al., “Segment Anything”, ICCV 2023

时间控制备忘：

章节时长累计

开场 + 核心挑战 5 min 5 min

CNN 黄金时代 15 min 20 min

CNN 局限 → ViT 5 min 25 min

MIL 3 min 28 min

为什么文本 + 早期融合 5 min 33 min

LViT 3 min 36 min

CLIP + MedCLIP + 分割 6 min 42 min

零样本/小样本 3 min 45 min

如果时间紧张，可压缩 CNN 部分到 12 分钟（省略 DenseNet/DeepLab 细节），或压缩工程部分到 2 分钟。

章节	时长	累计
开场 + 核心挑战	5 min	5 min
CNN 黄金时代	15 min	20 min
CNN 局限 → ViT	5 min	25 min
MIL	3 min	28 min
为什么文本 + 早期融合	5 min	33 min
LViT	3 min	36 min
CLIP + MedCLIP + 分割	6 min	42 min
零样本/小样本	3 min	45 min