医学图像分割的范式跃迁 — 45 分钟讲稿(含 CNN 扩展)

说明: 本讲稿配合 medical_seg_evolution_v2.pptx(23 页)使用。 图片通过 URL 引用,放映时建议打开链接展示原图。


一、开场 + 核心挑战(~5 分钟)

0:00–2:00 — 标题页

各位老师、同学大家好。今天我分享的题目是 “医学图像分割的范式跃迁——从 CNN 到视觉-语言基础模型”

这不仅是技术的演进,更是一条从"机器看"到"机器理解"的认知升级之路。过去十年,医学图像分割经历了三次范式革命:

  1. CNN 时代——用卷积核提取像素级特征
  2. Transformer 时代——用自注意力捕获全局上下文
  3. 多模态时代——用文本先验引导视觉理解

今天的报告会沿着这条线索展开,重点剖析其中的关键模型和核心思想。

2:00–5:00 — 医学分割的核心挑战(Slide 2)

在进入技术细节前,我们先回顾一下医学图像分割到底难在哪里。

首先是标注成本极高。自然图像分类打个标签几秒钟,但医学分割需要在像素级勾画轮廓——一张 WSI(全切片图像)可能包含上亿像素,标注耗时数小时,而且必须由专业的临床医生完成。

其次是数据异质性与微小病灶。肿瘤微环境极其复杂,同类肿瘤在不同患者身上可能表现迥异,而微小病灶肉眼都容易遗漏,对模型的灵敏度要求极高。

第三是域偏移。不同医院、不同厂商的扫描设备采集的图像分布差异明显,在 A 医院训练的好模型到了 B 医院性能可能断崖式下降。

最后是临床落地的壁垒——模型不仅要准,还要可解释、实时、合规。

正是这些挑战驱动着分割技术的代际演进。让我们从 CNN 开始讲起。

建议展示: 医学分割标注示例图 https://wiki.cancerimagingarchive.net/download/attachments/70230397/annotation_example.png


二、CNN 的黄金时代(~15 分钟)【重点展开】

5:00–6:30 — 卷积神经网络的基本思想(过渡引入)

在讲具体架构之前,我们先回顾卷积神经网络最核心的三个设计思想:

  1. 局部感受野——每个神经元只关注输入的一个局部区域,通过堆叠层来扩大感受范围
  2. 权值共享——同一个卷积核在整个图像上滑动,大幅减少参数量
  3. 平移不变性——目标位于图像的任何位置,网络都能识别

这三个特性使 CNN 天然适合处理图像数据。让我们从最早的 LeNet 开始,看这条技术路线如何一步步走向成熟。

建议展示:CNN 卷积运算动图 https://upload.wikimedia.org/wikipedia/commons/4/4c/2D_Convolution_Animation.gif

6:30–8:00 — LeNet-5(1998):一切开始的地方

LeNet-5 由 Yann LeCun 等人在 1998 年提出,是最早的现代卷积神经网络,用于手写数字识别(支票、邮编)。

架构速览:

  • 输入:32×32 灰度图
  • 结构:C1 卷积(6@5×5) → S2 平均池化 → C3 卷积(16@5×5) → S4 平均池化 → C5 卷积(120@5×5) → F6 全连接(84) → 输出(10)
  • 总参数量:约 6 万

放在今天看,LeNet 只有区区 6 万参数,但它在 1990 年代就确立了卷积→池化→全连接的经典流水线。

建议展示:LeNet-5 架构图 https://www.researchgate.net/profile/Adit-Kumar/publication/340989271/figure/fig2/AS:885545894416384@1588230607211/Architecture-of-LeNet-5-a-Convolutional-Neural-Network-here-for-digits-recognition.png

8:00–10:00 — AlexNet(2012):深度学习的大爆炸

如果说 LeNet 点燃了火种,那么 AlexNet 就是引爆了炸药桶。

2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 带着 AlexNet 参加了 ImageNet 竞赛,以 top-5 错误率 15.3%(第二名 26%)的绝对优势夺冠。这个差距之大,彻底宣告了深度学习的时代到来。

核心创新:

  1. ReLU 激活函数——解决了 sigmoid 在深层网络中的梯度饱和问题,训练速度快了几倍
  2. Dropout——随机丢弃 50% 的神经元,有效防止过拟合
  3. 数据增强——随机裁剪、翻转,等效地扩大了训练数据
  4. 双 GPU 训练——将网络拆分到两块 GPU 上并行(当时的无奈之举,现在看来是模型并行的雏形)
  5. 重叠池化——步长小于池化窗口尺寸,减少信息丢失

架构: 5 个卷积层 + 3 个全连接层,共 6200 万参数。

建议展示:AlexNet 双 GPU 架构图 https://miro.medium.com/v2/resize:fit:1400/1*Za1tcZYK8BZoHkXVwIgOaA.png

10:00–11:30 — VGGNet(2014):深度与简洁的极致

2014 年,牛津大学视觉几何组的 Simonyan 和 Zisserman 提出了 VGGNet。

VGGNet 的设计哲学极简——全部用 3×3 卷积。他们发现堆叠两个 3×3 卷积等价于一个 5×5 的感受野,堆叠三个等价于 7×7,但参数量更少、非线性更强。

架构特点:

  • 全部使用 3×3 卷积(stride=1, padding=1)
  • 全部使用 2×2 最大池化(stride=2)
  • 每经过一次池化,通道数翻倍:64 → 128 → 256 → 512 → 512
  • VGG16(16 层权值层,13 个卷积 + 3 个全连接)是最经典版本
  • 参数量 1.38 亿——其中大部分来自最后三个全连接层

VGGNet 虽然在当年只拿了 ILSVRC 2014 分类第二(第一是 GoogLeNet),但它的简洁和规整使它成为最受欢迎的"特征提取骨架"。直到今天,很多下游任务仍然在用 VGG 做特征提取。

建议展示:VGG16 结构示意图 https://media.geeksforgeeks.org/wp-content/uploads/20200219152317/vgg16-architecture.png

11:30–13:00 — GoogLeNet / Inception(2014):多尺度并行卷积

同一年,Google 的 Szegedy 等人提出了 GoogLeNet(Inception v1),拿了 ILSVRC 2014 分类冠军。

它的核心创新是 Inception 模块——在同一层中并行使用 1×1、3×3、5×5 卷积和 3×3 最大池化,然后将结果在通道维度拼接。这样网络可以同时捕捉不同尺度的特征。

然而直接这样做计算量太大。关键技巧是在 3×3 和 5×5 卷积之前插入 1×1 卷积进行降维。举个例子:输入 192 通道,如果不加 1×1 瓶颈,5×5 卷积有 192×5×5×32 ≈ 15 万参数;加上 16 个 1×1 滤波器降到 16 通道,再经过 5×5,仅需 192×16 + 16×5×5×32 ≈ 1.5 万参数——计算量降到原来的十分之一

整个 GoogLeNet 堆叠了 9 个 Inception 模块,只有 500 万参数——是 AlexNet(6200 万)的十二分之一,VGG16(1.38 亿)的三十分之一,但性能却更好。

建议展示:Inception 模块结构对比图(naive vs 带 1×1 降维) https://www.researchgate.net/profile/Jie-Qian-11/publication/326160161/figure/fig1/AS:644555125104640@1531013643496/Inception-module-with-dimension-reductions-a-Naive-inception-module-b-Inception-module.png

13:00–15:00 — ResNet(2015):残差学习,彻底解放深度

讲到这里,我们面临一个核心矛盾:深度是好的,但越深越难训练

理论上,更深的网络表达能力更强。但在实践中,当网络深度增加到几十层后,训练误差反而上升——这就是"退化问题"(Degradation Problem)。注意这不是过拟合,是优化困难。

2015 年,何恺明等人提出了 Residual Network(ResNet),一举拿下 ILSVRC 2015 五项冠军,并训练出了 152 层的网络。

核心思想极其简洁:

原本一个模块要学习映射 H(x),现在改为学习残差 F(x) = H(x) - x,然后通过跳跃连接让输出 y = F(x) + x。

为什么这样有效?两个原因:

  1. 梯度高速路——反向传播时,梯度除了经过权重层,还可以直接通过跳跃连接回传到浅层。这个"+1"项意味着导数永远不会消失。
  2. 恒等映射容易学——如果某层不需要变换,网络只需把 F(x) 设为零即可,比去学一个恒等映射容易得多。

架构变体:

  • Basic Block(ResNet-18/34):两个 3×3 卷积 + 跳跃连接
  • Bottleneck Block(ResNet-50/101/152):1×1 降维 → 3×3 → 1×1 升维,进一步减少计算量

ResNet 的跳跃连接后来被几乎所有视觉架构借鉴——包括 U-Net 的跳跃连接、Transformer 的残差连接,本质上都是同一个思想。

建议展示:ResNet 残差块结构图(推荐显示 Basic 和 Bottleneck 对比) https://miro.medium.com/v2/resize:fit:1400/1*D0F3UitQ2l5Q0Ak-tjEdJg.png

附加展示:退化问题曲线图(来自原始论文,展示 56 层 vs 20 层 plain 网络的错误率对比)

15:00–16:00 — DenseNet(2017):密集连接,极致特征复用

在 ResNet 之后,黄高等人进一步思考:既然跳跃连接有用,为什么不把所有层都连起来?

DenseNet 的 Dense Block 中,每一层的输入是前面所有层输出的拼接。对于一个 L 层的密集模块,共有 L×(L+1)/2 条连接。

和 ResNet 的关键区别:ResNet 是(求和),DenseNet 是(拼接)。

这带来了几个好处:

  • 特征复用——浅层的边缘、纹理特征可以直接被深层使用
  • 梯度流动极好——损失函数可以直接"看到"每一层
  • 参数效率极高——用约三分之一于 ResNet 的参数达到相同精度
  • 天然的正则化——密集连接有隐式的正则效果,在小数据集上不易过拟合

建议展示:DenseNet 密集连接示意图 https://miro.medium.com/v2/resize:fit:1400/1*5Hw_fzE7aCt6D3klT0CMJg.png


16:00–18:00 — 语义分割专用架构(FCN、DeepLab)

前面讲的都是图像分类架构——输出是整图的类别标签。但医学分割需要逐像素的分类。

FCN(Fully Convolutional Network,2015)——全卷积网络。核心贡献:把最后的全连接层替换为卷积层,使网络能接受任意尺寸输入,输出空间维度一致的分割图。另外引入跳跃连接融合浅层细节和深层语义。

DeepLab 系列(v1–v3+,2016–2018)——Google 推出的语义分割架构,核心创新包括:

  1. 空洞卷积(Atrous/Dilated Convolution)——往卷积核里插"空洞"。rate=1 是普通卷积,rate=2 是每隔一格采一个点。在不增加参数的情况下扩大感受野。
  2. ASPP(Atrous Spatial Pyramid Pooling)——用不同扩张率的空洞卷积并行提取多尺度特征,然后融合。相当于在特征层面做了"多尺度分析"。
  3. DeepLabV3+——在 V3 基础上增加了编码器-解码器结构,结合 ASPP 的高层语义和编码器的空间细节。

建议展示:空洞卷积原理图 https://miro.medium.com/v2/resize:fit:720/1*SVjJadB4A3EPXXp4hZcc3g.gif

ASPP 结构 https://developers.arcgis.com/python/latest/guide/how-deeplabv3-works/


18:00–20:00 — U-Net(2015):医学分割的标杆

终于到了医学分割中最重要的架构——U-Net

Ronneberger 等人在 2015 年提出了 U-Net,专为医学图像分割设计。它的名字就来自那个标志性的 U 形结构:

编码器(左侧,下采样路径):

  • 重复:3×3 卷积 + ReLU + 2×2 最大池化
  • 每经过一层,空间尺寸减半、通道数翻倍
  • 捕捉越来越抽象的语义特征

解码器(右侧,上采样路径):

  • 重复:转置卷积上采样 + 与编码器对应层的跳跃连接拼接 + 3×3 卷积
  • 空间尺寸逐渐恢复、通道数逐渐减少

跳跃连接(关键创新):

  • 将编码器每一层的特征图直接拼接到解码器对应层
  • 与 FCN(元素级相加)不同,U-Net 是通道级拼接
  • 效果:解码器同时拥有高层语义(定位目标)和浅层细节(精修边界)

U-Net 的成功在于它完美适配了医学图像的特点——数据量小、需要精细边界、全局结构相对固定。

建议展示:U-Net 原始架构图(来自论文 Figure 1) https://www.researchgate.net/profile/Olaf-Ronneberger/publication/308932167/figure/fig1/AS:410260664741921@1474756018827/U-Net-architecture.png

20:00–21:00 — V-Net / 3D CNN(2016)

医学影像中很多是 3D 数据(CT、MRI)。将 2D 切片独立分割会丢失层间连续性信息。

V-Net(Milletari et al., 2016)将 U-Net 扩展到了 3D:

  • 用 3D 卷积替代 2D 卷积(卷积核从 3×3 变为 3×3×3)
  • 引入 Dice Loss,直接优化分割重叠度,天然解决类别不平衡问题

代价:3D 卷积计算量和显存消耗比 2D 高出约一个数量级。


21:00–22:00 — CNN 小结

到这里我们快速回顾了 CNN 的发展脉络。我来总结一下 CNN 为医学分割留下了哪些遗产:

核心优势:

  • 局部感受野——擅长捕获纹理、边缘、组织边界
  • 平移不变性——对位置变化鲁棒
  • 参数共享——适合密集预测

三条核心设计范式:

  1. 深度设计——从 LeNet 的 5 层到 ResNet 的 152 层,更深的网络 = 更强的表达
  2. 跳跃连接——从 FCN 的雏形到 U-Net 的标准配置,再到 ResNet 的全网覆盖
  3. 多尺度——从 GoogLeNet 的 Inception 到 DeepLab 的 ASPP

但 CNN 的固有局限也暴露出来: 不管怎么堆叠,卷积核的局部性决定了它在长程依赖建模上的效率瓶颈。

这自然引出下一个问题:我们能不能让模型有"全局视野"?

建议展示:CNN 架构演进时间线图 https://miro.medium.com/v2/resize:fit:1400/1*NcmyYEGDYg3qL0FHmJQq5w.png


三、CNN 的局限 → 注意力与 ViT(~5 分钟)

22:00–23:00 — CNN 的局限性(Slide 4)

刚刚讲的是 CNN 的优点,现在来看它的硬伤:

  1. 全局上下文缺失。 3×3 卷积核只能看到周围 3×3 的区域。即使堆叠多层,信息传输效率也远不如一步到位的全局连接。

  2. 语义孤岛。 纯视觉模型只"看"不"懂"。如果两种组织在视觉上相似(比如 CT 图像中的肿瘤和炎症区域),模型很难区分。

  3. 长程依赖效率低下。 在超大图像(比如 WSI)中,跨区域的像素依赖需要经过大量中间层传递,容易丢失信息。

23:00–25:00 — Attention Is All You Need:Vision Transformer(Slide 5)

2017 年,Google 的"Attention Is All You Need"开启了 Transformer 时代。2020 年,Dosovitskiy 等人将 Transformer 引入视觉。

Self-Attention 的核心思想:

  • QKV(Query-Key-Value)机制——每个位置可以关注到所有其他位置
  • 全局感受野——一步到位,不需要层层堆叠
  • 多头注意力——不同头关注不同子空间的特征

ViT 的架构流:

1
2
图像 → 切割成 Patch(如 16×16)→ Linear Embedding → Position Encoding
→ Transformer Encoder(×N 层)→ 分类头

去除了所有卷积操作! 这个简单的设计在 ImageNet 上达到了媲美甚至超越 CNN 的效果。

医学分割方向的代表工作:

  • TransUNet——CNN + Transformer 混合编码器,CNN 提取底层特征、Transformer 建模全局关系
  • Swin-UNet——基于 Swin Transformer 的纯 Transformer U-Net,用移位窗口实现高效全局注意力

建议展示:ViT 架构图(论文 Figure 1) https://miro.medium.com/v2/resize:fit:1400/1*53t3SX4kXlNEss52pxH24Q.png


四、超大图像与弱监督策略(~3 分钟)

25:00–26:30 — 多实例学习 MIL & CLAM(Slide 6)

在处理超大图像时,显存是最直接的限制。一张 WSI 可能达到 10 万 × 10 万像素——即使 ResNet 也无法直接处理。

MIL(多实例学习)将 WSI 视为一个"包"(Bag),包中的每个 Patch 是一个"实例"。只要包中至少有一个正实例,包就标为正——这个松弛假设恰好适配病理场景(一张 WSI 中只要有癌细胞,这张片子就是癌)。

CLAM(2020):

  • 使用注意力池化(Attention Pooling)自动筛选关键 Patch
  • 不需要精细的像素级标注,只需要 slide-level 标签
  • 注意力权重可以可视化,告诉病理医生"模型在看哪里"

建议展示:MIL to CLAM 示意图 https://pubs.rsna.org/na101/home/literatum/publisher/rsna/journals/content/radiographics/2022/04204282/20220014/20220014_fig5.jpeg

26:30–27:00 — 过渡引入文本

我们有了 CNN、有了 Transformer、有了 MIL——它们都是纯视觉方法。但它们共享一个问题:只利用像素信息

接下来进入报告的核心——为什么需要文本?


五、为什么需要文本 + 早期融合(~5 分钟)

27:00–28:30 — 为什么要引入文本(Slide 7)

在临床场景中一个常常被忽视的现实:医学影像从来不是孤立存在的。

每一张影像都伴随一份诊断报告,里面包含丰富的临床先验知识——病灶位置、形态、边界特征、与周围组织的关系、恶性程度、鉴别诊断要点……这些信息被完全编码在自然语言中。

文本的独特优势:

  1. 高密度语义先验——一句话概括关键发现,比上千个像素更高效
  2. 减少歧义——两个视觉相似的区域,通过文本描述可以明确区分
  3. 结构化知识——人体解剖学知识可以编码为文本先验
  4. 利用海量未标注数据——医院存量数据中,大量图文对(影像+报告)可以用于自监督学习

28:30–30:00 — 早期多模态融合的探索(Slide 8)

早期的多模态融合方法比较朴素:把文本表征和图像表征简单拼接(Concat)后输入分类器。这种方案的问题在于,文本和图像在特征空间中没有对齐——向量相加可能只是视觉特征主导,文本信息几乎没有发挥作用。

融合策略经历了几代演进:

第一代(2017–2019): 简单拼接 → 晚期融合(各自处理再合并) → 联合嵌入 第二代(2020–2022): 跨模态注意力 → 共同注意力 → 循环交互 第三代(2023–): 对比学习对齐 → 统一多模态 Transformer → 基础模型

关键转折点:从"拼接"到"对齐"——让文本真正引导视觉特征的学习。

建议展示:多模态融合演化路径图


六、LViT:语言驱动的视觉架构(~3 分钟)

30:00–31:30 — LViT 详解(Slide 9)

LViT(Language-driven Vision Transformer)是多模态分割的代表性工作。

核心思想: 在特征提取的早期和深层网络中引入文本嵌入,利用文本先验来校准视觉注意力权重——让模型知道该"看哪里"。

具体实现:

  • 文本-视觉交叉注意力模块
  • 多层级融合:浅层关注轮廓引导,深层关注语义校准
  • 对比损失拉近图文特征距离

与传统 U-Net 的对比:

1
2
3
4
传统 U-Net:    图像 → 编码 → 解码 → 分割掩码
LViT:          图像 + 文本 → 文本引导编码 → 交叉注意力解码 → 语义感知分割掩码
                                   文本嵌入校准每一层注意力

效果:在模糊边界、小病灶、低对比度区域,Dice 提升 5–15%。


七、CLIP 及其医学适配(~6 分钟)

31:30–33:30 — CLIP 的诞生(Slide 10)

2021 年,OpenAI 发布了 CLIP(Contrastive Language-Image Pre-training),它的训练方式极其优雅:

从互联网收集 4 亿图文对,训练两个编码器:

  • 图像编码器——将图像映射到 d 维向量
  • 文本编码器——将文本映射到同样的 d 维空间

训练目标:对比损失(InfoNCE)——让匹配的图文对向量距离近,不匹配的距离远。

损失函数形式:

1
L = -log( exp(sim(I·T⁺)/τ) / Σ exp(sim(I·T⁻)/τ) )

CLIP 的核心贡献:

  1. 零样本能力——训练完成后,不需要任何训练数据就能识别新类别
  2. 开放词汇——任意文本提示即可检索图像
  3. 图文对齐——两个模态在特征空间中对齐

建议展示:CLIP 对比学习框架图 https://miro.medium.com/v2/resize:fit:1400/1*Y0liFYGs4o9dMi1s6rX-fg.png

33:30–35:00 — MedCLIP(Slide 11)

直接将 CLIP 移植到医学领域效果并不好。原因有三:

  1. 自然图像和医学图像的领域差异巨大
  2. 医学文本高度专业化,术语密集
  3. 医学图文对数量少、质量参差不齐

MedCLIP 的解决方案:

  • 在医学数据集(MIMIC-CXR、肿瘤病理)上继续预训练
  • 解耦对比学习——标准 CLIP 严格要求"一个图像对一个文本",但医学数据中常常多图共用一个报告、或一个图有多条描述。MedCLIP 解耦了这种对应关系
  • 用自然 CLIP 权重初始化,医学数据微调

建议展示:MedCLIP 解耦对比学习图示

35:00–37:00 — CLIP 驱动的分割 & CLIP + SAM(Slide 12)

把 CLIP 从图像级对齐下放到像素级对齐,是最近的研究热点。

Prompt 驱动分割:

  • 输入文本 Prompt,如"恶性肿瘤细胞"
  • CLIP 返回图像中语义最匹配的区域
  • 任意文本描述,无需固定类别集

Dense CLIP:

  • 保持 CLIP 对齐能力,加上像素级分割头
  • 文本嵌入作为锚点,引导像素分类
  • 显著提升小样本和零样本分割性能

CLIP + SAM 的最强组合:

  • SAM(Segment Anything Model)——提供高质量的 Mask Proposal(通用分割能力)
  • CLIP——用文本赋予 Mask 语义标签(零样本识别)
  • 无需任何标注数据,只需要描述目标组织的文本 Prompt

建议展示:CLIP + SAM 管道示意图 https://segment-anything.com/asset/map.jpg


八、零样本与小样本分割(~3 分钟)

37:00–39:00 — 零样本与小样本(Slide 13)

零样本分割:

  • 不需要任何目标类别的标注图像
  • 直接通过文本 Prompt 描述目标结构即可分割
  • 对于罕见病变(长尾分布)尤其重要

少样本分割:

  • 1–10 张标注图像即可适配新任务
  • CLIP 提供强初始化,少量微调即收敛
  • 大幅降低标注成本

临床价值: 一个新病灶类型出现时,不需要重新标注训练集——写一段描述文字即可。不同医院间的快速适配也变得可行。

挑战:

  • 零样本精度与全监督仍有差距
  • Prompt 工程影响巨大——写"肺部磨玻璃结节"和"GGO"效果可能不同
  • 罕见医学术语在 CLIP 的词表中可能不存在

九、工程落地与总结(~4 分钟)

39:00–40:30 — 工程挑战(Slide 14)

多模态模型的计算开销不容忽视。

资源瓶颈应对策略:

  1. 善用预训练权重——从 CLIP/MedCLIP 初始化,而不是从头训练
  2. LoRA / Adapter 微调——冻结大部分参数,只微调少量适配器参数
  3. 混合精度训练(FP16/BF16)——显存减半,速度翻倍
  4. 梯度检查点——用计算换显存
  5. 渐进式训练——先对齐 → 再分割 → 再下游微调

安全红线: 多模态模型在临床场景中可能会产生"幻觉"——生成看似合理但不正确的关联。在假阳性可能导致不必要手术、假阴性可能延误治疗的场景中,必须有充分的 OOD(分布外)检测和人工审核机制。

40:30–42:00 — 总结与展望(Slide 15)

技术演进路线:

1
2
CNN(像素特征)→ ViT(全局感受野)→ LViT(文本先验)
→ CLIP(跨模态对齐)→ GPT-V / 通用医疗智能体

未来方向:

  1. 从分割到预后——分割只是手段,最终目标是辅助临床决策
  2. 端到端医疗 AI 助手——文本 + 图像 + 临床数据的统一理解
  3. 通用基础模型的医学适配——让 GPT-4V 级别的模型真正理解医学图像
  4. 多模态对齐 + 因果推断——不光看到关联,还要理解因果

三条关键启示:

  1. 文本先验是打破视觉瓶颈的关键
  2. 对比学习是跨模态对齐的有效范式
  3. 零样本能力是医疗落地的理想目标

42:00–45:00 — Q&A

(预留互动时间)


附录:推荐扩展阅读

  1. LeNet-5: LeCun et al., “Gradient-Based Learning Applied to Document Recognition”, 1998
  2. AlexNet: Krizhevsky et al., “ImageNet Classification with Deep CNNs”, NIPS 2012
  3. VGGNet: Simonyan & Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, ICLR 2015
  4. GoogLeNet: Szegedy et al., “Going Deeper with Convolutions”, CVPR 2015
  5. ResNet: He et al., “Deep Residual Learning for Image Recognition”, CVPR 2016
  6. FCN: Long et al., “Fully Convolutional Networks for Semantic Segmentation”, CVPR 2015
  7. U-Net: Ronneberger et al., “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015
  8. V-Net: Milletari et al., “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation”, 3DV 2016
  9. DenseNet: Huang et al., “Densely Connected Convolutional Networks”, CVPR 2017
  10. DeepLab: Chen et al., “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, TPAMI 2017
  11. ViT: Dosovitskiy et al., “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, ICLR 2021
  12. TransUNet: Chen et al., “TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation”, 2021
  13. CLAM: Lu et al., “Data-efficient and weakly supervised computational pathology on whole-slide images”, Nature Biomedical Engineering 2021
  14. CLIP: Radford et al., “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021
  15. MedCLIP: Wang et al., “MedCLIP: Contrastive Learning from Unpaired Medical Images and Text”, EMNLP 2022
  16. LViT: Li et al., “LViT: Language meets Vision Transformer in Medical Image Segmentation”, IEEE TMI 2023
  17. SAM: Kirillov et al., “Segment Anything”, ICCV 2023

时间控制备忘:

章节 时长 累计
开场 + 核心挑战 5 min 5 min
CNN 黄金时代 15 min 20 min
CNN 局限 → ViT 5 min 25 min
MIL 3 min 28 min
为什么文本 + 早期融合 5 min 33 min
LViT 3 min 36 min
CLIP + MedCLIP + 分割 6 min 42 min
零样本/小样本 3 min 45 min

如果时间紧张,可压缩 CNN 部分到 12 分钟(省略 DenseNet/DeepLab 细节), 或压缩工程部分到 2 分钟。

使用 Hugo 构建
主题 StackJimmy 设计