说明: 本讲稿配合
medical_seg_evolution_v2.pptx(23 页)使用。 图片通过 URL 引用,放映时建议打开链接展示原图。
一、开场 + 核心挑战(~5 分钟)
0:00–2:00 — 标题页
各位老师、同学大家好。今天我分享的题目是 “医学图像分割的范式跃迁——从 CNN 到视觉-语言基础模型”。
这不仅是技术的演进,更是一条从"机器看"到"机器理解"的认知升级之路。过去十年,医学图像分割经历了三次范式革命:
- CNN 时代——用卷积核提取像素级特征
- Transformer 时代——用自注意力捕获全局上下文
- 多模态时代——用文本先验引导视觉理解
今天的报告会沿着这条线索展开,重点剖析其中的关键模型和核心思想。
2:00–5:00 — 医学分割的核心挑战(Slide 2)
在进入技术细节前,我们先回顾一下医学图像分割到底难在哪里。
首先是标注成本极高。自然图像分类打个标签几秒钟,但医学分割需要在像素级勾画轮廓——一张 WSI(全切片图像)可能包含上亿像素,标注耗时数小时,而且必须由专业的临床医生完成。
其次是数据异质性与微小病灶。肿瘤微环境极其复杂,同类肿瘤在不同患者身上可能表现迥异,而微小病灶肉眼都容易遗漏,对模型的灵敏度要求极高。
第三是域偏移。不同医院、不同厂商的扫描设备采集的图像分布差异明显,在 A 医院训练的好模型到了 B 医院性能可能断崖式下降。
最后是临床落地的壁垒——模型不仅要准,还要可解释、实时、合规。
正是这些挑战驱动着分割技术的代际演进。让我们从 CNN 开始讲起。
建议展示: 医学分割标注示例图 https://wiki.cancerimagingarchive.net/download/attachments/70230397/annotation_example.png
二、CNN 的黄金时代(~15 分钟)【重点展开】
5:00–6:30 — 卷积神经网络的基本思想(过渡引入)
在讲具体架构之前,我们先回顾卷积神经网络最核心的三个设计思想:
- 局部感受野——每个神经元只关注输入的一个局部区域,通过堆叠层来扩大感受范围
- 权值共享——同一个卷积核在整个图像上滑动,大幅减少参数量
- 平移不变性——目标位于图像的任何位置,网络都能识别
这三个特性使 CNN 天然适合处理图像数据。让我们从最早的 LeNet 开始,看这条技术路线如何一步步走向成熟。
建议展示:CNN 卷积运算动图 https://upload.wikimedia.org/wikipedia/commons/4/4c/2D_Convolution_Animation.gif
6:30–8:00 — LeNet-5(1998):一切开始的地方
LeNet-5 由 Yann LeCun 等人在 1998 年提出,是最早的现代卷积神经网络,用于手写数字识别(支票、邮编)。
架构速览:
- 输入:32×32 灰度图
- 结构:C1 卷积(6@5×5) → S2 平均池化 → C3 卷积(16@5×5) → S4 平均池化 → C5 卷积(120@5×5) → F6 全连接(84) → 输出(10)
- 总参数量:约 6 万
放在今天看,LeNet 只有区区 6 万参数,但它在 1990 年代就确立了卷积→池化→全连接的经典流水线。
8:00–10:00 — AlexNet(2012):深度学习的大爆炸
如果说 LeNet 点燃了火种,那么 AlexNet 就是引爆了炸药桶。
2012 年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 带着 AlexNet 参加了 ImageNet 竞赛,以 top-5 错误率 15.3%(第二名 26%)的绝对优势夺冠。这个差距之大,彻底宣告了深度学习的时代到来。
核心创新:
- ReLU 激活函数——解决了 sigmoid 在深层网络中的梯度饱和问题,训练速度快了几倍
- Dropout——随机丢弃 50% 的神经元,有效防止过拟合
- 数据增强——随机裁剪、翻转,等效地扩大了训练数据
- 双 GPU 训练——将网络拆分到两块 GPU 上并行(当时的无奈之举,现在看来是模型并行的雏形)
- 重叠池化——步长小于池化窗口尺寸,减少信息丢失
架构: 5 个卷积层 + 3 个全连接层,共 6200 万参数。
建议展示:AlexNet 双 GPU 架构图 https://miro.medium.com/v2/resize:fit:1400/1*Za1tcZYK8BZoHkXVwIgOaA.png
10:00–11:30 — VGGNet(2014):深度与简洁的极致
2014 年,牛津大学视觉几何组的 Simonyan 和 Zisserman 提出了 VGGNet。
VGGNet 的设计哲学极简——全部用 3×3 卷积。他们发现堆叠两个 3×3 卷积等价于一个 5×5 的感受野,堆叠三个等价于 7×7,但参数量更少、非线性更强。
架构特点:
- 全部使用 3×3 卷积(stride=1, padding=1)
- 全部使用 2×2 最大池化(stride=2)
- 每经过一次池化,通道数翻倍:64 → 128 → 256 → 512 → 512
- VGG16(16 层权值层,13 个卷积 + 3 个全连接)是最经典版本
- 参数量 1.38 亿——其中大部分来自最后三个全连接层
VGGNet 虽然在当年只拿了 ILSVRC 2014 分类第二(第一是 GoogLeNet),但它的简洁和规整使它成为最受欢迎的"特征提取骨架"。直到今天,很多下游任务仍然在用 VGG 做特征提取。
建议展示:VGG16 结构示意图 https://media.geeksforgeeks.org/wp-content/uploads/20200219152317/vgg16-architecture.png
11:30–13:00 — GoogLeNet / Inception(2014):多尺度并行卷积
同一年,Google 的 Szegedy 等人提出了 GoogLeNet(Inception v1),拿了 ILSVRC 2014 分类冠军。
它的核心创新是 Inception 模块——在同一层中并行使用 1×1、3×3、5×5 卷积和 3×3 最大池化,然后将结果在通道维度拼接。这样网络可以同时捕捉不同尺度的特征。
然而直接这样做计算量太大。关键技巧是在 3×3 和 5×5 卷积之前插入 1×1 卷积进行降维。举个例子:输入 192 通道,如果不加 1×1 瓶颈,5×5 卷积有 192×5×5×32 ≈ 15 万参数;加上 16 个 1×1 滤波器降到 16 通道,再经过 5×5,仅需 192×16 + 16×5×5×32 ≈ 1.5 万参数——计算量降到原来的十分之一。
整个 GoogLeNet 堆叠了 9 个 Inception 模块,只有 500 万参数——是 AlexNet(6200 万)的十二分之一,VGG16(1.38 亿)的三十分之一,但性能却更好。
建议展示:Inception 模块结构对比图(naive vs 带 1×1 降维) https://www.researchgate.net/profile/Jie-Qian-11/publication/326160161/figure/fig1/AS:644555125104640@1531013643496/Inception-module-with-dimension-reductions-a-Naive-inception-module-b-Inception-module.png
13:00–15:00 — ResNet(2015):残差学习,彻底解放深度
讲到这里,我们面临一个核心矛盾:深度是好的,但越深越难训练。
理论上,更深的网络表达能力更强。但在实践中,当网络深度增加到几十层后,训练误差反而上升——这就是"退化问题"(Degradation Problem)。注意这不是过拟合,是优化困难。
2015 年,何恺明等人提出了 Residual Network(ResNet),一举拿下 ILSVRC 2015 五项冠军,并训练出了 152 层的网络。
核心思想极其简洁:
原本一个模块要学习映射 H(x),现在改为学习残差 F(x) = H(x) - x,然后通过跳跃连接让输出 y = F(x) + x。
为什么这样有效?两个原因:
- 梯度高速路——反向传播时,梯度除了经过权重层,还可以直接通过跳跃连接回传到浅层。这个"+1"项意味着导数永远不会消失。
- 恒等映射容易学——如果某层不需要变换,网络只需把 F(x) 设为零即可,比去学一个恒等映射容易得多。
架构变体:
- Basic Block(ResNet-18/34):两个 3×3 卷积 + 跳跃连接
- Bottleneck Block(ResNet-50/101/152):1×1 降维 → 3×3 → 1×1 升维,进一步减少计算量
ResNet 的跳跃连接后来被几乎所有视觉架构借鉴——包括 U-Net 的跳跃连接、Transformer 的残差连接,本质上都是同一个思想。
建议展示:ResNet 残差块结构图(推荐显示 Basic 和 Bottleneck 对比) https://miro.medium.com/v2/resize:fit:1400/1*D0F3UitQ2l5Q0Ak-tjEdJg.png
附加展示:退化问题曲线图(来自原始论文,展示 56 层 vs 20 层 plain 网络的错误率对比)
15:00–16:00 — DenseNet(2017):密集连接,极致特征复用
在 ResNet 之后,黄高等人进一步思考:既然跳跃连接有用,为什么不把所有层都连起来?
DenseNet 的 Dense Block 中,每一层的输入是前面所有层输出的拼接。对于一个 L 层的密集模块,共有 L×(L+1)/2 条连接。
和 ResNet 的关键区别:ResNet 是加(求和),DenseNet 是拼(拼接)。
这带来了几个好处:
- 特征复用——浅层的边缘、纹理特征可以直接被深层使用
- 梯度流动极好——损失函数可以直接"看到"每一层
- 参数效率极高——用约三分之一于 ResNet 的参数达到相同精度
- 天然的正则化——密集连接有隐式的正则效果,在小数据集上不易过拟合
建议展示:DenseNet 密集连接示意图 https://miro.medium.com/v2/resize:fit:1400/1*5Hw_fzE7aCt6D3klT0CMJg.png
16:00–18:00 — 语义分割专用架构(FCN、DeepLab)
前面讲的都是图像分类架构——输出是整图的类别标签。但医学分割需要逐像素的分类。
FCN(Fully Convolutional Network,2015)——全卷积网络。核心贡献:把最后的全连接层替换为卷积层,使网络能接受任意尺寸输入,输出空间维度一致的分割图。另外引入跳跃连接融合浅层细节和深层语义。
DeepLab 系列(v1–v3+,2016–2018)——Google 推出的语义分割架构,核心创新包括:
- 空洞卷积(Atrous/Dilated Convolution)——往卷积核里插"空洞"。rate=1 是普通卷积,rate=2 是每隔一格采一个点。在不增加参数的情况下扩大感受野。
- ASPP(Atrous Spatial Pyramid Pooling)——用不同扩张率的空洞卷积并行提取多尺度特征,然后融合。相当于在特征层面做了"多尺度分析"。
- DeepLabV3+——在 V3 基础上增加了编码器-解码器结构,结合 ASPP 的高层语义和编码器的空间细节。
建议展示:空洞卷积原理图 https://miro.medium.com/v2/resize:fit:720/1*SVjJadB4A3EPXXp4hZcc3g.gif
ASPP 结构 https://developers.arcgis.com/python/latest/guide/how-deeplabv3-works/
18:00–20:00 — U-Net(2015):医学分割的标杆
终于到了医学分割中最重要的架构——U-Net。
Ronneberger 等人在 2015 年提出了 U-Net,专为医学图像分割设计。它的名字就来自那个标志性的 U 形结构:
编码器(左侧,下采样路径):
- 重复:3×3 卷积 + ReLU + 2×2 最大池化
- 每经过一层,空间尺寸减半、通道数翻倍
- 捕捉越来越抽象的语义特征
解码器(右侧,上采样路径):
- 重复:转置卷积上采样 + 与编码器对应层的跳跃连接拼接 + 3×3 卷积
- 空间尺寸逐渐恢复、通道数逐渐减少
跳跃连接(关键创新):
- 将编码器每一层的特征图直接拼接到解码器对应层
- 与 FCN(元素级相加)不同,U-Net 是通道级拼接
- 效果:解码器同时拥有高层语义(定位目标)和浅层细节(精修边界)
U-Net 的成功在于它完美适配了医学图像的特点——数据量小、需要精细边界、全局结构相对固定。
建议展示:U-Net 原始架构图(来自论文 Figure 1) https://www.researchgate.net/profile/Olaf-Ronneberger/publication/308932167/figure/fig1/AS:410260664741921@1474756018827/U-Net-architecture.png
20:00–21:00 — V-Net / 3D CNN(2016)
医学影像中很多是 3D 数据(CT、MRI)。将 2D 切片独立分割会丢失层间连续性信息。
V-Net(Milletari et al., 2016)将 U-Net 扩展到了 3D:
- 用 3D 卷积替代 2D 卷积(卷积核从 3×3 变为 3×3×3)
- 引入 Dice Loss,直接优化分割重叠度,天然解决类别不平衡问题
代价:3D 卷积计算量和显存消耗比 2D 高出约一个数量级。
21:00–22:00 — CNN 小结
到这里我们快速回顾了 CNN 的发展脉络。我来总结一下 CNN 为医学分割留下了哪些遗产:
核心优势:
- 局部感受野——擅长捕获纹理、边缘、组织边界
- 平移不变性——对位置变化鲁棒
- 参数共享——适合密集预测
三条核心设计范式:
- 深度设计——从 LeNet 的 5 层到 ResNet 的 152 层,更深的网络 = 更强的表达
- 跳跃连接——从 FCN 的雏形到 U-Net 的标准配置,再到 ResNet 的全网覆盖
- 多尺度——从 GoogLeNet 的 Inception 到 DeepLab 的 ASPP
但 CNN 的固有局限也暴露出来: 不管怎么堆叠,卷积核的局部性决定了它在长程依赖建模上的效率瓶颈。
这自然引出下一个问题:我们能不能让模型有"全局视野"?
建议展示:CNN 架构演进时间线图 https://miro.medium.com/v2/resize:fit:1400/1*NcmyYEGDYg3qL0FHmJQq5w.png
三、CNN 的局限 → 注意力与 ViT(~5 分钟)
22:00–23:00 — CNN 的局限性(Slide 4)
刚刚讲的是 CNN 的优点,现在来看它的硬伤:
-
全局上下文缺失。 3×3 卷积核只能看到周围 3×3 的区域。即使堆叠多层,信息传输效率也远不如一步到位的全局连接。
-
语义孤岛。 纯视觉模型只"看"不"懂"。如果两种组织在视觉上相似(比如 CT 图像中的肿瘤和炎症区域),模型很难区分。
-
长程依赖效率低下。 在超大图像(比如 WSI)中,跨区域的像素依赖需要经过大量中间层传递,容易丢失信息。
23:00–25:00 — Attention Is All You Need:Vision Transformer(Slide 5)
2017 年,Google 的"Attention Is All You Need"开启了 Transformer 时代。2020 年,Dosovitskiy 等人将 Transformer 引入视觉。
Self-Attention 的核心思想:
- QKV(Query-Key-Value)机制——每个位置可以关注到所有其他位置
- 全局感受野——一步到位,不需要层层堆叠
- 多头注意力——不同头关注不同子空间的特征
ViT 的架构流:
|
|
去除了所有卷积操作! 这个简单的设计在 ImageNet 上达到了媲美甚至超越 CNN 的效果。
医学分割方向的代表工作:
- TransUNet——CNN + Transformer 混合编码器,CNN 提取底层特征、Transformer 建模全局关系
- Swin-UNet——基于 Swin Transformer 的纯 Transformer U-Net,用移位窗口实现高效全局注意力
建议展示:ViT 架构图(论文 Figure 1) https://miro.medium.com/v2/resize:fit:1400/1*53t3SX4kXlNEss52pxH24Q.png
四、超大图像与弱监督策略(~3 分钟)
25:00–26:30 — 多实例学习 MIL & CLAM(Slide 6)
在处理超大图像时,显存是最直接的限制。一张 WSI 可能达到 10 万 × 10 万像素——即使 ResNet 也无法直接处理。
MIL(多实例学习)将 WSI 视为一个"包"(Bag),包中的每个 Patch 是一个"实例"。只要包中至少有一个正实例,包就标为正——这个松弛假设恰好适配病理场景(一张 WSI 中只要有癌细胞,这张片子就是癌)。
CLAM(2020):
- 使用注意力池化(Attention Pooling)自动筛选关键 Patch
- 不需要精细的像素级标注,只需要 slide-level 标签
- 注意力权重可以可视化,告诉病理医生"模型在看哪里"
建议展示:MIL to CLAM 示意图 https://pubs.rsna.org/na101/home/literatum/publisher/rsna/journals/content/radiographics/2022/04204282/20220014/20220014_fig5.jpeg
26:30–27:00 — 过渡引入文本
我们有了 CNN、有了 Transformer、有了 MIL——它们都是纯视觉方法。但它们共享一个问题:只利用像素信息。
接下来进入报告的核心——为什么需要文本?
五、为什么需要文本 + 早期融合(~5 分钟)
27:00–28:30 — 为什么要引入文本(Slide 7)
在临床场景中一个常常被忽视的现实:医学影像从来不是孤立存在的。
每一张影像都伴随一份诊断报告,里面包含丰富的临床先验知识——病灶位置、形态、边界特征、与周围组织的关系、恶性程度、鉴别诊断要点……这些信息被完全编码在自然语言中。
文本的独特优势:
- 高密度语义先验——一句话概括关键发现,比上千个像素更高效
- 减少歧义——两个视觉相似的区域,通过文本描述可以明确区分
- 结构化知识——人体解剖学知识可以编码为文本先验
- 利用海量未标注数据——医院存量数据中,大量图文对(影像+报告)可以用于自监督学习
28:30–30:00 — 早期多模态融合的探索(Slide 8)
早期的多模态融合方法比较朴素:把文本表征和图像表征简单拼接(Concat)后输入分类器。这种方案的问题在于,文本和图像在特征空间中没有对齐——向量相加可能只是视觉特征主导,文本信息几乎没有发挥作用。
融合策略经历了几代演进:
第一代(2017–2019): 简单拼接 → 晚期融合(各自处理再合并) → 联合嵌入 第二代(2020–2022): 跨模态注意力 → 共同注意力 → 循环交互 第三代(2023–): 对比学习对齐 → 统一多模态 Transformer → 基础模型
关键转折点:从"拼接"到"对齐"——让文本真正引导视觉特征的学习。
建议展示:多模态融合演化路径图
六、LViT:语言驱动的视觉架构(~3 分钟)
30:00–31:30 — LViT 详解(Slide 9)
LViT(Language-driven Vision Transformer)是多模态分割的代表性工作。
核心思想: 在特征提取的早期和深层网络中引入文本嵌入,利用文本先验来校准视觉注意力权重——让模型知道该"看哪里"。
具体实现:
- 文本-视觉交叉注意力模块
- 多层级融合:浅层关注轮廓引导,深层关注语义校准
- 对比损失拉近图文特征距离
与传统 U-Net 的对比:
|
|
效果:在模糊边界、小病灶、低对比度区域,Dice 提升 5–15%。
七、CLIP 及其医学适配(~6 分钟)
31:30–33:30 — CLIP 的诞生(Slide 10)
2021 年,OpenAI 发布了 CLIP(Contrastive Language-Image Pre-training),它的训练方式极其优雅:
从互联网收集 4 亿图文对,训练两个编码器:
- 图像编码器——将图像映射到 d 维向量
- 文本编码器——将文本映射到同样的 d 维空间
训练目标:对比损失(InfoNCE)——让匹配的图文对向量距离近,不匹配的距离远。
损失函数形式:
|
|
CLIP 的核心贡献:
- 零样本能力——训练完成后,不需要任何训练数据就能识别新类别
- 开放词汇——任意文本提示即可检索图像
- 图文对齐——两个模态在特征空间中对齐
建议展示:CLIP 对比学习框架图 https://miro.medium.com/v2/resize:fit:1400/1*Y0liFYGs4o9dMi1s6rX-fg.png
33:30–35:00 — MedCLIP(Slide 11)
直接将 CLIP 移植到医学领域效果并不好。原因有三:
- 自然图像和医学图像的领域差异巨大
- 医学文本高度专业化,术语密集
- 医学图文对数量少、质量参差不齐
MedCLIP 的解决方案:
- 在医学数据集(MIMIC-CXR、肿瘤病理)上继续预训练
- 解耦对比学习——标准 CLIP 严格要求"一个图像对一个文本",但医学数据中常常多图共用一个报告、或一个图有多条描述。MedCLIP 解耦了这种对应关系
- 用自然 CLIP 权重初始化,医学数据微调
建议展示:MedCLIP 解耦对比学习图示
35:00–37:00 — CLIP 驱动的分割 & CLIP + SAM(Slide 12)
把 CLIP 从图像级对齐下放到像素级对齐,是最近的研究热点。
Prompt 驱动分割:
- 输入文本 Prompt,如"恶性肿瘤细胞"
- CLIP 返回图像中语义最匹配的区域
- 任意文本描述,无需固定类别集
Dense CLIP:
- 保持 CLIP 对齐能力,加上像素级分割头
- 文本嵌入作为锚点,引导像素分类
- 显著提升小样本和零样本分割性能
CLIP + SAM 的最强组合:
- SAM(Segment Anything Model)——提供高质量的 Mask Proposal(通用分割能力)
- CLIP——用文本赋予 Mask 语义标签(零样本识别)
- 无需任何标注数据,只需要描述目标组织的文本 Prompt
建议展示:CLIP + SAM 管道示意图 https://segment-anything.com/asset/map.jpg
八、零样本与小样本分割(~3 分钟)
37:00–39:00 — 零样本与小样本(Slide 13)
零样本分割:
- 不需要任何目标类别的标注图像
- 直接通过文本 Prompt 描述目标结构即可分割
- 对于罕见病变(长尾分布)尤其重要
少样本分割:
- 1–10 张标注图像即可适配新任务
- CLIP 提供强初始化,少量微调即收敛
- 大幅降低标注成本
临床价值: 一个新病灶类型出现时,不需要重新标注训练集——写一段描述文字即可。不同医院间的快速适配也变得可行。
挑战:
- 零样本精度与全监督仍有差距
- Prompt 工程影响巨大——写"肺部磨玻璃结节"和"GGO"效果可能不同
- 罕见医学术语在 CLIP 的词表中可能不存在
九、工程落地与总结(~4 分钟)
39:00–40:30 — 工程挑战(Slide 14)
多模态模型的计算开销不容忽视。
资源瓶颈应对策略:
- 善用预训练权重——从 CLIP/MedCLIP 初始化,而不是从头训练
- LoRA / Adapter 微调——冻结大部分参数,只微调少量适配器参数
- 混合精度训练(FP16/BF16)——显存减半,速度翻倍
- 梯度检查点——用计算换显存
- 渐进式训练——先对齐 → 再分割 → 再下游微调
安全红线: 多模态模型在临床场景中可能会产生"幻觉"——生成看似合理但不正确的关联。在假阳性可能导致不必要手术、假阴性可能延误治疗的场景中,必须有充分的 OOD(分布外)检测和人工审核机制。
40:30–42:00 — 总结与展望(Slide 15)
技术演进路线:
|
|
未来方向:
- 从分割到预后——分割只是手段,最终目标是辅助临床决策
- 端到端医疗 AI 助手——文本 + 图像 + 临床数据的统一理解
- 通用基础模型的医学适配——让 GPT-4V 级别的模型真正理解医学图像
- 多模态对齐 + 因果推断——不光看到关联,还要理解因果
三条关键启示:
- 文本先验是打破视觉瓶颈的关键
- 对比学习是跨模态对齐的有效范式
- 零样本能力是医疗落地的理想目标
42:00–45:00 — Q&A
(预留互动时间)
附录:推荐扩展阅读
- LeNet-5: LeCun et al., “Gradient-Based Learning Applied to Document Recognition”, 1998
- AlexNet: Krizhevsky et al., “ImageNet Classification with Deep CNNs”, NIPS 2012
- VGGNet: Simonyan & Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition”, ICLR 2015
- GoogLeNet: Szegedy et al., “Going Deeper with Convolutions”, CVPR 2015
- ResNet: He et al., “Deep Residual Learning for Image Recognition”, CVPR 2016
- FCN: Long et al., “Fully Convolutional Networks for Semantic Segmentation”, CVPR 2015
- U-Net: Ronneberger et al., “U-Net: Convolutional Networks for Biomedical Image Segmentation”, MICCAI 2015
- V-Net: Milletari et al., “V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation”, 3DV 2016
- DenseNet: Huang et al., “Densely Connected Convolutional Networks”, CVPR 2017
- DeepLab: Chen et al., “DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs”, TPAMI 2017
- ViT: Dosovitskiy et al., “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale”, ICLR 2021
- TransUNet: Chen et al., “TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation”, 2021
- CLAM: Lu et al., “Data-efficient and weakly supervised computational pathology on whole-slide images”, Nature Biomedical Engineering 2021
- CLIP: Radford et al., “Learning Transferable Visual Models From Natural Language Supervision”, ICML 2021
- MedCLIP: Wang et al., “MedCLIP: Contrastive Learning from Unpaired Medical Images and Text”, EMNLP 2022
- LViT: Li et al., “LViT: Language meets Vision Transformer in Medical Image Segmentation”, IEEE TMI 2023
- SAM: Kirillov et al., “Segment Anything”, ICCV 2023
时间控制备忘:
章节 时长 累计 开场 + 核心挑战 5 min 5 min CNN 黄金时代 15 min 20 min CNN 局限 → ViT 5 min 25 min MIL 3 min 28 min 为什么文本 + 早期融合 5 min 33 min LViT 3 min 36 min CLIP + MedCLIP + 分割 6 min 42 min 零样本/小样本 3 min 45 min 如果时间紧张,可压缩 CNN 部分到 12 分钟(省略 DenseNet/DeepLab 细节), 或压缩工程部分到 2 分钟。