论文精读 LViT 论文精读:当语言遇上视觉 Transformer,医学图像分割的多模态之路 深入解析 LViT(Language meets Vision Transformer)架构:U-Net + 多尺度 ViT + BERT 文本融合,含完整数据流、关键代码走读、已知问题与改进方向。