使用扩散模型与CLIP进行肺炎病患状态分类

Published:

胸部X光片示例

项目概述

肺炎仍然是导致儿童死亡的主要原因之一。本项目探讨了将扩散模型(diffusion models)对比语言-图像预训练(CLIP)技术应用于儿科胸部X光图像分类的可能性,分类类别包括:正常病毒性肺炎细菌性肺炎

我们使用了来自广州妇女儿童医疗中心的5856张图像数据集。为了解决类别不平衡问题,我们使用LoRA方法对Stable Diffusion模型进行了微调,为少数类别生成了2000张合成图像。随后,我们对CLIP ViT-L/14模型进行了微调,利用基于提示词的文本标签对合并后的数据集进行分类。

关键方法

  • Stable Diffusion v2 + LoRA 用于图像合成
  • CLIP 微调实现对比学习
  • 提示工程(Prompt Engineering):使用 “An image of [Type] chest X-ray.” 作为输入模板
  • 低GPU预算:仅训练约 1% 的参数

结果

  • 训练准确率48.94% 提升至 50.51%
  • 测试准确率37.5%召回率(Recall):50%
  • 各个训练轮次的可视化指标摘要如下:

训练表现图

工具与运行环境

  • Python 3.9,PyTorch 2.5.1
  • NVIDIA RTX 3090(24GB 显存)
  • LoRA,OpenCLIP

成员贡献

  • Xiaomeng Xu:代码编辑;摘要;引言部分
  • Wenfei Mao:代码编辑;扩散模型;CLIP;结论
  • Yingzhen Wang:代码编辑;结果撰写;扩散模型部分
  • 高硕远:代码编辑;实验设置;结论撰写

📂 完整项目库:在GitHub上查看

未来研究方向

  • 尝试更快的扩散模型(如 Consistency Models、One-Step Diffusion)
  • 探索基于强化学习的微调方法(如 DPO、PPO)
  • 从 LoRA 微调升级到完整模型微调,以提升生成图像的质量

项目总结

本研究提出了一种混合策略:使用生成式模型进行类别平衡,结合多模态大模型(CLIP)进行医学图像分类。尽管目前模型准确率仍有限,但该方法在医学 AI 中展示了新的潜力路径。