Tag: DeepLearning 's Articles - Kaitoven Lab

[研究学习日记] 当 Segment Anything 大模型遇上医学 X 光：从零样本到动态提示工程的探索

在先前的硕士课程 Advanced Deep Learning 中，我们的课程作业带来了一个极其硬核且紧跟前沿的课题—探索 Meta AI 提出的颠覆性视觉基础大模型：Segment Anything Model (SAM) 。 SAM 在计算机视觉领域的地位，就如同 GPT 在自然语言处理领域的地位一样。它通过海量数据（1100 万张图片，超 11 亿个掩码的 SA-1B 数据集）的洗礼，实现了强大的 Zero-shot（零样本）泛化能力，并引入了优雅的 Promptable Segmentation（可提示分割）范式。然而，SAM 原论文主要在自然场景数据集上进行训练和评估。作为一名严谨的学习者，我产生了一个巨大的疑问：当号称能“分割一切”的 SAM，面对它极少见过的、对比度低且缺乏自然特征的医学 X 光（X-ray）图像时，它还能保持神奇的魔力吗？这篇博客既是我的课程学习日记，也是一次技术复盘。我将带大家从阅读 SAM 论文开始，体验 Web 端的交互分割，到使用 Python 探索 Prompt Engineering，最后自己动手搭建 YOLOv8 动态提示（Dynam

Alchemy Lab 2024-09-05 974