在先前的硕士课程 Advanced Deep Learning 中,我们的课程作业带来了一个极其硬核且紧跟前沿的课题—探索 Meta AI 提出的颠覆性视觉基础大模型:Segment Anything Model (SAM)。 SAM 在计算机视觉领域的地位,就如同 GPT 在自然语言处理领域的地位一样。它通过海量数据(1100 万张图片,超 11 亿个掩码的 SA-1B 数据集)的洗礼,实现了强大的 Zero-shot(零样本)泛化能力,并引入了优雅的 Promptable Segmentation(可提示分割) 范式。 然而,SAM 原论文主要在自然场景数据集上进行训练和评估。作为一名严谨的学习者,我产生了一个巨大的疑问:当号称能“分割一切”的 SAM,面对它极少见过的、对比度低且缺乏自然特征的医学 X 光(X-ray)图像时,它还能保持神奇的魔力吗? 这篇博客既是我的课程学习日记,也是一次技术复盘。我将带大家从阅读 SAM 论文开始,体验 Web 端的交互分割,到使用 Python 探索 Prompt Engineering,最后自己动手搭建 YOLOv8 动态提示(Dynami
Dengke Chen
[/ˈkaɪ.tə.vən tʃɛn/]. Thank you for stopping by! I hope you found something helpful or inspiring here.