微软展示LLaVA-Med模型，可用于医学病理案例分析

来源：AICG工具箱责编：网络时间：2025-06-04 13:35:29

6月14日报道 | 微软研究人员最近展示了LLaVA-Med模型，该模型是专为生物医学研究而设计的人工智能模型。它利用生物医学图像，如CT和X光图像等，推测患者的病理状况。微软与一批医院合作，获得了大量的生物医学图像和对应的文本数据集，用于训练这个多模态AI模型。

视觉指令调整，在生物医学领域构建具有 GPT-4级别功能的大型语言和视觉模型。6月1日在GitHub上发布了LLaVA-Med: Large Language and Vision Assistant for Biomedicine，这使得模型能够生成与图像相关的问答，并能够以自然语言回答有关生物医学图像的问题，实现了助手的愿景。

LLaVA-Med模型是基于GPT-4、Vision Transformer和Vicuna语言模型的。微软研究人员使用了八个英伟达A100 GPU对模型进行训练，其中包含每个图像的所有预分析信息。LLaVA-Med 使用通用模型 LLaVA 进行初始化，然后以课程学习方式不断进行训练（首先是生物医学概念对齐，然后是全面的指令调整）。并评估了 LLaVA-Med 在标准视觉对话和问答任务上的表现。