Google проводит эксперименты с мультимодальными моделями искусственного интеллекта в области медицины. Исследователи разрабатывают системы, способные обрабатывать информацию из различных источников. Одним из таких проектов является Med-PaLM M — интеграция генеративной модели изображений и языковой модели Google PaLM 2, созданная специально для рентгеновских снимков.
В настройке LLM, текстовые и табличные данные подвергаются кодированию, в то время как остальные данные рассматриваются как изображение. Используя Med-PaLM M, исследователи извлекают информацию из различных источников данных, включая изображения, геномные записи и клинические документы.
MultiMedBench представляет собой набор из 14 различных задач, включающих медицинские вопросы, интерпретацию маммографии и дерматологических изображений, а также создание и обобщение радиологических отчетов.
Однако Google столкнулась с проблемой ограниченности доступных наборов данных для тестирования, что затрудняет разработку многозадачной системы. Недостаток медицинских данных также создает препятствия для масштабирования модели. Для эффективного решения разнообразных задач программистам необходимо масштабироваться с языковой моделью.