ПНСТ (проект, первая редакция). Системы искусственного интеллекта в здравоохранении. Большие генеративные модели для решения задач суммаризации электронных медицинских документов. Методы испытаний, метрики оценки качества

14 мая 2026 — заканчивается 13 июля 2026

Проект

Разработчик

Государственное бюджетное учреждение здравоохранения города Москвы «Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы»

Технический комитет

Технический комитет по стандартизации 164 «Искусственный интеллект»

ОКС/МКС/ISO

11.040.01

Описание

Настоящий стандарт распространяется на системы искусственного интеллекта в здравоохранении, основанные на больших генеративных моделях, применяемые для решения задач суммаризации электронных медицинских документов, и устанавливает требования к тестированию таких систем в части:

методов испытаний;
метрик оценки качества.

Файлы проекта

Форма замечаний к проекту

1 обсуждение

Приглашаем обсудить проект ПНСТ о больших генеративных моделях для суммаризации мед. документов

Публичное обсуждение проекта продлится до 13 июля 2026 г.

Большие генеративные модели представляют собой новую технологическую основу для систем искусственного интеллекта. В настоящее время происходит интенсивное развитие соответствующих технологий (математических моделей, баз данных, алгоритмов и т. д.), появление новых областей знаний (промпт-инжиниринг и др.). Вместе с этим существует выраженный запрос медицинского сообщества на оптимизацию использования кадровых ресурсов. Выраженный дефицит специалистов требует дальнейшей автоматизации рутинных процедур и создания возможности для человека выполнять исключительно когнитивно-сложные и творческие задачи.

Существующие подходы (метрики, способы) оценки точности, качества, безопасности систем искусственного интеллекта мало- или неприменимы к системам искусственного интеллекта на основе больших генеративных моделей, в частности, в задаче суммаризации электронных медицинских документов. Контроль больших генеративных моделей принципиально сложнее из-за их универсальности, творческого характера и высоких требований к безопасности. В частности, для оценки существующих систем компьютерного зрения проводится проверка на правильность ответа, точность детекции и классификации патологии. Для больших генеративных моделей в задачах суммаризации текстов требуются специфические методы испытаний, направленные на оценку надежности, поиск искажений или генерации ложных данных, оценку соответствия нормативно-правовым документам.

Основной целью разработки настоящего стандарта является унификация требований к комплексу метрик оценки качества и безопасности сгенерированных большими генеративными моделями текстов, подходам и конкретным способам оценки соответствующих метрик на этапах жизненного цикла, а также процессам организации испытаний. Тем самым будет обеспечено эффективное взаимодействие разработчиков, медицинского сообщества, регуляторов, интенсифицировано создание нового поколения отечественных продуктов, способствующее технологическому прорыву.