14 мая 2026
—
заканчивается
13 июля 2026
Проект
Разработчик
Технический комитет
ОКС/МКС/ISO
11.040.01
Описание
Настоящий стандарт распространяется на системы искусственного интеллекта в здравоохранении, основанные на больших генеративных моделях, применяемые для решения задач суммаризации электронных медицинских документов, и устанавливает требования к тестированию таких систем в части:
- методов испытаний;
- метрик оценки качества.
Приглашаем обсудить проект ПНСТ о больших генеративных моделях для суммаризации мед. документов
Публичное обсуждение проекта продлится до 13 июля 2026 г.
Большие генеративные модели представляют собой новую технологическую основу для систем искусственного интеллекта. В настоящее время происходит интенсивное развитие соответствующих технологий (математических моделей, баз данных, алгоритмов и т. д.), появление новых областей знаний (промпт-инжиниринг и др.). Вместе с этим существует выраженный запрос медицинского сообщества на оптимизацию использования кадровых ресурсов. Выраженный дефицит специалистов требует дальнейшей автоматизации рутинных процедур и создания возможности для человека выполнять исключительно когнитивно-сложные и творческие задачи.
Существующие подходы (метрики, способы) оценки точности, качества, безопасности систем искусственного интеллекта мало- или неприменимы к системам искусственного интеллекта на основе больших генеративных моделей, в частности, в задаче суммаризации электронных медицинских документов. Контроль больших генеративных моделей принципиально сложнее из-за их универсальности, творческого характера и высоких требований к безопасности. В частности, для оценки существующих систем компьютерного зрения проводится проверка на правильность ответа, точность детекции и классификации патологии. Для больших генеративных моделей в задачах суммаризации текстов требуются специфические методы испытаний, направленные на оценку надежности, поиск искажений или генерации ложных данных, оценку соответствия нормативно-правовым документам.
Основной целью разработки настоящего стандарта является унификация требований к комплексу метрик оценки качества и безопасности сгенерированных большими генеративными моделями текстов, подходам и конкретным способам оценки соответствующих метрик на этапах жизненного цикла, а также процессам организации испытаний. Тем самым будет обеспечено эффективное взаимодействие разработчиков, медицинского сообщества, регуляторов, интенсифицировано создание нового поколения отечественных продуктов, способствующее технологическому прорыву.