Как ускорить генераторы изображений в 30 раз придумали ученые

29 марта 2024

фото: Роман ПОПОВ (сгенерировано с помощью нейросети)

Ученые из Массачусетского технологического института (MIT) разработали новый метод, который позволяет ускорить работу популярных генераторов изображений на основе искусственного интеллекта, таких как DALL·E 3 и Stable Diffusion, в 30 раз.

Это достигается за счет использования техники, называемой “дистилляция согласования распределений” (DMD), которая обучает новые модели ИИ имитировать установленные генераторы изображений, известные как диффузионные модели.

Диффузионные модели создают изображения посредством многоэтапного процесса. Используя изображения с описательными текстовыми подписями и другими метаданными, ИИ обучается лучше понимать контекст и значение изображений, чтобы точно реагировать на текстовые запросы.

В практике эти модели работают, беря случайное изображение и кодируя его полем случайного шума, так что оно разрушается. Это называется “прямой диффузией” и является ключевым этапом в процессе обучения. Затем изображение проходит до 100 шагов, чтобы очистить шум, известный как “обратная диффузия”, чтобы произвести четкое изображение на основе текстового запроса.

Применяя свою новую структуру к новой модели и сокращая эти шаги “обратной диффузии” до одного, ученые сократили среднее время, необходимое для генерации изображения. Это открытие не только значительно сокращает время вычислений, но и сохраняет, если не превосходит, качество генерируемого визуального контента.

Исследование было опубликовано 5 декабря 2023 года на сервере предварительных печатей arXiv. Это открытие может иметь значительные последствия для будущего искусственного интеллекта и генерации изображений, делая процесс более доступным и эффективным для широкого круга пользователей и приложений.

Источник: Live Science