Stable Diffusion

Stable Diffusion - модель глубокого обучения с открытым исходным кодом, предназначенная для генерации изображений по текстовым описаниям. Выпущена в 2022 году компанией Stability AI в сотрудничестве с исследовательской группой CompVis Мюнхенского университета, а также Runway, EleutherAI и LAION. Отличительная особенность - открытый код и веса модели, что позволило сообществу создавать многочисленные модификации.

Модель может работать на большинстве потребительских устройств с графическим процессором от 4 ГБ видеопамяти, что отличает её от проприетарных решений вроде DALL-E и Midjourney, доступных только через облачные сервисы.

Архитектура

Stable Diffusion относится к классу моделей скрытой диффузии (latent diffusion models). В отличие от моделей, работающих непосредственно с пикселями, она сначала сжимает изображение в скрытое пространство меньшей размерности с помощью вариационного автоэнкодера (VAE), выполняет диффузионный процесс в этом пространстве, а затем декодирует результат обратно в изображение.

Модель включает несколько компонентов:

Кодировщик текста - языковая модель-трансформер, преобразующая текстовый запрос в набор чисел (эмбеддингов), описывающих каждое слово.
Генератор изображений - нейросеть UNet и алгоритм планирования, создающие информацию об изображении в скрытом пространстве.
Декодер - преобразующий скрытое представление в итоговое изображение.

В первых версиях (v1, v2) использовалась архитектура UNet. Stable Diffusion 3, выпущенная в апреле 2024 года, построена на архитектуре DiT-трансформер, что позволило улучшить качество генерации и понимание сложных запросов.

Возможности

Генерация по текстовому описанию

Модель создаёт изображения на основе текстовых запросов, работая со сжатыми версиями картинок, что экономит память устройства. Поддерживает различные стили - от фотореализма до цифрового искусства и подражания конкретным художникам.

Редактирование изображений

Inpainting - замена объектов на изображении на сгенерированные моделью.
Outpainting - дорисовывание изображения за его исходными границами, генерация фона.
Дорисовка набросков - превращение простых скетчей в детализированные изображения.

Дополнительные применения

Создание покадровой анимации и видеороликов.
Генерация объектов и локаций для видеоигр (доступна интеграция с игровым движком Unreal Engine).
На основе Stable Diffusion создана специализированная модель Riffusion для генерации музыки.

Версии

Stable Diffusion v1.0 (август 2022) - первая публичная версия.
Stable Diffusion v2.0 (ноябрь 2022) - улучшенная версия с поддержкой разрешения до 2048×2048 пикселей, адаптированная для создания цифрового арта.
Stable Diffusion XL - версия с увеличенным разрешением и улучшенным качеством.
Stable Diffusion 3 (апрель 2024) - архитектура DiT-трансформер, улучшенное понимание сложных запросов, качественная генерация текста в изображениях, поддержка работы на стандартных графических процессорах благодаря малому объёму потребляемой видеопамяти.
Stable Diffusion 3.5 (октябрь 2024) - последняя на данный момент версия.

Использование

Онлайн

Stable Diffusion 3 доступна для бесплатного тестирования на официальном сайте. Пользователь вводит запрос на английском языке, при необходимости настраивает дополнительные параметры и получает сгенерированное изображение.

Локальная установка

Для установки на компьютер с ОС Windows или Linux рекомендуется:

CMDR2’s 1-Click Installer (доступен на GitHub) - занимает 25 ГБ на диске, позволяет выбирать количество изображений, шаги, размер, формат, модификации и модель Stable Diffusion.
NMKD GUI для Windows (с официального сайта разработчиков) - занимает 11 ГБ, поддерживает запросы через изображение-референс, пакетную обработку, улучшение качества, создание бесшовных изображений.
Diffusion Bee - приложение для Mac с чипами Apple Silicon, работающее без подключения к интернету.

Составление запросов (промптов)

Для получения качественных результатов рекомендуется:

Соблюдать порядок слов - наибольший вес имеют самые первые.
Указывать основные категории: предмет, характер изображения (цифровое фото, масляная живопись), стиль (сюрреализм, конструктивизм), художник, разрешение, дополнительные детали, цвет, освещение.
Подробно описывать идею, укладываясь в 75 слов.
Использовать синонимы для точной передачи атмосферы.
Применять настройки: Steps (шаги генерации), Classifier Free Guidance (свобода интерпретации), Seed (стартовое значение), Resolution (размер изображения).

Рекомендуемая универсальная комбинация: CFG - 8, Steps - 50, Sampler - k_lms, Random seed.

Влияние и критика

Открытость Stable Diffusion способствовала появлению сотен специализированных модификаций, генерирующих изображения в различных стилях. Сообщество разработчиков активно развивает проект, создавая новые версии и инструменты.

Связанные термины

Аноним

Поиск

Stable Diffusion

Пространства имён

Ещё

Действия на странице

Содержание

Архитектура

Возможности

Генерация по текстовому описанию

Редактирование изображений

Дополнительные применения

Версии

Использование

Онлайн

Локальная установка

Составление запросов (промптов)

Влияние и критика

Связанные термины

⧼⧽

🌐 MarketWiki

📈 Маркетинг

🧠 Знания

📚 Гайды и руководства

⭐ Популярное

💬 Контакты

✍️ Об авторе

Аноним

Поиск

Stable Diffusion

Архитектура

Возможности

Генерация по текстовому описанию

Редактирование изображений

Дополнительные применения

Версии

Использование

Онлайн

Локальная установка

Составление запросов (промптов)

Влияние и критика

Связанные термины

⧼⧽

Инструменты для страниц

Категории