Stable Diffusion
Stable Diffusion - модель глубокого обучения с открытым исходным кодом, предназначенная для генерации изображений по текстовым описаниям. Выпущена в 2022 году компанией Stability AI в сотрудничестве с исследовательской группой CompVis Мюнхенского университета, а также Runway, EleutherAI и LAION. Отличительная особенность - открытый код и веса модели, что позволило сообществу создавать многочисленные модификации.
Модель может работать на большинстве потребительских устройств с графическим процессором от 4 ГБ видеопамяти, что отличает её от проприетарных решений вроде DALL-E и Midjourney, доступных только через облачные сервисы.
Архитектура
[править]Stable Diffusion относится к классу моделей скрытой диффузии (latent diffusion models). В отличие от моделей, работающих непосредственно с пикселями, она сначала сжимает изображение в скрытое пространство меньшей размерности с помощью вариационного автоэнкодера (VAE), выполняет диффузионный процесс в этом пространстве, а затем декодирует результат обратно в изображение.
Модель включает несколько компонентов:
- Кодировщик текста - языковая модель-трансформер, преобразующая текстовый запрос в набор чисел (эмбеддингов), описывающих каждое слово.
- Генератор изображений - нейросеть UNet и алгоритм планирования, создающие информацию об изображении в скрытом пространстве.
- Декодер - преобразующий скрытое представление в итоговое изображение.
В первых версиях (v1, v2) использовалась архитектура UNet. Stable Diffusion 3, выпущенная в апреле 2024 года, построена на архитектуре DiT-трансформер, что позволило улучшить качество генерации и понимание сложных запросов.
Возможности
[править]Генерация по текстовому описанию
[править]Модель создаёт изображения на основе текстовых запросов, работая со сжатыми версиями картинок, что экономит память устройства. Поддерживает различные стили - от фотореализма до цифрового искусства и подражания конкретным художникам.
Редактирование изображений
[править]- Inpainting - замена объектов на изображении на сгенерированные моделью.
- Outpainting - дорисовывание изображения за его исходными границами, генерация фона.
- Дорисовка набросков - превращение простых скетчей в детализированные изображения.
Дополнительные применения
[править]- Создание покадровой анимации и видеороликов.
- Генерация объектов и локаций для видеоигр (доступна интеграция с игровым движком Unreal Engine).
- На основе Stable Diffusion создана специализированная модель Riffusion для генерации музыки.
Версии
[править]- Stable Diffusion v1.0 (август 2022) - первая публичная версия.
- Stable Diffusion v2.0 (ноябрь 2022) - улучшенная версия с поддержкой разрешения до 2048×2048 пикселей, адаптированная для создания цифрового арта.
- Stable Diffusion XL - версия с увеличенным разрешением и улучшенным качеством.
- Stable Diffusion 3 (апрель 2024) - архитектура DiT-трансформер, улучшенное понимание сложных запросов, качественная генерация текста в изображениях, поддержка работы на стандартных графических процессорах благодаря малому объёму потребляемой видеопамяти.
- Stable Diffusion 3.5 (октябрь 2024) - последняя на данный момент версия.
Использование
[править]Онлайн
[править]Stable Diffusion 3 доступна для бесплатного тестирования на официальном сайте. Пользователь вводит запрос на английском языке, при необходимости настраивает дополнительные параметры и получает сгенерированное изображение.
Локальная установка
[править]Для установки на компьютер с ОС Windows или Linux рекомендуется:
- CMDR2’s 1-Click Installer (доступен на GitHub) - занимает 25 ГБ на диске, позволяет выбирать количество изображений, шаги, размер, формат, модификации и модель Stable Diffusion.
- NMKD GUI для Windows (с официального сайта разработчиков) - занимает 11 ГБ, поддерживает запросы через изображение-референс, пакетную обработку, улучшение качества, создание бесшовных изображений.
- Diffusion Bee - приложение для Mac с чипами Apple Silicon, работающее без подключения к интернету.
Составление запросов (промптов)
[править]Для получения качественных результатов рекомендуется:
- Соблюдать порядок слов - наибольший вес имеют самые первые.
- Указывать основные категории: предмет, характер изображения (цифровое фото, масляная живопись), стиль (сюрреализм, конструктивизм), художник, разрешение, дополнительные детали, цвет, освещение.
- Подробно описывать идею, укладываясь в 75 слов.
- Использовать синонимы для точной передачи атмосферы.
- Применять настройки: Steps (шаги генерации), Classifier Free Guidance (свобода интерпретации), Seed (стартовое значение), Resolution (размер изображения).
Рекомендуемая универсальная комбинация: CFG - 8, Steps - 50, Sampler - k_lms, Random seed.
Влияние и критика
[править]Открытость Stable Diffusion способствовала появлению сотен специализированных модификаций, генерирующих изображения в различных стилях. Сообщество разработчиков активно развивает проект, создавая новые версии и инструменты.
