Stable Diffusion

Материал из Энциклопедия интернет-маркетинга MarketWiki

Stable Diffusion - модель глубокого обучения с открытым исходным кодом, предназначенная для генерации изображений по текстовым описаниям. Выпущена в 2022 году компанией Stability AI в сотрудничестве с исследовательской группой CompVis Мюнхенского университета, а также Runway, EleutherAI и LAION. Отличительная особенность - открытый код и веса модели, что позволило сообществу создавать многочисленные модификации.

Модель может работать на большинстве потребительских устройств с графическим процессором от 4 ГБ видеопамяти, что отличает её от проприетарных решений вроде DALL-E и Midjourney, доступных только через облачные сервисы.

Архитектура

[править]

Stable Diffusion относится к классу моделей скрытой диффузии (latent diffusion models). В отличие от моделей, работающих непосредственно с пикселями, она сначала сжимает изображение в скрытое пространство меньшей размерности с помощью вариационного автоэнкодера (VAE), выполняет диффузионный процесс в этом пространстве, а затем декодирует результат обратно в изображение.

Модель включает несколько компонентов:

  • Кодировщик текста - языковая модель-трансформер, преобразующая текстовый запрос в набор чисел (эмбеддингов), описывающих каждое слово.
  • Генератор изображений - нейросеть UNet и алгоритм планирования, создающие информацию об изображении в скрытом пространстве.
  • Декодер - преобразующий скрытое представление в итоговое изображение.

В первых версиях (v1, v2) использовалась архитектура UNet. Stable Diffusion 3, выпущенная в апреле 2024 года, построена на архитектуре DiT-трансформер, что позволило улучшить качество генерации и понимание сложных запросов.

Возможности

[править]

Генерация по текстовому описанию

[править]

Модель создаёт изображения на основе текстовых запросов, работая со сжатыми версиями картинок, что экономит память устройства. Поддерживает различные стили - от фотореализма до цифрового искусства и подражания конкретным художникам.

Редактирование изображений

[править]
  • Inpainting - замена объектов на изображении на сгенерированные моделью.
  • Outpainting - дорисовывание изображения за его исходными границами, генерация фона.
  • Дорисовка набросков - превращение простых скетчей в детализированные изображения.

Дополнительные применения

[править]
  • Создание покадровой анимации и видеороликов.
  • Генерация объектов и локаций для видеоигр (доступна интеграция с игровым движком Unreal Engine).
  • На основе Stable Diffusion создана специализированная модель Riffusion для генерации музыки.

Версии

[править]
  • Stable Diffusion v1.0 (август 2022) - первая публичная версия.
  • Stable Diffusion v2.0 (ноябрь 2022) - улучшенная версия с поддержкой разрешения до 2048×2048 пикселей, адаптированная для создания цифрового арта.
  • Stable Diffusion XL - версия с увеличенным разрешением и улучшенным качеством.
  • Stable Diffusion 3 (апрель 2024) - архитектура DiT-трансформер, улучшенное понимание сложных запросов, качественная генерация текста в изображениях, поддержка работы на стандартных графических процессорах благодаря малому объёму потребляемой видеопамяти.
  • Stable Diffusion 3.5 (октябрь 2024) - последняя на данный момент версия.

Использование

[править]

Онлайн

[править]

Stable Diffusion 3 доступна для бесплатного тестирования на официальном сайте. Пользователь вводит запрос на английском языке, при необходимости настраивает дополнительные параметры и получает сгенерированное изображение.

Локальная установка

[править]

Для установки на компьютер с ОС Windows или Linux рекомендуется:

  • CMDR2’s 1-Click Installer (доступен на GitHub) - занимает 25 ГБ на диске, позволяет выбирать количество изображений, шаги, размер, формат, модификации и модель Stable Diffusion.
  • NMKD GUI для Windows (с официального сайта разработчиков) - занимает 11 ГБ, поддерживает запросы через изображение-референс, пакетную обработку, улучшение качества, создание бесшовных изображений.
  • Diffusion Bee - приложение для Mac с чипами Apple Silicon, работающее без подключения к интернету.

Составление запросов (промптов)

[править]

Для получения качественных результатов рекомендуется:

  • Соблюдать порядок слов - наибольший вес имеют самые первые.
  • Указывать основные категории: предмет, характер изображения (цифровое фото, масляная живопись), стиль (сюрреализм, конструктивизм), художник, разрешение, дополнительные детали, цвет, освещение.
  • Подробно описывать идею, укладываясь в 75 слов.
  • Использовать синонимы для точной передачи атмосферы.
  • Применять настройки: Steps (шаги генерации), Classifier Free Guidance (свобода интерпретации), Seed (стартовое значение), Resolution (размер изображения).

Рекомендуемая универсальная комбинация: CFG - 8, Steps - 50, Sampler - k_lms, Random seed.

Влияние и критика

[править]

Открытость Stable Diffusion способствовала появлению сотен специализированных модификаций, генерирующих изображения в различных стилях. Сообщество разработчиков активно развивает проект, создавая новые версии и инструменты.

Связанные термины

[править]