DALL-E

Материал из Энциклопедия интернет-маркетинга MarketWiki

DALL-E - семейство нейросетей, разработанных компанией OpenAI, способных генерировать цифровые изображения по текстовым описаниям на естественном языке (промптам). Название является комбинацией имени робота WALL-E из мультфильма Pixar и фамилии испанского художника-сюрреалиста Сальвадора Дали.

В марте 2025 года в ChatGPT возможности DALL-E 3 были заменены на нативные функции генерации изображений GPT Image.

Версии

[править]

DALL-E (2021)

[править]

Первая версия была анонсирована в январе 2021 года. Модель использовала модифицированную версию GPT-3 с 12 миллиардами параметров для генерации изображений. DALL-E состояла из 3 компонентов:

  • дискретный VAE (вариационный автоэнкодер), преобразующий изображение в последовательность токенов и обратно;
  • авторегрессионная модель-трансформер, обрабатывающая последовательность токенизированного описания и токенизированных фрагментов изображения;
  • пара моделей CLIP (кодировщик изображения и кодировщик текста), используемая для фильтрации и ранжирования результатов.

Изображения генерировались в разрешении 256×256 пикселей.

DALL-E 2 (2022)

[править]

Анонсирована в апреле 2022 года, бета-версия открыта в июле, общедоступна с сентября 2022 года. Модель использует 3,5 миллиарда параметров - меньше, чем предшественник. Вместо авторегрессионного трансформера DALL-E 2 применяет диффузионную модель, работающую с эмбеддингами CLIP. Та же архитектура позднее использовалась в Stable Diffusion.

Основные возможности:

  • генерация более реалистичных изображений с высоким разрешением;
  • создание «вариаций» существующего изображения;
  • редактирование изображений (inpainting и outpainning) - заполнение недостающих областей или расширение изображения за исходные границы с сохранением контекста.

DALL-E 3 (2023)

[править]

Выпущена в октябре 2023 года, интегрирована в ChatGPT для подписчиков ChatGPT Plus и ChatGPT Enterprise. Модель демонстрирует значительно лучшее понимание сложных и детализированных запросов, способна генерировать более связный и точный текст в составе изображений. Технические детали и архитектура не раскрывались.

Ограничения

[править]

Понимание языка

[править]

Модели могут путать порядок объектов («жёлтая книга и красная ваза» vs «красная книга и жёлтая ваза»), некорректно обрабатывать отрицания, числа и сложные предложения. Запросы с более чем тремя объектами часто приводят к ошибкам.

Генерация текста

[править]

Попытки сгенерировать осмысленный текст, включая японские иероглифы и амбиграммы, часто приводят к бессвязным результатам.

Научная информация

[править]

Модели ограниченно справляются с генерацией научной и медицинской информации.

Этические вопросы

[править]

Предвзятость

[править]

DALL-E 2 демонстрировал алгоритмическую предвзятость: например, генерировал больше мужчин, чем женщин, для запросов без указания пола. Фильтрация обучающих данных от насильственного и сексуального контента, по данным OpenAI, в некоторых случаях усиливала предвзятость.

В сентябре 2022 года подтверждено, что DALL-E невидимо добавляет в запросы пользователей такие фразы, как «чернокожий мужчина» и «азиатка», для борьбы с предвзятостью результатов.

Дипфейки и дезинформация

[править]

Существуют опасения использования модели для создания дипфейков и распространения дезинформации. Система отклоняет запросы с упоминанием публичных лиц и анализирует загружаемые изображения на наличие оскорбительного контента. Однако фильтрация на основе ключевых слов легко обходится с помощью синонимов.

Влияние на рынок труда

[править]

Точность и популярность моделей вызывают опасения, что они могут привести к технологической безработице среди художников, фотографов и графических дизайнеров.

Авторские права

[править]

DALL-E 3 блокирует генерацию изображений в стиле ныне живущих художников. Правовой статус изображений, созданных с помощью моделей, остаётся неопределённым.

Открытые реализации

[править]

Поскольку исходный код и веса моделей не были опубликованы, появились открытые альтернативы. Наиболее известная - Craiyon (первоначально DALL-E Mini), выпущенная на платформе Hugging Face в 2022 году и обученная на нефильтрованных данных из интернета.

Связанные термины

[править]