DALL-E

DALL-E - семейство нейросетей, разработанных компанией OpenAI, способных генерировать цифровые изображения по текстовым описаниям на естественном языке (промптам). Название является комбинацией имени робота WALL-E из мультфильма Pixar и фамилии испанского художника-сюрреалиста Сальвадора Дали.

В марте 2025 года в ChatGPT возможности DALL-E 3 были заменены на нативные функции генерации изображений GPT Image.

Версии

DALL-E (2021)

Первая версия была анонсирована в январе 2021 года. Модель использовала модифицированную версию GPT-3 с 12 миллиардами параметров для генерации изображений. DALL-E состояла из 3 компонентов:

дискретный VAE (вариационный автоэнкодер), преобразующий изображение в последовательность токенов и обратно;
авторегрессионная модель-трансформер, обрабатывающая последовательность токенизированного описания и токенизированных фрагментов изображения;
пара моделей CLIP (кодировщик изображения и кодировщик текста), используемая для фильтрации и ранжирования результатов.

Изображения генерировались в разрешении 256×256 пикселей.

DALL-E 2 (2022)

Анонсирована в апреле 2022 года, бета-версия открыта в июле, общедоступна с сентября 2022 года. Модель использует 3,5 миллиарда параметров - меньше, чем предшественник. Вместо авторегрессионного трансформера DALL-E 2 применяет диффузионную модель, работающую с эмбеддингами CLIP. Та же архитектура позднее использовалась в Stable Diffusion.

Основные возможности:

генерация более реалистичных изображений с высоким разрешением;
создание «вариаций» существующего изображения;
редактирование изображений (inpainting и outpainning) - заполнение недостающих областей или расширение изображения за исходные границы с сохранением контекста.

DALL-E 3 (2023)

Выпущена в октябре 2023 года, интегрирована в ChatGPT для подписчиков ChatGPT Plus и ChatGPT Enterprise. Модель демонстрирует значительно лучшее понимание сложных и детализированных запросов, способна генерировать более связный и точный текст в составе изображений. Технические детали и архитектура не раскрывались.

Ограничения

Понимание языка

Модели могут путать порядок объектов («жёлтая книга и красная ваза» vs «красная книга и жёлтая ваза»), некорректно обрабатывать отрицания, числа и сложные предложения. Запросы с более чем тремя объектами часто приводят к ошибкам.

Генерация текста

Попытки сгенерировать осмысленный текст, включая японские иероглифы и амбиграммы, часто приводят к бессвязным результатам.

Научная информация

Модели ограниченно справляются с генерацией научной и медицинской информации.

Этические вопросы

Предвзятость

DALL-E 2 демонстрировал алгоритмическую предвзятость: например, генерировал больше мужчин, чем женщин, для запросов без указания пола. Фильтрация обучающих данных от насильственного и сексуального контента, по данным OpenAI, в некоторых случаях усиливала предвзятость.

В сентябре 2022 года подтверждено, что DALL-E невидимо добавляет в запросы пользователей такие фразы, как «чернокожий мужчина» и «азиатка», для борьбы с предвзятостью результатов.

Дипфейки и дезинформация

Существуют опасения использования модели для создания дипфейков и распространения дезинформации. Система отклоняет запросы с упоминанием публичных лиц и анализирует загружаемые изображения на наличие оскорбительного контента. Однако фильтрация на основе ключевых слов легко обходится с помощью синонимов.

Влияние на рынок труда

Точность и популярность моделей вызывают опасения, что они могут привести к технологической безработице среди художников, фотографов и графических дизайнеров.

Авторские права

DALL-E 3 блокирует генерацию изображений в стиле ныне живущих художников. Правовой статус изображений, созданных с помощью моделей, остаётся неопределённым.

Открытые реализации

Поскольку исходный код и веса моделей не были опубликованы, появились открытые альтернативы. Наиболее известная - Craiyon (первоначально DALL-E Mini), выпущенная на платформе Hugging Face в 2022 году и обученная на нефильтрованных данных из интернета.

Связанные термины

Аноним

Поиск

DALL-E

Пространства имён

Ещё

Действия на странице

Содержание

Версии

DALL-E (2021)

DALL-E 2 (2022)

DALL-E 3 (2023)

Ограничения

Понимание языка

Генерация текста

Научная информация

Этические вопросы

Предвзятость

Дипфейки и дезинформация

Влияние на рынок труда

Авторские права

Открытые реализации

Связанные термины

⧼⧽

🌐 MarketWiki

📈 Маркетинг

🧠 Знания

📚 Гайды и руководства

⭐ Популярное

💬 Контакты

✍️ Об авторе

Аноним

Поиск

DALL-E

Версии

DALL-E (2021)

DALL-E 2 (2022)

DALL-E 3 (2023)

Ограничения

Понимание языка

Генерация текста

Научная информация

Этические вопросы

Предвзятость

Дипфейки и дезинформация

Влияние на рынок труда

Авторские права

Открытые реализации

Связанные термины

⧼⧽

Инструменты для страниц

Категории