DALL-E
DALL-E - семейство нейросетей, разработанных компанией OpenAI, способных генерировать цифровые изображения по текстовым описаниям на естественном языке (промптам). Название является комбинацией имени робота WALL-E из мультфильма Pixar и фамилии испанского художника-сюрреалиста Сальвадора Дали.
В марте 2025 года в ChatGPT возможности DALL-E 3 были заменены на нативные функции генерации изображений GPT Image.
Версии
[править]DALL-E (2021)
[править]Первая версия была анонсирована в январе 2021 года. Модель использовала модифицированную версию GPT-3 с 12 миллиардами параметров для генерации изображений. DALL-E состояла из 3 компонентов:
- дискретный VAE (вариационный автоэнкодер), преобразующий изображение в последовательность токенов и обратно;
- авторегрессионная модель-трансформер, обрабатывающая последовательность токенизированного описания и токенизированных фрагментов изображения;
- пара моделей CLIP (кодировщик изображения и кодировщик текста), используемая для фильтрации и ранжирования результатов.
Изображения генерировались в разрешении 256×256 пикселей.
DALL-E 2 (2022)
[править]Анонсирована в апреле 2022 года, бета-версия открыта в июле, общедоступна с сентября 2022 года. Модель использует 3,5 миллиарда параметров - меньше, чем предшественник. Вместо авторегрессионного трансформера DALL-E 2 применяет диффузионную модель, работающую с эмбеддингами CLIP. Та же архитектура позднее использовалась в Stable Diffusion.
Основные возможности:
- генерация более реалистичных изображений с высоким разрешением;
- создание «вариаций» существующего изображения;
- редактирование изображений (inpainting и outpainning) - заполнение недостающих областей или расширение изображения за исходные границы с сохранением контекста.
DALL-E 3 (2023)
[править]Выпущена в октябре 2023 года, интегрирована в ChatGPT для подписчиков ChatGPT Plus и ChatGPT Enterprise. Модель демонстрирует значительно лучшее понимание сложных и детализированных запросов, способна генерировать более связный и точный текст в составе изображений. Технические детали и архитектура не раскрывались.
Ограничения
[править]Понимание языка
[править]Модели могут путать порядок объектов («жёлтая книга и красная ваза» vs «красная книга и жёлтая ваза»), некорректно обрабатывать отрицания, числа и сложные предложения. Запросы с более чем тремя объектами часто приводят к ошибкам.
Генерация текста
[править]Попытки сгенерировать осмысленный текст, включая японские иероглифы и амбиграммы, часто приводят к бессвязным результатам.
Научная информация
[править]Модели ограниченно справляются с генерацией научной и медицинской информации.
Этические вопросы
[править]Предвзятость
[править]DALL-E 2 демонстрировал алгоритмическую предвзятость: например, генерировал больше мужчин, чем женщин, для запросов без указания пола. Фильтрация обучающих данных от насильственного и сексуального контента, по данным OpenAI, в некоторых случаях усиливала предвзятость.
В сентябре 2022 года подтверждено, что DALL-E невидимо добавляет в запросы пользователей такие фразы, как «чернокожий мужчина» и «азиатка», для борьбы с предвзятостью результатов.
Дипфейки и дезинформация
[править]Существуют опасения использования модели для создания дипфейков и распространения дезинформации. Система отклоняет запросы с упоминанием публичных лиц и анализирует загружаемые изображения на наличие оскорбительного контента. Однако фильтрация на основе ключевых слов легко обходится с помощью синонимов.
Влияние на рынок труда
[править]Точность и популярность моделей вызывают опасения, что они могут привести к технологической безработице среди художников, фотографов и графических дизайнеров.
Авторские права
[править]DALL-E 3 блокирует генерацию изображений в стиле ныне живущих художников. Правовой статус изображений, созданных с помощью моделей, остаётся неопределённым.
Открытые реализации
[править]Поскольку исходный код и веса моделей не были опубликованы, появились открытые альтернативы. Наиболее известная - Craiyon (первоначально DALL-E Mini), выпущенная на платформе Hugging Face в 2022 году и обученная на нефильтрованных данных из интернета.
