OpenAI представила новый ИИ для создания изображений.

OpenAI-New-Image-Generation-AI

OpenAI снова взяла курс на улучшение генеративного ИИ, и на этот раз речь идет о создании изображений. Их новая система генерации – 4o Image Generation – уже встроена в ChatGPT и обещает стать настоящим прорывом. Я внимательно изучил все заявленные возможности и расскажу, насколько это действительно революционно.

Как работает генерация

Мы привыкли, что большинство моделей создают изображения сразу в целом формате, уточняя детали по ходу процесса. Однако 4o Image Generation идет совершенно другим путем – OpenAI выбрала метод генерации по последовательному построению: слева направо и сверху вниз. Это очень похоже на то, как рисовал бы человек, аккуратно добавляя детали.

Если раньше нейросети часто делали ошибки в расположении объектов друг относительно друга, здесь такой проблемы становится меньше. Например, если попросить изобразить шахматную доску с фигурами, можно ожидать, что модель не ошибется в количестве клеток или расположении фигур. Это большой шаг вперед – раньше подобные сцены могли превращаться в хаос.

Чем 4o лучше прошлых версий

Иногда изменения в технологиях не так очевидны, но в случае с 4o Image Generation улучшения бросаются в глаза. Во-первых, модель лучше воспринимает контекст запроса, включая сложные инструкции. Это значит, что если ты попросишь нарисовать, например, слона в очках, сидящего за столом с чашкой чая, высока вероятность, что ИИ сделает все именно так.

Еще один важный момент – модель теперь гораздо лучше справляется с текстом на изображениях. Кто сталкивался с нейросетевыми генерациями раньше, знает, что надписи обычно превращались в нечитаемый набор символов. Здесь же OpenAI обещает заметное улучшение: текст становится не просто узнаваемым, но и осмысленным.

Работа с множеством объектов

Генерация сложных сцен – это всегда было камнем преткновения. Большинство моделей хорошо справлялись с одной-двумя визуальными сущностями, но когда речь заходила о множестве объектов, то часто возникала проблема несоответствия размеров, количества или взаимодействия между ними.

4o Image Generation заявляет, что способна корректно отображать около 15–20 объектов в сцене. Это значит, что группы людей, натюрморты с множеством предметов или сложные архитектурные сцены теперь можно рисовать без страха получить что-то нелепое. Конечно, это не значит, что трансформация идеальна – но прогресс очевиден.

Кто получит доступ

Одним из приятных сюрпризов стало то, что OpenAI открывает доступ к новой генерации даже для бесплатных пользователей. Обычно новые функции сначала появляются у подписчиков, а затем постепенно распространяются на всех остальных, но здесь подход оказался другим. Однако если ты на платном тарифе, то тебе дадут в пять раз больше возможностей использовать эту генерацию.

Небольшим компромиссом стало время генерации – по сравнению с предыдущими моделями 4o работает заметно дольше. OpenAI объясняет это тем, что улучшенное качество требует больших вычислительных мощностей, а значит, приходится ждать чуть дольше. Насколько это критично – вопрос субъективный, но если результат стоит того, то, возможно, это небольшая плата за качество.

4o-Image-Generation-OpenAI

Редактирование изображений

Еще одна крутая возможность, которая добавляет 4o Image Generation очков, – это редактирование загруженных изображений. Тут OpenAI действительно впечатлила. Представь, ты сделал фото, но тебе не нравится фон или хочется поменять цвет одежды – теперь это можно сделать прямо в ChatGPT.

Я попробовал загрузить картинку и попросил заменить небо на закатное. Через несколько секунд нейросеть представила вариант, где закат выглядел вполне реалистично. Конечно, при внимательном рассмотрении можно заметить, что результат все еще машинный, но для быстрых правок – просто находка.

Кроме замены элементов, можно и добавлять новые. Например, если у тебя на фото пустой стол, можно попросить добавить туда чашку кофе, и 4o это сделает. Единственное ограничение – все действия проходят под строгим контролем, так что, например, подделать официальные документы или создать дипфейк ИИ не даст.

Скорость vs. качество

Одним из ключевых моментов новой генерации стало время обработки. Тут у OpenAI явно стояла дилемма: делать быстрее, но с посредственным качеством, или замедлить процесс ради идеальной картинки. Судя по всему, они выбрали второе.

Генерация теперь занимает немного больше времени, особенно если сцена сложная. Например, изображение с одним объектом может появиться быстрее, чем детализированная композиция с множеством элементов. Это не критично, но если спешишь, то иногда может показаться, что предыдущие версии работали оперативнее.

Зато качество – выше всяких похвал. Те, кто пользовался прошлым генератором OpenAI, помнят, что текст на изображениях часто выглядел странно. Теперь же шрифты настоящие, слова читаемы, а надписи выглядят органично. Это сильно улучшает восприятие.

Границы возможного

Несмотря на все улучшения, 4o Image Generation не стала волшебной палочкой, которая решает абсолютно все задачи. Есть ограничения, которые пока что остаются.

  • Детализация лиц: Генерация портретов – один из сложнейших моментов для ИИ. Иногда мелкие детали могут выглядеть несовершенно, особенно если запрос очень специфический.
  • Переплетенные элементы: Когда объекты сильно взаимодействуют, модель все еще может делать ошибки. Например, если персонаж держит в руке необычный предмет, система иногда с этим не справляется.
  • Сверхреализм: Хотя качество возросло, настоящие фотографии нейросеть пока не заменяет. Визуально видно, что изображение создано ИИ.

Впрочем, прогресс очевиден. Только пару лет назад нейросети путались даже в базовых вещах – теперь же они могут понимать сложные запросы и рисовать очень реалистично.

Будущее генерации

С каждым обновлением OpenAI наращивает качество генераций, и 4o Image Generation – еще один шаг вперед. Сейчас функция уже доступна большинству пользователей, а со временем можно ожидать, что технология полностью изменит способы создания контента.

Что интересно, OpenAI также активно работает над механизмами защиты. Например, контент со скрытыми водяными знаками удалить не получится. Это часть их политики безопасности, которая нацелена на предотвращение злоупотреблений.

Если судить по текущим результатам, то уже скоро можно ждать еще более реалистичных изображений, мгновенной генерации и, возможно, расширенных инструментов редактирования. Остается только наблюдать за развитием!

Подробнее о GPT-4o можно почитать на Википедии.

Future-Image-Generation-2

Не пропускайте обновления

Подпишитесь на рассылку


Успешно отправлен