Google и OpenAI соревнуются лицом к лицу, чтобы предоставить лучшую модель генерации собственных изображений. После того, как Google представила собственную генерацию изображений в Gemini, OpenAI не терял времени и добавлена поддержка собственного вывода изображений для всех пользователей ChatGPT. Итак, чтобы выяснить, какая модель ИИ дает лучшие результаты, я сравнил собственную генерацию изображений в OpenAI ChatGPT и Google Gemini. Я протестировал модели на согласованность символов, рендеринг текста, соблюдение инструкций и многое другое в этом посте.
1. Превратите себя в персонажа аниме
Я начал сравнение генерации собственных изображений между ChatGPT и Gemini, попросив обе модели создать изображение в стиле аниме. Как вы можете видеть в результатах ниже, ChatGPT 4o превзошел все ожидания и сгенерировал изображение в классическом стиле Studio Ghibli за один заход. С другой стороны, я попробовал несколько подсказок на Gemini, но собственная модель генерации изображений вообще не смогла создать изображение в стиле аниме.
2. Сессия с доской
В следующем тесте я попросил ChatGPT и Gemini создать изображение, показывающее человек, объясняющий концепцию относительности. Благодаря более крупной модели ChatGPT 4o, ChatGPT создал отличное изображение с разборчивым рукописным текстом. Он даже запечатлел фотографа в отражении.
Однако меньшая модель Gemini 2.0 Flash изо всех сил пытался получить текст прямо на доске. Хотя Gemini успешно добавил «Beebom» на футболку мужчины, отражение фотографа не было запечатлено. Тем не менее, мужчина в выводе Gemini выглядит более аутентичным по сравнению с выводом ChatGPT.
3. Отображение текста в карточке меню
Это лучший пример, демонстрирующий разницу между ChatGPT и Gemini в генерации собственных изображений. ChatGPT разработал прекрасную карточку меню с идеальной текстовой визуализацией. Он пропустил последнее блюдо, но он довольно хорошо следовал моим инструкциям. Тем не менее, У Близнецов начинаются галлюцинации если вы вставляете в подсказку плотную информацию. В ней почти весь текст неправильный, со спутанными словами.
4. Создайте инфографику
После этого я попросил ChatGPT и Gemini создать инфографику объяснить концепцию гравитации, представив Ньютона в качестве персонажа. Само собой разумеется, что ChatGPT проделал великолепную работу, как с точки зрения дизайна, так и с точки зрения объяснения концепции понятным, читаемым текстом.
Результат настолько хорош, что встроенную функцию генерации изображений ChatGPT можно использовать для создавать комиксы, обучающие книги, наглядные руководства и многое другое.
С другой стороны, Gemini разочаровал своим результатом. Текст и визуальные эффекты не имеют никакого смысла. Стоит отметить, что Gemini 2.0 Flash генерирует изображение в течение 3-4 секунд, в то время как ChatGPT тратит больше минуты на создание одного изображения. ChatGPT использует большую модель 4o, которая использует большую вычислительную мощность, что приводит к гораздо более согласованному результату.
5. Изменение стиля изображений
Переходя к рестайлингу изображений, я загрузил изображение кактуса в саду и побудил обе модели добавить несколько красочных цветов. В ходе тестирования я обнаружил, что ChatGPT перебарщивает с каждым уточнением. Он полностью менял вид изображения после каждой модификации. Напротив, модель Gemini сохраняла согласованность на протяжении нескольких поколений.
Хотя ChatGPT 4o изначально является многомодальным (построен на авторегрессивной архитектуре), некоторые эксперты полагают, что функция генерации собственных изображений использует декодер на основе диффузии. Хотя он помогает точно отображать текст, он также регенерирует изображение на каждой итерации.
Так что это не является чисто авторегрессионной моделью как Gemini 2.0 Flash, отсюда и разница в выводе изображения после каждой модификации.
6. Смешивайте изображения вместе
Затем я загрузил два изображения и попросил ChatGPT и Gemini создать изображение женщины, держащей кружку. Обе модели показали впечатляющие результаты. На самом деле, Gemini был немного более креативным и также изменил позу. При этом OpenAI утверждает, что ChatGPT 4o может обрабатывать до 20 изображений в одном запросе и использует контекстное обучение для создания единого, унифицированного изображения.
7. Измените точку зрения
В следующем тесте я загрузил изображение коридора и попросил ChatGPT и Gemini изменить точку зрения. Обе модели выдали почти одинаковые результаты, но ChatGPT был ближе к исходному изображению. Gemini галлюцинировал и добавил дополнительную ножку к креслу. В целом, я отдаю этот раунд ChatGPT, поскольку он точнее отразил противоположный вид.
8. Настенные часы, показывающие время 6:30
Наконец, в последнем тесте и ChatGPT, и Gemini не смогли правильно отобразить указанное время (6:30) на настенных часах. Это повторяющаяся проблема в генерации изображений ИИ, поскольку модели имеют тенденцию по умолчанию 10:10 из-за предубеждений в обучающем наборе данных. Таким образом, даже при использовании собственной генерации изображений OpenAI и Google не смогли преодолеть это ограничение в следовании инструкциям.
Заключение: ChatGPT против генерации изображений Gemini Native
Проведя ряд тестов, я могу с уверенностью сказать, что Генерация собственных изображений ChatGPT в настоящее время более продвинута чем Gemini 2.0 Flash. Он работает на более крупной модели ChatGPT 4o, которая имеет более широкие мировые знания. Это приводит к более связным изображениям. Он идеально отображает текст и следует инструкциям с впечатляющей точностью.
В отличие от Google, экспериментальная модель Gemini 2.0 Flash меньше, что приводит к более высокой производительности. Однако он часто галлюцинирует при рендеринге плотного текста, и результаты получаются более низкого качества.
Что выделяет Gemini, так это то, что он сохраняет согласованность после каждого поколения, что является большим преимуществом. Нам следует дождаться поддержки собственного вывода изображений в недавно выпущенной модели Gemini 2.5 Pro, которая, как ожидается, обеспечит исключительную производительность в собственном создании изображений.