Midjourney V5 появился на свет, и он действительно хорош

Генерации в любом соотношении сторон, правильные руки и многое другое.

Изображение автора через Midjourney

Это была богатая на события неделя для ИИ. Несколько дней назад мы увидели выпуск GPT-4, а сегодня Midjourney выпустил новую версию своего алгоритма. В настоящее время новый алгоритм версии 5 находится в состоянии альфа-тестирования, и он будет доработан и изменен для финальной версии. Но уже сейчас можно увидеть значительные улучшения по сравнению с предыдущими версиями.

Что изменилось?

Вот список изменений, которые мы рассмотрим сегодня

Улучшенное разрешение
Улучшенные изображения лиц и рук
Более мощная подсказка
Некоторые функции, недоступные в версии 4, вернулись

Улучшенное разрешение

С версией 5 нам больше не нужно ждать, чтобы масштабировать изображения. Все изображения в сетке 4×4 уже имеют максимальное разрешение и качество. И нажатие кнопки повышения уровня мгновенно показывает вам выбранный вами вариант.

Вот пример сетки 4×4 из v5:

Изображение автора через Midjourney

В предыдущих версиях начальные поколения предлагали превью более низкого качества, и масштабирование потенциально могло изменить изображение. Теперь вы можете сразу увидеть, как будет выглядеть окончательный вариант.

Улучшенные лица и руки

Генерация рук была проблемой для ИИ, по крайней мере, до сих пор. С Midjourney v5 вы увидите намного меньше неестественных рук, которые совсем не похожи на настоящие.

И лица тоже значительно улучшились, они выглядят намного более реалистично, чем в предыдущих версиях.

Сравним версию 5 с версией 4. Для начала посмотрим на лица. В обоих поколениях использовалась одна и та же подсказка.

Изображения V5 | V4

Хотя поколение V4 неплохое, V5 определенно одерживает победу. Это совершенно новое измерение реализма. Вы только посмотрите, как хорошо выглядит кожа. Возможно, вы могли бы получить лучший результат от версии 4, но это был просто быстрый пример, подтверждающий вашу точку зрения.

Теперь давайте посмотрим на руки.

Изображения V5 | V4

Здесь нетрудно определить победителя. Изображение, сгенерированное алгоритмом версии 4, больше похоже на что-то из кошмара, чем на руки. V5 не всегда правильно изображает руки. Но он намного лучше и последовательнее справляется с поставленной задачей и создает кошмарные руки в два раза реже, чем v4, при попытке создать изображения людей или других персонажей в полный рост.

Более мощная подсказка

В версии 5 Midjourney также имеет обработку естественного языка для этой версии. Ваши подсказки могли бы быть лучше, если бы они звучали как естественное предложение, а не просто случайные слова, смешанные вместе.

Давайте посмотрим на пример. (Подсказки в описании изображения)

Выдра, плавающая в открытом космосе | выдра, плавающий, открытый космос

Мы точнее описываем задачу, когда даем подсказку в виде предложения. В дополнение к этому, с v5 генерации более точны, и слова, которые вы используете в своих подсказках, имеют большее влияние на результат генерации.

Возвращение некоторые полезных функций

Вернулось несколько действительно полезных функций, которых не было в версии 4. Давайте их рассмотрим.

— Бесшовная плитка

С v5 вы снова можете создавать бесшовные плитки. Я объяснил эту функцию более подробно здесь. Но давайте посмотрим на некоторые примеры.

Изображения, созданные с помощью Midjourney с использованием функции — tile

Изображения, созданные с использованием этого метода, создают самоповторяющийся узор. Вы можете добиться подобных результатов, добавив — tile в конце подсказок. Вот как в этом примере:

Скриншот от автора

— Поддерживает больше соотношений сторон

В v4 можно было дойти только до 2:1.

Изображение с соотношением сторон 2:1 в Midjourney v5

Но v5 в настоящее время экспериментально поддерживает любое соотношение сторон.

Возможность генерировать изображения в любом соотношении сторон очень полезна для различных дизайнерских приложений. На самом деле это огромное улучшение.

— Поддержка —iw для использования графических подсказок по сравнению с текстовыми подсказками.

Это означает, что вы можете использовать подсказку в виде изображения вместе с текстовой подсказкой и сами определяете, насколько большое влияние вы хотите, чтобы изображение оказало.

Давайте поэкспериментируем.

Вес изображения по умолчанию равен 1, и в настоящее время принимаются значения от 0,5 до 2. Чтобы проверить это, мы будем использовать портрет женщины в сочетании с очень простой текстовой подсказкой — robot.