Середина пути (Midjourney) — как генерируются картинки в искусственном интеллекте

Опубликовал: Редакция Сайта в Журналистское объединение. Хай! Цафон 15.04.2023

Midjourney — одна из визуальных нейросетей, как DALL-E или Stable Diffusion.

DALL-E или Stable Diffusion интегрированы в опера последней версии вместе с CHAT GPT

И ChatSonic — где собственно и прописаны DALL-E или Stable Diffusion.

Но разговор сегодня об Midjourney.

Что делать?

Зарегистрироваться в сети Discord — discord-сервер в любом интернет браузере.
Можно установить приложение под компьютер discord.

Примечание. (Сгенерировано gpt4):

Discord стал популярной коммуникационной платформой с более чем 350 миллионами зарегистрированных пользователей и более 150 миллионов активных пользователей в месяц. Первоначально разработанный для предоставления голосового и текстового чата для геймеров, Discord с тех пор расширился до платформы для универсального общения и чата. Компания получила значительные инвестиции от крупных игроков, таких как Tencent и Benchmark Capital, и в 2018 году ее оценили в 2 миллиарда долларов. В ответ на пандемию COVID-19 Discord представила шаблоны серверов и изменила свой девиз на «Чат для сообществ и друзей». . Несмотря на слухи о том, что Microsoft покупает Discord за 10 миллиардов долларов, Discord решила остаться независимой.

Пройти на стартовую страницу Midjourney. Найти там кнопку Join the beta.
Сайт предложит зайти через Discord, согласиться.
Найти кнопку Midjourney (там яхта нарисована). При нажатии станут видны каналы для новичков (newcomer rooms).
Зайти в любой из них. Будет видно, как там уже сотни людей рисуют что-то свое.

Вы можете пригласить бота на свой сервер Discord и работать с ним один на один, без скроллинга бесконечной ленты из работ других пользователей. (Ваши работы все равно будут отображаться в общем чате и на сайте)

Набрать основную команду /imagine что в чате общем, что в чате личном.
Выйдет сообщение что надо оплатить . Выбрать нужный план и оплатить.

DALL-E или Stable Diffusion пока бесплатны в упрощенном режиме.

Есть три подписки на Midjourney — за 10, 30 и 60 долларов ежемесячно. Пакеты отличаются количеством серверного времени, доступного клиентам (и соответственно, количеством изображений, которые можно сгенерировать), наличием персональной поддержки и т.д. Оплата помесячно и погодно. Погодно дешевле на 20 процентов.

Итак команда /imagine

Набрать основную команду /imagine («вообрази»): после нее появляется поле «prompt» («промт»), где и следует вбивать текс- описание изображения, которую надо сгенерировать.

Лучше всего писать запросы на английском языке, на котором и обучалась нейросеть.

/imagine

ИИ выдаст по заказу изображение через промежуток времени. Midjourney Bot генерирует четыре варианта примерно за минуту.

Изображение появляется в чате которое вечно двигается. Т.к. чат исспользуется одновременно многими пользователями. Чатов много. И для новичков и для продвинутых, можно выбрать любой и «ваять» «исскуство».

Israel Independence Day — @arthurklein (Waiting to start)

Например у меня он решил что так выглядит день независимости Израиля. Причем на 4 картинке получился глупый флаг неизвестной страны.

На каждый запрос нейросеть предлагает четыре варианта изображения, каждый размером 512 × 512 пикселей (если нет дополнительных параметров):

Можно изменить то что получилось или можно по новому описать что хотим используя

выражения английского языка
команды искусственного интеллекта

Выражения английского языка могут быть произвольные а можно воспользоваться уже отработанными и понятными ИИ выражениями.

Как написано в руководстве:

Подсказки могут быть очень простыми. Отдельные слова (или даже смайлики!) создадут изображение. Очень короткие подсказки будут в значительной степени зависеть от стиля Midjourney по умолчанию, поэтому более описательные подсказки лучше подходят для уникального вида. Однако сверхдлинные подсказки не всегда лучше. Сконцентрируйтесь на основных концепциях, которые вы хотите создать.

Начнем с простых фраз для уточнения:

Получился полный кошмар — всегда из 4 картинок:

Этим и определяется основная проблема взаимодействия с искусственным интеллектом — объяснить как можно детальнее что мы желаем получить.

Уберем стиль мультфильма, поставим стиль, ну например, может он знает художника Шагала?

Результат более впечатлил, но дурдом все еще остался

Можно задать ему ту же команду и получить другой результат. Это и является отличительной частью искусственного интеллекта — постоянная случайная компиляция нового изображения как будто его рисовал человек.

Но вот уже получше второй снимок например. Конечно непонятно что там на земле взорвалось 🙂 и почему у мужчины не кипа а турецкая тюбетейка.

А третья и четвертая — ужас … Тадж махал или падение на развалины …. жестко.

Теперь три варианта —

сделать понравившейся вариант в хорошем разрешении ( примерно 1500 точек)

улучшать полученный один из вариантов и делать из него вариации

продолжать улучшать описание для картинки, которое хотим получить

Итак первый вариант.

Буквой U здесь обозначена команда upscale («апскейл» — «увеличить масштаб»), V — variations («вериэйшнс» — «вариации»), цифра указывает на одну из четырех сгенерированных картинок. Круговые стрелки — это команда «повторить генерацию» по тому же промту. Все эти команды можно применять и к чужим картинкам, которые появляются в ленте команд.

И тут опять выбор — просто скачать

ПРАВОЙ КНОПКОЙ

ЧЕРЕЗ WEB.

КнопкаWEB открывает веб-сайт является галереей с работами других пользователей и вашими. Можно скачать ваши изображения.

И будут показаны работы похожей тематики

И опять выбор:

Еще улучшить — make variations.

И там же показаны

Сделать доп.переработку

light upscale redo — перерисовка в разрешении 1536 × 1536;
beta upscale redo — более серьезная переработка изображения с разрешением 2048 × 2048;

После нажатия make variations получилось только хуже.

light upscale redo

Появились две новые команды.

detailed upscale redo — то же разрешение, что в light upscale, но с дополнительной детализацией;
remaster — переработка изображения в фотореалистичном стиле.

Сделаю ремастер. При улучшении фото и вариациях можно отменить выбранное действие:

О боже мой ! Теперь мужчина держит женщину за грудь или вариант 🙂 — расчлененка, рука кого-то летит сзади влюбленной пары с европейскими чертами лица.

Откатим назад найдем что было вначале и попробуем улучшать полученный один из первых вариантов и делать из него вариации

Нажать кнопку от V1 до V4 -четыре дополнительных варианта, развивающих идею в избранном направлении.

Опыт подтвердил — вариации бывают хуже того что было изначально.

Еще , а может быть и главный вариант- улучшение описания что хотим получить.

Уже есть анекдот (ТЗ- техническое задание)

Именно совершенствование описания — ограничивает использование таких ИИ, и показывает что человек до сих если подходит творчески и профессионально к работе, то и получает реальный результат.

Midjourney Bot не понимает грамматики, структуры предложений или слов, как люди. Выбор слов также имеет значение. Более конкретные синонимы работают лучше во многих случаях. Вместо «большой» попробуйте «гигантский», «огромный» . Удаляйте слова, когда это возможно. Меньшее количество слов означает, что каждое слово имеет более сильное влияние. Используйте запятые, скобки и дефисы, чтобы упорядочить свои мысли. Midjourney Bot не учитывает заглавные буквы.

Используйте запятую, для мягкого разделения и: : для жесткого (обязательно отделяйте двоеточия пробелами).
Например: /imagine prompt: Dalaran, flying city: : clouds: : pink color: : —ar 16:9

Слова во множественном числе оставляют многое на волю случая. Попробуйте конкретные цифры. «Три кота» более конкретно, чем «кошки». Собирательные существительные также работают, «стая птиц» вместо «птицы».

В официальном руководстве Midjourney предлагается список уточнений, которые помогут создать хороший промт, в их числе:

медиум: фото, картина, иллюстрация, скульптура, скетч (photo, painting, illustration, sculpture, doodle);
среда: внутри, снаружи, на Луне, в Нарнии, под водой, в Изумрудном городе (indoors, outdoors, on the moon, in Narnia, underwater, the Emerald City);
цвет: яркий, приглушенный, монохром, красочный, черно-белый, пастельный (vibrant, muted, bright, monochromatic, colorful, black and white, pastel);
настроение: уравновешенное, спокойное, грубое, энергичное (sedate, calm, raucous, energetic);
композиция: портрет, хедшот, крупный план, взгляд с высоты птичьего полета (portrait, headshot, closeup, birds-eye view).

Всевозможные эффекты:

ultra realistic
cartoon style
pinups style
cyberpunk style
schematic diagram
soviet posters style
video game style
manga style
oil painting
modern graphic style
photo realistic
oiled skin.

Перечисленное — для старта, число стилей безгранично. Можно баловаться и с конкретными художниками.

Salvador Dalí style
Hieronymus Bosch style
Andy Warhol style
Rembrandt style

Или задание стиля который доминировал ( с точки зрения разработчиков) в тот или иной исторический период.

Например попросил кабана в городе в стиле манга.

Можно добавить в задание даже более тонкие нюансы — вроде имитации определенной фотопленки или игрового движка. Ну например я попросил оружие в стиле GTA игры.

Примечание. Русскоязычные промты Midjourney понимает не очень хорошо. Результаты конечно же будут расплывчатые, но зато непредсказуемые.

Вот пример сложного запроса, в результате — красиво.

В конце описания видны команды — вторая часть улучшения описания. Команды или суффиксы или параметры позволяют выбрать доп. опции детализации.

Кроме этого видно из синтаксиса что можно загрузить свое фото и обработать с учетом описания и параметров. Картинки можно подать в виде прямой ссылки (http://haifainfo.com/wp-content/uploads/2023/04/draw_broken.png) и приписать, что с ней делать. Или, как вариант, нажать рядом со строкой «+» и загрузить изображение с ПК.

Есть режимы работы ИИ.

В чате с ботом написать /settings

Версия бота. Чем выше тем лучше, но для творчества иногда нужно и показать что то «корявое» или абстрактное и это иного делает лучше более «криворукая» старая версия ИИ.

Версия 5 лучше версии четвертой, но она еще не отлажена, но доступна для использования. При этом на строке командной будет дописываться доп команда. Например по умолчанию вот такая картинка:

а исправил на 5 версию будет так — добавиться суффикс — т.е. команда: —v 5

или несколько:

В настройках можно изменить:

quality — качество изображений —q 0.5 —q 1 —q 2 ( от «половинчатого» качества до «двойного» (т.е улучшенного) качества

style -чем он выше, тем более «художественными» выходят картинки и тем дальше удаляются от заданного описания задания ИИ. —s 250 (style high)

Есть функции, которые влияют на время ожидания результата. По умолчанию используется fast mode (в среднем до минуты),

relax mode позволяет не исчерпывать лимит операций — но придется дольше ждать. Только при оплате более продвинутого плана. Т.е. команда будет выполнена когда нагрузка на ИИ от запросов уменьшается, но поэтому не будет использован лимит ограничивающий количество сгенерированных картинок.

tealth mode («стелс-режим») скрывает ваши работы, если вы не хотите, чтобы они были видны в галерее на сайте Midjourney

remix mode (режим «ремикса») позволяет делать изображения полученные от разных версий ИИ (от 1 до 4), которые выдаст нейросеть.

Три разновидности нейросети:

Niji ( версии 4 и 5) С версией Niji (от японского слова со значением «радуга») получаются картинки в стиле аниме. У модели --nijiгораздо больше знаний об аниме, стилях аниме и эстетике аниме. Niji поддерживает мульти-подсказки или подсказки-изображения.

MJ Test — изображения получаются более «творческими» и разнообразными. —test

MJ Test Photo — конечный результат ближе к фотографии —testp

Эти режимы отменяют выбор версии ИИ.

Суффиксы можно ставить в командную строку при задании генерации изображения, а не в настройках. Команды:

—chaos: если поставить этот параметр на максимум («—chaos 100»), нейросеть уйдет далеко в сторону от вашего промта, если на минимум («—chaos 0») — выдаст изображение, максимально соответствующее запросу;
—ar изменяет соотношение сторон (например, —ar 4:3)

—video можно сохранить видео того, как происходила генерация вашего изображения;
—tile создает мозаику, узор или орнамент из повторяющихся элементов (не работает с четвертой версией Midjourney);
—no: указывает, каких объектов не должно быть на картинке (например, —-no elephants, то есть «без слонов»);
—stop: позволяет остановить генерацию на полпути (после параметра нужно указать число от 10 до 100 — проценты выполнения задания), получив странные размытые изображения
—hd — Использует другой алгоритм, который лучше всего подходит для абстрактных и пейзажных запросов. Он также генерирует изображения с более высоким разрешением без необходимости масштабирования.
—uplight — Использует «легкий апскейл» при выборе кнопок U. Результаты становятся ближе к исходному изображению с меньшим количеством деталей, добавляемых во время масштабирования. Идеально подходит для лица и гладких поверхностей.
::<число> — Вы можете добавить суффикс от -1 до 2 к любой подсказке (без пробелов) , чтобы присвоить этой части вес, то есть важность той или иной подсказки перед другими. По умолчанию он равен 1. А значение -0,5 равно команде —no. Например, «/imagine prompt: hot dog::1.5 food::-1» попытается создать «горячую собаку» буквально, не еду.
Добавьте один или несколько URL-адресов изображений перед основным текстом, и он будет использовать эти изображения в качестве визуального вдохновения. Параметр —iw <число> устанавливает вес подсказки изображения относительно веса текста. Значение по умолчанию —iw 0.25.Например:/imagine prompt: http://myimage. jpg A forest spirit at night —iw 0.2
—q <число> — «качество» изображения в плане генерации — тот же параметр есть в опциях (см. ниже)
—seed — Устанавливает начальное значение, которое может помочь сохранить стабильность и воспроизводимость при повторной попытке создать нечто подобное. Это должно быть число между 0 и 4294967295. Если он не используется, вместо него будет выбрано случайное начальное число. Вы можете реагировать конвертом ✉ к сообщению задания, чтобы узнать, какое начальное значение было использовано.
—sameseed — Делает так, что бы начальное число одинаково влияло на все изображения результирующей сетки. Если он не используется, каждое изображение в сетке будет использовать разные «сиды», обеспечивая большее разнообразие.
—s <число> — Аргумент стилизации устанавливает, насколько сильна стилизация ваших изображений, чем выше вы установите его, тем более стилизованным оно будет. Значение по умолчанию — 2500. Примерный диапазон от 625 до 20000.

Пользовательские параметры с помощью команд Preference, чтобы автоматически добавлять часто используемые параметры в конец подсказок.
/prefer auto_dm Выполненные задания автоматически отправляются в Direct Message.
/prefer option Создайте или управляйте пользовательским параметром.
/prefer option list Просмотр текущих пользовательских параметров, может иметь до 20 пользовательских параметров.

Можно задать добавляемые по умолчанию параметры к каждому заданию

/prefer suffix автоматически добавляет указанный суффикс после всех подсказок.

Пример команды:/prefer suffix--uplight --video

В этом кошмаре можно и затеряться. Поэтому появились сайты промт состовляльщики.

https://promptomania.com/

https://midjourney-prompt-helper.netlify.app/

https://prompt.noonshot.com/midjourney

Есть сайти описывающие стили — они как правило огромны и объемны например:

https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference?ref=dtf.ru

Есть готовые промты чтобы поэкспериментировать с ними — площадка открытая, все что делают люди можно брать, картинки не обладают эксклюзивом его запросившего.

Есть отдельный чат для обсуждения промтов и канал, предлагающий ежедневную тему (daily-theme), с которой можно экспериментировать.

Во-вторых, за последний год появилось большое количество интернет-ресурсов, которые советуют хорошие промты. Например, сайт Creative Indie предлагает список из сотен вариантов, а также перечни известных художников, фотографов и аниме-стилей, которые можно указать в текстовом описании. Уже существуют платные поисковики по промтам Midjourney и маркетплейсы с предложениями о продаже самых удачных вариантов.

/blend — смешение до 4 картинок в одну на усмотрение ИИ.

второй после imagine командой, определяющей лицо Midjourney является blend

Плюс программы — просто загрузить картинки и посмотреть результат( без параметров — кроме соотношения сторон) и это и минус — что он выдаст — неизвестно.

Соотношение сторон смешанных изображений по умолчанию составляет 1:1 , но вы можете использовать дополнительное dimensionsполе, чтобы выбрать квадратное соотношение сторон (1:1), портретное соотношение сторон (2:3) или альбомное соотношение сторон (3:2).

Пользовательские суффиксы добавляются в конец /blendподсказок, как и любые другие /imagineподсказки. Соотношения сторон, указанные как часть команды, /blendпереопределяют соотношения сторон в пользовательском суффиксе.

Вот например выбрав две фото одной женщины, под разным ракурсом получено узнаваемая для небольшого города Хайфа не всеми любимый мэр города:

Или выбрав две фото — политика и одного из мультперсонажей получился шарж:

или вот так:

А вот здесь смешаны два лица:

Коррекция результата — только кнопками U или V, без параметров.

Отличие версий 4 и 5.

Изображения, сгенерированные пятой версией Midjourney, стали более реалистичными и детализированными. Если автор грамотно воспользовался нейросетью, картинки почти невозможно отличить от реальных фотографий.

Основная проблема всех версий — глаза и руки.

Другие функции ИИ.

/describe: она как раз выдает текстовые описания ваших изображений.

После загрузки картинки на Discord нейросеть предложит четыре варианта описания. Они будут выглядеть как стандартные промты: помимо перечисления объектов в кадре, алгоритм укажет формальные и стилистические характеристики (например, преобладающие цвета, настройки камеры и соотношение сторон).

Функция, описывающая изображения, сильно облегчает людям с нарушениями зрения работу в интернете.

оранжевая свинья с океаном и горами, в стиле фотореалистического сюрреализма, александр дейнека, бакалейное искусство, джон вильгельм, причудливо-игровые сцены, денежная тематика, арте повера

— свинья стоит в воде в окружении апельсинов, в стиле сюрреалистичных сказочных сцен, фотореалистичные, бытовые предметы, гиперреалистичные фрески, сюрреалистичные, стоковые фото, гигантские денежные скульптуры

— свинья в оранжевом воздушном шаре николас коржевский, в стиле сюрреалистических морских пейзажей, денежная тематика, джон вильгельм, бакалейное искусство, ferrania p30, paul barson, сыпучий сюрреализм

— оранжевая свинья, сидящая на воде, в стиле сюрреалистических натюрмортов, фотореалистичных пейзажей, анемоякора, карикатурных иллюстраций, гигантских денежных скульптур, сюрреалистических: сказочных образов, морских сцен

картина двух человек, мужчина летит над домом, в стиле венского сецессиона, динамичная поза, вырезано и вставлено, нежный лиризм, изумруд, соцреализм, нежные выражения —ар 112:53 мужчина и женщина летят в сторону города, в стиле марк шагала, анка журавлева, эмоциональные жесты, воля барнет, прыжки, серебристый и зеленый, сельский кор —ар 112:53 картина двух человек в городе, в стиле прыжков, серебро и изумруд, соцреализм, преувеличенные позы, высокий ракурс, загадочный автоматизм, изящные позы —ар 112:53 художник с двумя женщинами в разных нарядах перед домом, в стиле марк шагала, прыжки, зеленый и серый, бросающие вызов гравитации пейзажи, анимированные иллюстрации, ромэн ручейки, серж маршенников —ar 112:53

А GPT4 на этот текст свое философское резюме выдал (ужас :))

/info функция показа — сколько потрачено ресурсов и сколько осталось

Ваша информация — arthurklein#9665 Подписка: Базовая (Активен ежемесячно, следующее обновление 8 мая 2023 г., 23:01) Режим работы: быстрый Режим видимости: общедоступный Оставшееся быстрое время: 114,99/200,0 минут (57,49%) Срок службы: 155 изображений (2,56 часа) Непринужденное использование: 0 изображений (0,00 часов) Задания в очереди (быстро): 0 Задания в очереди (отдых): 0 Запуск Вакансий: Нет

Ограничения по текстовому описанию

Они разнообразны и широки — секс, ругательства, расчлененка ( запрет на рисование органов) . Список не озвучен, но все время пополняется. Есть энтузиасты они все фиксируют:

The Complete List of Banned Words In Midjourney (Updated)

За неприличные слова могут и забанить.

Есть и политическая цензура. Вот цитата из статьи https://habr.com/ru/news/727750/:

Кроме того, Midjourney запретила генерацию изображений президента Китая Си Цзиньпина. Любая попытка создать такое изображение или даже упомянуть имя президента в промте блокировалась. Многие пользователи всё же смогли найти обходной путь. Так, в /imagine можно указать полный URL-адрес существующей фотографии Си Цзиньпина, либо можно использовать команду /blend для смешивания двух фотографий.

Журналист-расследователь Элиот Хиггинс между тем рассказал, что его заблокировали в Midjourney после серии картинок, показывающих арест Дональда Трампа в Нью-Йорке. Они стали вирусными в соцсетях.

Сам Хольц ещё осенью сообщил, что его компания получила жалобы от пользователей на «различные темы в разных странах» и в итоге заблокировала многочисленные связанные с ними слова. Однако, согласно журналам чатов, изученным The Washington Post, Хольц воздержался от перечисления запрещённых терминов. Он лишь упомянул, что они связаны не только с Китаем. Однако основатель компании признал, что ситуация с Китаем стала особенно деликатным вопросом, поскольку политический юмор может подвергнуть местных пользователей риску.

Запрет Midjourney на научные слова, относящиеся к репродуктивной системе человека, раскрывает проблемы, связанные с предотвращением создания определенного контента на генераторах ИИ.

Создаваемая искусственным интеллектом порнография становится все более распространенной в Интернете.

В США в настоящее время нет федерального законодательства, защищающего от использования изображений людей без их согласия в дипфейковом порно или с какой-либо связанной с ними технологией искусственного интеллекта. Однако в прошлом году Великобритания объявила о планах ввести уголовную ответственность за распространение любого дипфейкового порно , сделанного без согласия субъекта.

Артур Клейн

Редакция Сайта

Статья размещена с помощью волонтёра сайта. Волонтер сайта не несет ответственность за мнения изложенные в статье. Статья написана не волонтером.

Артур Клейн

arthurhaifa@gmail.com

ХАЙФАИНФО Новости Израиля из Хайфы

Середина пути (Midjourney) — как генерируются картинки в искусственном интеллекте

Midjourney — одна из визуальных нейросетей, как DALL-E или Stable Diffusion.

Смотрите статьи:

О Редакция Сайта