Такие нейросети как Midjourney, Dall-E, Stable Diffusion и пр. генерируют картинки по текстовому описанию хорошо, тут спору нет. Но у них есть несколько недостатков: они не понимают запросов на русском языке и некоторыми из них можно пользоваться только по подписке. Ну что ж – найти им достойную замену оказалось несложно.
Kandinsky – отечественная нейросеть генерации изображений, созданная разработчиками Сбера. Не спешите по привычке судить о том, что всё отечественное низкого качества. Как мы успели убедиться на примере Шедеврум от Яндекс, данное правило работает не всегда.
К моменту написания данной статьи я успел протестировать многие иностранные аналоги, но после ознакомления с Кандински, честно говоря, был очень приятно удивлен возможностями данной нейросети. Теперь преимущественно пользуюсь только ей.
В первых числах апреля была запущена Kandinsky 2.1 – обновленная улучшенная нейросеть для создания изображений. Не буду упоминать технические подробности о том, на базе какого количества исходных данных производилось обучение алгоритма, что заложено в его основе и пр. Рядового пользователя это всё не волнует – ему важно получить качественные иллюстрации на базе текста. Ну а как это всё работает, и насколько хорошо Кандински справляется с возложенной на него миссией, рассмотрим прямо сейчас!
Что умеет Kandinsky 2.1
У отечественной нейросети есть несколько режимов генерации изображений:
- По текстовому описанию, которое вводится в специальное окошко. Нейросеть понимает более 100 языков, в число которых, как я уже упоминал, входит и русский.
- Создание вариаций. Загружаете картинку, изменяете стилистику и получаете совершенно уникальные вариации на базе исходного изображения.
- Смешение нескольких изображений в одно.
- Дополнение картинки. Выделяете область на изображении и нейросеть дорисовывает в ней новые детали.
Нейросеть Кандински – официальные ресурсы
В настоящее время существует сразу несколько способов воспользоваться нейросетью:
- Сайт Fusion Brain – онлайн версия нейросети. Никаких регистраций, авторизаций и пр. не требуется – просто заходите и начинаете творить.
- Сайт ruDALL-E – альтернативный ресурс. Принцип тот же, но интерфейс немножко отличается.
- Телеграм бот Kandinsky 2.1 — имеет дополнительный режим генерации: смешивание картинки и текста.
Оба варианта полностью бесплатны, по крайне мере на момент написания статьи. Однако никто не гарантирует, что со временем Kandinsky, как и Midjourney, в один прекрасный день не введет платный тарифный план.
Ну и по скорости работы: генерация изображений на сайте занимает в среднем несколько минут, зависит от размера очереди, которая бывает весьма внушительна. В Телеграм-боте всё гораздо быстрее – там время генерации может занять и меньше одной минуты. Но в Телеграме нельзя использовать режим дополнения картинки.
Как создавать картинки в Kandinsky 2.1
Для начала разберем как это происходит на сайте FusionBrain. По центру экрана находится область генерации. Её размеры составляют 768х768px. Больше сделать нельзя, меньше можно. Под областью генерации находится окно ввода текстового запроса.
Алгоритм работы такой:
- Написать текстовое описание того изображения, которое вы хотите получить
- Выбрать стиль в левой части экрана: детальное фото, киберпанк, классицизм, 3D рендер и пр. – всего 24 стиля. От выбора стиля будет сильно зависеть итоговая картинка. Если не знаете какой стиль выбрать – оставьте опцию «Без стиля».
- Нажать кнопку «Создать»
- Дождаться генерации картинки
- Полученное изображение можно скачать при помощи кнопки в правом углу экрана.
Неплохой туториал о том, как пользоваться нейросетью на сайте FusionBrain:
С Телеграм-ботом работать еще проще:
-
- Выбираете режим работы нейросети
- Пишете запрос либо загружаете картинки
- Получаете результат
- Сгенерированное изображение можно скачать через опцию «Сохранить как»
Также у Телеграм-бота Кандински есть так называемый «Профессиональный режим», который позволяет более тонко настроить модель под нужные запросы за счет назначения весов в режимах смешивания. Веса представляют из себя два дробных числа от 0 до 1, сумма которых равна 1. Чем больше вес элемента смешивания, тем сильнее он влияет на конечный результат. Чтобы активировать Профессиональный режим, надо нажать кнопку «Меню» и кликнуть на соответствующую опцию:
Как я уже писал, скорость генерации в телеграм выше, чем на сайте.
Примеры работ, созданных Кандински 2.1
Итог
Kandinsky 2.1 является достойной альтернативой популярным иностранным генераторам изображений типа Stable Diffusion, Midjourney и пр. Картинки, которые генерирует эта нейросеть, выглядят очень классно. Да, с её помощью нельзя создавать изображения в высоком разрешении, как в Midjourney, но ведь существуют и нейросети по улучшению картинок в низком качестве – можно пользоваться ими, чтобы получить высокое разрешение.
Несомненными плюсами Кандински 2.1 является возможность писать запросы на русском языке, бесплатность и достаточно быстрая скорость генерации относительно других сервисов. Наряду с Шедеврум, это весьма качественный отечественный продукт, за который не стыдно.