Эссе

Нейромельес

Одна из важнейших спецпрограмм «Послания к человеку» этого года,  «Киберглаз», посвящена взаимодействию искусственного интеллекта и кинематографа. Публикуем написанный для нового номера «Сеанса» текст Алексея Михайлова о том, как нейросети меняют кино уже прямо сейчас.

Ошибка

СЕАНС - 87 СЕАНС – 87

Изображения, сделанные нейросетью, оказались похожими друг на друга. Например, «самые красивые города мира после ядерного взрыва»: Лондон, Париж, Стамбул… На каждой «фотографии» показаны руины по бокам улицы и — чаще всего в центре — не тронутая разрушением главная достопримечательность. Тауэрский мост, Эйфелева башня, собор Святой Софии. Так работает нейросеть, создавая узнаваемый образ города: фотографий Парижа с Эйфелевой башней в интернете гораздо больше, чем без.

Сгенерированное нейросетью «Шедеврум» изображение по запросу: «Конец света»

Такая генеративно-состязательная нейросеть (Generative Adversarial Network — GAN) состоит из двух частей: генератора, который создает изображения, и дискриминатора, который оценивает их. Обе части являются нейросетями и обучают друг друга. Генератор стремится создавать правдоподобные данные, в то время как дискриминатор — отличать фальшивые данные от реальных. Дискриминатор сравнивает изображения с реальными фотографиями и, обнаружив фальшивые, «наказывает» генератор, снижая коэффициенты (веса) нейронов, которые участвовали в их создании. Игра продолжается до тех пор, пока генератор не научится обманывать дискриминатор.

Не формы, а обрывки форм. Заново созданные руины памяти

Если признаки реальных изображений выделены не все или выделены неверно, если они пересекаются, если их слишком много и компьютеры не справляются с их количеством, если вообще невозможно выделить правильные признаки в датасете — нейросеть будет ошибаться. Мы увидим ошибку в изображении лица человека, рук, текста, потому что нам есть с чем сравнить. У нас есть образец. У нас есть понимание целостности этой формы. Нейросеть не может обмануть нас при генерации лица или рук. Но может обмануть при генерации разрушений. В руинах нет целостности. Нейросеть нецелостно отображает нецелостность, и поэтому может показаться, что руины удаются ей лучше всего.

После разделения промпт-запроса на токены (слоги, окончания, приставки) нейросеть анализирует параметры фотографий Парижа, обнаруживает, что в большинстве присутствует Эйфелева башня, опознает город по этому признаку, добавляет Эйфелеву башню к руинам и возвращает изображение разрушенного Парижа. Изображения, на которых она обучается, векторизуются в числа и «архивируются» в ее «скрытом пространстве» (Latent Space). Если в нашей человеческой системе пространственных координат три измерения, то, например, в Midjourney-5 их около пятисот. Архивация в скрытом пространстве похожа на компрессию файла JPEG, где информация сохраняется с потерями. В этом многомерном пространстве хранится разъятая и перекодированная информация о пяти миллиардах изображений. Близкие параметры изображений находятся рядом друг с другом. Например, туман может расположиться рядом с дымом, а серый цвет дыма — рядом с серым цветом сухого дерева.

Сгенерированное нейросетью «Шедеврум» изображение по запросу: «Фильм Андрея Тарковского»

Работа с памятью

Лев Манович, автор книг по теории цифровой культуры и новых медиа, профессор компьютерных наук, в одном из интервью предложил сгенерировать фотографии оставшегося в прошлом советского быта. В 1970-х личные фотоаппараты были не так распространены, как сейчас, и в датасете, который нейросети используют для обучения, недостает фотографий этого периода. Но при помощи людей, живших в то время и помнящих его, с помощью подбора промпт-запросов можно синтезировать такие фотографии и затем уже на них дообучить нейросеть. Заполнить неполноту памяти. Какова бы ни была этическая сторона вопроса, важен сам факт. Генерирующая реалистичные изображения нейросеть — это механизм работы с памятью. Механизм пересоздания памяти.

Возможность работать с нейросетью как с живым архивом памяти позволяет создавать проекты по генерации воспоминаний. Сэм Лоутон в фильме «Расширенное детство» (Expanded Childhood) расширяет пространства своих детских фотографий. Нейросеть дорисовывает его воспоминания своими, раздвигая рамку кадра (outpainting). Появляются новые вещи, новые люди, новые пространства. Подлинная фотография конкретна, но все, дорисованное нейросетью, детализировано и вместе с тем искажено, изломано, неточно и неполно. Не формы, а обрывки форм. Заново созданные руины памяти.

Всё превращается во всё — словно Мельес вновь запустил одну из своих любимых цепочек бесконечных превращений

AI-художники работают с коллективной памятью и другим способом. Рестилизация — один из самых популярных приемов при создании изображений. Все помнят приложение Prisma, стилизовавшее изображения. Text2image модели могут создавать стилизованные изображения с нуля. Можно, например, сделать фотографию в стиле Энни Лейбовиц. Можно задать параметры съемки: фокусное расстояние объектива, тип камеры, тип пленки. От фотографии до картины всего несколько слов в промпте — и можно создать тот же сюжет, но в стиле Дега или Карраччи. Можно смешать стиль Дега и Карраччи.

AI-художники рассказывают, как в их среде увеличивается интерес к истории искусства. Они сделали список художников, стили которых может повторять Midjourney. Уже сейчас он насчитывает 2193 фамилии.

Важно, что нейросеть создает не коллажи. Во время обучения она извлекает закономерности (паттерны) из множества фотографий, картин и рисунков. Затем генерирует новые изображения, которые имеют те же закономерности, но не похожи ни на одну конкретную картину. Нейросеть создает фантазии, основанные на памяти.

Сгенерированное нейросетью «Шедеврум» изображение по запросу: «Черно-белый фильм Феллини с Мастроянни»

Метаморфозы

Траектория развития GAN-моделей схожа с той, по которой двигалось кино 120–130 лет назад. Как и в те времена, технология пока что удивляет сама по себе. Модель image2video создает «двигающуюся фотографию», например — бегущей лошади, на радость Майбриджу и Марею. С помощью модели video2video создаются ролики рестилизованных танцев, и на знаменитых вирусных видео скульптуры танцуют, словно в фильмах Месстера или де Шомона. Можно импортировать сложное движение камеры из Blender в Stable Diffusion, и камера в созданном видео перестанет быть статичной. Экспериментов с text2video больше всего. Текстовый промпт становится своего рода заклинанием для одомашненного мага.

Такие видео — это бесконечные метаморфозы. В них нет ничего неизменного, от кадра к кадру все превращается во все — словно Мельес вновь запустил одну из своих любимых цепочек бесконечных превращений. Но, в отличие от его кинематографа, здесь за границами кадра есть пространство — безграничное «скрытое пространство» памяти, из которого нейросеть будет генерировать все новые и новые миры.

Метаморфозы кадр за кадром создают себя сами. Память показывает себя

В таких видео нет возможности для монтажа, потому что непонятно, где отрезать. Склейки нет, есть только метаморфоза всего кадра. Последовательность промпт-запросов, запускающихся в нужные моменты, становится сценарием. Каждый кадр — источник ассоциаций, по которым создается следующий кадр. Соломенная крыша дома становится полем, серый дым — сухим деревом, стул на зимнем поле — деревянным окном в это зимнее поле.

Более того, здесь нет и тех двадцати четырех (восемнадцати, шестидесяти) кадров, которые есть на пленке или на цифровой камере. Можно вставить между кадрами новый промпт, и нейросеть интерполирует с ним крайние кадры. Можно убрать промпт из сценария, и нейросеть сплавит оставшиеся части. Пока нет речи, можно мять видео, как воск.

Если в метаморфозах Мельеса всегда есть материя, которая превращается в другую материю (иными словами, после съемок всегда остается реквизит), то в цифровых метаморфозах материальность отсутствует. У тела есть физические ограничения, у цифровой аматерии их нет. Безмонтажная природа метаморфоз памяти может стать основой нового киноязыка.

Или уже становится.

Например, клип на песню i/o (Bright-Side Mix) Питера Гэбриэла с рефреном «I’m just a part of everything», который сделал AI-художник Infinite Vibes, — это метаморфозы, следующие за музыкой. Весь клип сгенерирован последовательностью промптов в text2video модели Stable Diffusion. Пространства без склеек перетекают друг в друга, как перетекает музыкальная волна.

Еще один пример — видео «Нейротарковский» Валерии Титовой, где пространства, отсылающие к стилю Тарковского (как его понимает модель Disco Diffusion), постепенно превращаются в руинированный памятью интерьер деревенского дома. Никто и никаким описанием не объяснял нейросети, что значит «стиль Тарковского». Она сама сгенерировала его по тем паттернам, которые определила в своем архиве. В каждом кадре видео есть обрывочная память о кадрах из фильмов Тарковского, которые нашлись в ее скрытом пространстве.

Желая логичности и точности инструмента, человек подстраивает фантазию под себя, не замечая нового зарождающегося киноязыка

Технически невозможно понять, как и почему параметры в скрытом пятисотмерном пространстве сгруппированы рядом, а значит, невозможно полностью понять и само скрытое пространство. Зато возможно увидеть, как нейросеть плавно или конвульсивно переходит между расположенными рядом параметрами, ассоциирует один объект с другим. Метаморфозы становятся визуальным воплощением скрытого пространства. Это не анимационная техника, где прорисовывается каждый кадр. Здесь каждый кадр метаморфоз создается из коллективной памяти человечества. Эти метаморфозы кадр за кадром создают себя сами. Память показывает себя.

Похожим образом с памятью работал в своих фильмах Феллини. Он игнорировал жесткие структурные ограничения и вместо этого создавал фильмы, которые «пишут сами себя», как это было сказано Добротворским о «8 1/2 ». Феллини часто использовал гиперболизацию и преувеличение, чтобы подчеркнуть искажающую природу памяти. Персонажи его фильмов могут вспоминать события, которые изменены или усилены их восприятием, тем самым показывая, что память является не надежным хранилищем точных фактов, а скорее пестрой мозаикой эмоций и впечатлений.

Обучая нейросети на своих архивах, можно работать с локальной памятью. Предыдущий абзац текста о Феллини был написан моей собственной карманной нейросетью, обученной на PDF-номере журнала «Сеанс». Информация векторизуется в числа и передается в большую языковую модель (large language model — LLM) через API как контекст, основываясь на котором модель генерирует свой ответ. Передается не вся статья или выпуск, а только фрагменты текста, которые предварительно отбираются специальным поисковым механизмом. При желании можно векторизовать весь архив выпусков журнала. Такой Seance AI станет киноведом-советником, который быстро найдет в коллективной киноведческой памяти и сформулирует ответ на вопрос или поговорит на нужную тему.

Сгенерированное нейросетью «Шедеврум» изображение по запросу: «„Сеанс“ — черно-белый журнал о кино и времени»

Регуляция

Как и кинематограф в начале прошлого века, технологии нейросетей активно изменяются. Некогерентность (нестабильность изображения от кадра к кадру), которая стала причиной появления метаморфоз, воспринимается разработчиками как проблема. И хотя художники осваивают метаморфозы как прием и как новый язык, выходят новые версии моделей, где более высокая степень когерентности заявляется как технологический прогресс. К примеру, это новые релизы компаний Runway и Pika Labs. Или ControlNet для Stable Diffusion, который позволяет выделить фрагмент пространства либо объект, и нейросеть будет стараться держать его неизменным от кадра к кадру.

В новых моделях Midjourney-5 и DALL-E 3 при генерации лиц по дефолту (без уточнений) создаются изображения стандартизированных лиц красивых моделей. А на простой запрос «облака» показываются экспрессивный cg-art облаков, разрываемых ветром. Разработчики предустанавливают стили, дообучая модели на фильтрованных данных. Становится сложно добиться от нейросетей не таких эффектных, не таких «стильных», не таких цветастых изображений.

В описании DALL-E 3 большой раздел документа посвящен тому, как разработчики убирают предвзятость модели (bias). Например, на запрос «портрет ветеринара» ранняя версия модели выдавала молодых мужчин и женщин европейской внешности, а теперь, после дообучения и настройки, модель выдает и азиатские, и африканские лица. В blocklist записаны запросы о генерации документов, чертежей механизмов и химических молекул, чтобы не плодить фейковой визуальной информации в интернете.

Человек стремится регулировать нейросеть и «наказывать» ее, когда она выдает неприемлемые результаты, которые не сходятся с тем или иным эталоном. Желая логичности и точности инструмента, человек подстраивает фантазию под себя, не замечая нового зарождающегося киноязыка. Не хотелось бы, чтобы от этого языка, основанного на метаморфозах человеческой памяти, остались полумифические руины, как это произошло с языком немого кино.

У компаний-разработчиков есть два пути. Первый — сделать так, чтобы новейший маг как можно точнее реализовывал желания, написанные в промпте. Второй — сделать изображение из нейросети как можно менее похожим на изображение из нейросети. Второй путь, как считается, легче и выгоднее. Это значит — избавиться от визуальных артефактов, галлюцинаций, метаморфоз. «Фотография» должна быть неотличима от фотографии, «акварель» — от акварели. Фантазия должна смиренно мимикрировать под реальность, нецелостное — под надежное.

В этом диалоге видна лишь одна точка компромисса. По-видимому, она и именуется руинами.


Читайте также

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: