Предыдущая глава |
↓ Содержание ↓
↑ Свернуть ↑
| Следующая глава |
Феникс плохого не посоветует.
Яркий новый день
Your browser does not support the audio tag.
===== Перейти к комментариям
Фонограмма: иди на мой голос (2024-06-27)
Эпизод в повествовании, где протагонисты оказываются в постоянно меняющемся лабиринте, и выбраться можно только следуя за голосом друг друга — а единственное, что удерживает по эту сторону рассудка — стук собственного сердца.
Иди на мой голос
Your browser does not support the audio tag.
===== Перейти к комментариям
Фонограмма: восхождение (2024-06-26)
Едем (идём) дальше. "Восхождение" — основная серия эпизодов о начале путешествия — как герои выбираются из ставшей смертельно опасной библиотеки и бегут прочь, поднимаясь всё выше, за облака — буквально.
Восхождение
Your browser does not support the audio tag.
===== Перейти к комментариям
Фонограмма: призраки ждут нас (2024-06-25)
На случай, если кто-нибудь интересовался, что нонче могут нейросети по части музыки, вот пример. Музыкальное сопровождение к пишущейся книге; трек 4, "Призраки ждут нас", иллюстрация к эпизоду бегства из библиотеки.
Призраки ждут нас
Your browser does not support the audio tag.
===== Перейти к комментариям
SD3 (2024-06-15)
Меж тем Stability.AI выставило во всеобщий доступ файлы весов ("модели") Medium третьей версии SD.
Мой любимый графический интерфейс от AUTOMATIC1111 пока не поддерживает, пришлось в темпе научиться пользоваться ComfyUI.
Принцесса
Балерина
Чёрная роза
Кот
Вишнёвое дерево
Часовое королевство
Полярное сияние
В библиотеке
Лунная ночь
Крестьянка
Кролик
Берег моря
Потому что!
Плачущий ангел
Качество деталей местами очень приятно радует (обратите внимание на капельки росы на розе и столе, а также на волны в море).
Добиться вменяемой человеческой фигуры в случае девушки у книжных полок оказалось дико сложно: только одна (!) из примерно полусотни попыток дала что-то не очень страхолюдное.
А вот кота, принцессу и балерину, внезапно, выдало без особых сложностей.
Засада есть теперь и в коммерческом использовании. Теперь под это требуется платная лицензия ($20 в месяц; как платить из России — не очень въехал, но это не самое большое затруднение). Самое большое — что если вы делаете, например, производную работу (модель на базе основной модели SD3), то после отказа от коммерческой лицензии, по лицензионному соглашению, все такие производные работы вы должны удалить и картинок с них не строить.
В общем, создатели SD отчётливо движутся к максимальной коммерсализации своего продукта, теперь можно делать ставки — начиная с какой именно версии они закроют код (или существенную его часть).
По понятной причине, производных моделей для SD3 будет на порядок-другой меньше, чем для предыдущих его версий. Увы.
Тем не менее ждём, предвкушаем и надеемся.
===== Перейти к комментариям
Кот Кузьма (2024-05-21)
Помнится, написано было лимериков про кота Кузьму порядком, в рабочих записях их за сотню.
Теперь, при помощи электронного художника, их вполне можно проиллюстрировать.
Кот Кузьма, кочегар из Гааги,
Слыл гребцом небывалой отваги:
Он Ла-Манш, говорят,
Раз пятнадцать подряд
Пересёк на плоту из бумаги.
===== Перейти к комментариям
Ложкин, как его нет (2024-05-07)
Случилось прекрасное: некая добрая душа натренировала корректировочную модель (LoRA) на работах Васи Ложкина. Так что теперь можно развлекаться.
Пой, гитара!
Сезон открыт
Начинаем зарядку!
Вечер трудного дня
Согласитесь, что-то в этом есть.
===== Перейти к комментариям
Чудо света (2024-04-25)
Уже упоминавшееся заблуждение о том, что описание для генеративных моделей воспринимается программой примерно так же, как автором описания (обычно человеком) ведёт и к другим достаточно интересным находкам.
Оптические иллюзии и "смешение сцен" — достаточно сложная категория изображений. Сложная в том смысле, что вряд ли получится описать её словами и получить от электронного художника именно то, что заказывал. Простой пример:
Чудо света
Обратите внимание — там, где стоит человек, вероятнее всего сухо, но вот прямо над ним уже толща воды. Плюс расположение теней, плюс "переливающийся в воду" луч света. Всё верно, это тоже галлюцинация модели "HelloWorld", а сцена описывается как extremely detailed, oil painting, "wonder of the world". Т.е., "чудо света". Некоторые из таких галлюцинаций очень, я бы сказал, пугающие.
Поэтому стало привычкой время от времени запускать длинный прогон (обычно на ночь) нескольких тысяч галлюцинаций на проверенные опытом описания, а поутру быстренько пролистывать это всё. И всегда там можно найти что-то любопытное, что нарочно не придумаешь.v
Вообще достаточно занятно осваивать технологии, которые не реже раза в год меняются так основательно, что сама мысль сопровождать это учебником или хотя бы рабочими записями лишена смысла: всё устаревает не то чтобы в момент написания, но очень вскоре.
Поэтому правило здесь примерно такое же, как при наблюдении за цветущей "ночной красавицей" (кактус, цветок которого к утру следующего дня уже увядает): смотри, восхищайся и пользуйся, пока возможно. Завтра будет уже что-то совсем другое. Ну, почти совсем.
===== Перейти к комментариям
Последние дни (2024-04-19)
Фраза "last days" (последние дни) также оказалась плодотворной в смысле галлюцинаций.
Занятно, что на портретную ориентацию двигатель выдал огромное количество очень интересных (и вовсе не жутких) портретов, преимущественно женских.
На ландшафтную... Там и собственно ландшафты, и, неожиданно, большое количество т.н. "body horror" — ужасы, опирающиеся на сцены жутких изменений тела и всевозможные уродства. Кто видел "The Thing" Карпентера, тот поймёт, о чём речь.
50
55
65
83
90
101
107
Но бывает и другое, и тоже не редкое, примеры выше.
===== Перейти к комментариям
Галлюцинации (2024-04-14)
Предыдущие опыты с "ультракороткими" описаниями дали интересные результаты. Обозначился ряд моделей, которые, если можно так сказать, очень эффектно галлюцинируют. А именно, выдают самые разные по направленности картинки в ответ на короткий запрос.
Дело, конечно, не в краткости определения, а в том, как тренировалась модель. Неожиданный всплеск "галлюцинаций" в ответ на описание "sound of silence", "звук тишины", объясняется именно этим: в рамках свободы творчества (коэффициента CFG) модель находит более или менее весомые цепочки ассоциаций, которые и разрастаются в очень странные картинки.
Чемпионы по части галлюцинирования, среди моделей на CivitAI:
LEOSAM's Hello World
Copax Art Brush
ICBINP ("I can't believe it's not photo" — "Поверить не могу, что это не фото")
Lah Mysterious
Epic Fantasy Vision
Составлять списки моделей в данном случае дело неблагодарное (очень уж быстро меняется ситуация в этой отрасли — SD 3 уже не за горами), но упомянутые модели с очень живым воображением также входят в список тех, что я отобрал для работы (куда входят также Proteus RunDiffusion, Crystal Clear Lightning, Cinematix, Lightning Bloom, Real Good Fast Pass, Realism from Hades, Real Vis, WLOP Style и Zavy Chroma, всего изучено 50+ моделей).
Ну а теперь сами картинки (все построены на модели LEOSAM's Hello World, легко найдёте на CivitAI).
Через Вселенную
Дивный новый мир
Сумерки времени
Полёт воображения
Бесконечная рекурсия
Страна тайн
Главное чудо дня
Иной мир
Чудо света
===== Перейти к комментариям
Звук тишины (2024-04-07)
Песню "Звук тишины" ("Sound of silence") наверняка знают все, пусть даже не зная ни названия, ни исполнителя. Для архива: оригинальное исполнение (Simon & Garfunkel), исполнение Gregorian
В целом и общем короткие определения дают стохастические результаты. В данном случае на выходе есть несколько типичных результатов: лодки, река в лесу, река на фоне гор, портреты, дома и "всякое странное".
Текст определения: extremely detailed, oil painting, sound of silence, by Greg Rutkowski and Tyler Edlin
Сами картинки ниже. Заголовки условные, поскольку электронный художник именно так "увидел" звук тишины.
Пагода
Лес
Корабль
Корабль-дом
Воздушный шар
Вечер на Югготе
Мягкая посадка
Закат в лесу
Дом-дерево
Портрет
Дерево на холме
Трое в лодке
Закат над рекой
Ущелье
Извержение
Древняя раса
Дом у ручья
===== Перейти к комментариям
Дополненная реальность (2024-04-04)
Логично звучали вопросы, почему в предыдущем посте (см. ниже) итоговые картинки не имеют ничего общего с оригиналом. Ниже краткое пояснение.
В инструменте "img2img" (картинка в картинку) SD использует минимум два параметра, чтобы обозначить, насколько итоговая картинка близка к оригиналу. Первый уже известен, CFG, очень упрощая — насколько двигатель будет придерживаться описания, а насколько — следовать своей "фантазии" (чем выше коэффициент, тем более послушным будет двигатель).
Вторым, специфическим для "картинки в картинку", является т.н. коэффициент подавления шума (denoising strength), вещественное число от 0 до 1 (0: двигатель не участвует; 1: двигатель может вносить произвольные правки). Судя по сказанному ранее, "шумом" является исходная картинка.
Выяснилось, уже экспериментально, что важным фактором также является число шагов синтеза изображения. В предыдущем случае я использовал скоростную модель ("Lightning"); она характерна тем, что работает только с низкими коэффициентами CFG и с малым количеством шагов (и в среднем, даёт изображение худшего качества за счёт значительного увеличения скорости работы).
На этот раз взята модель типа SDXL (Juggernaut RunDiffusion), но не скоростная. Итоги см. ниже.
1. Обработка фотографии. Исходная картинка:
Текст определения (во что переделываем): extremely detailed, oil painting, close-up portrait of middle-aged wizard, calm smile, fantasy, majestic mansion in the background, by Tyler Edlin and Nick Avallone
Итоги ниже (числом обозначен коэффициент подавления шума, при прочих равных условиях).
При подавлении шума ниже 0.35 двигатель, по сути, себя почти не проявляет. Резкий скачок изменений происходит между 0.45 и 0.60. Всё, что выше — по сути, уже в чистом виде фантазия двигателя, ничем не похожая на оригинал (примерно так выглядят итоги работы со скоростными моделями).
2. Дополненная реальность. Исходная картинка (фото поблизости от места, где я живу):
Добавляем воздушный шар в небе (коэффициент 0.45):
Добавляем сторожевую башню (коэффициент 0.45):
Если поиграть определениями при диапазоне 0.4-0.5, вполне можно убедительно "дополнить реальность", внося минимальные искажения и порождая более или менее реалистичные новые подробности.
===== Перейти к комментариям
А у вас всё лицо зелёное! (2024-04-01)
У SD есть функция создания картинки на основе другой картинки. Признаться, я был бы рад прочесть сейчас длинную лекцию по использованию этого инструмента, но...
Так получилось, что просто захотелось посмотреть, насколько хороши будут производные картинки. Источником было фото меня любимого (но новоязе "селфи"), но первым же делом я применил к ней скоростную модель... и понял, что картинки замечательные (сами посмотрите), в т.ч. с точки зрения анатомии, но в качестве учебного материала ничего не стоят: у нейронки, в случае скоростных моделей, практически невозможно выставить настройки, при которых исходное изображение будет очень понемногу трансформироваться в считанное. В данном случае есть магическое значение соответствующего коэффициента (снятия шума, denoising strength: 0 — полное отсутствие свободы воли нейронки, 1 — максимальная свобода), что изменение даже в четвёртом знаке после запятой меняет картинку радикально (и не очень интересно).
Так что лекция будет потом.
В качестве иллюстрации: картинка ниже получена из той, что левая нижняя в коллекции выше, при изменении коэффициента с 0.75 до 0.74:
Польза, кстати, всё равно есть: можно генерировать аватарки, тоннами. И вполне себе приличные.
===== Перейти к комментариям
Персонажи: Тень
Соблазн начать, наконец-то, подбирать приемлемый облик для персонажей был давно. Теперь, когда с вычислительными мощностями всё приемлемо, задача вылилась в неожиданный аспект — найти и описание, и оптимальную модель для опытов.
Что ж, лиха беда начало.
1. Первое знакомство
Это Тень. В миру — Эсстер Аратрин ан эс Метуар, антагонист и протагонист "Ступеней из пепла", последовательно.
Эсстер появляется только в третьей (из трёх) частей книги, но при этом вызвала наибольшее количество обсуждений: и в связи со своей "должностью" — голос и воплощение подлинной Тени, Стража мрака, владычицы царства мёртвых и распорядителя их судеб (по принятым во множестве культур Шамтерана поверьям, Тень может возвращать умерших в царство живых, Средний мир, если те сами отыщут себе дорогу).
Воскресает после смерти (в книге — после ножевых и огнестрельных ранений, а также, в финале, после смерти от старости). Однажды (и она это знает) её призовёт на окончательную и бессрочную службу подлинная Тень, и отказаться не получится.
Умеет крайне быстро перемещаться в отсутствие света, её мышечная реакция превосходит реакцию обычного человека в несколько раз. Обладает рядом других черт, свойственных подлинной Тени — например, в состоянии подчинить почти кого угодно своей воле.
При всём этом, оказывается человеком чести и способным на самопожертвование — пусть даже с ужасными манерами, пренебрежением к правилам и стремлением делать всё по-своему.
Через три года после событий книги у Эсстер родилась дочь, Вессен (тоже, по иронии, выбравшая путь Тени — правда, уже технологическим вариантом, безо всякой мистики).
Не все, кому довелось увидеть Тень так близко, сумели потом поведать об этой встрече.
2. Подлинный облик
По книге, Тень с лёгкостью принимает произвольный облик (не уточняется, насколько она меняется внутри, если облик мужской). Тем не менее, с какого-то момента выглядеть самой собой стало для Эсстер привилегией: её первую госпожу раздражал и облик, и голос подлинной Эсстер.
Эсстер, невзирая на происхождение (прямая наследница малого дома в Тегароне, что само по себе даёт немалые привилегии и в стране, и среди другой родни), несмотря на хорошее образование, с самого начала пренебрежительно относится к правилам и законам, обожает авантюры. Что, собственно, и закончилось для неё потерей свободы.
Предыдущая глава |
↓ Содержание ↓
↑ Свернуть ↑
| Следующая глава |