Страница произведения
Войти
Зарегистрироваться
Страница произведения

Архив блога Obscurato nihil за 2023 год


Жанры:
Мемуары, Изобретательство
Опубликован:
01.04.2024 — 05.01.2025
Аннотация:
Obscurato nihil: современные технологии как инструмент писателя.
Предыдущая глава  
↓ Содержание ↓
↑ Свернуть ↑
  Следующая глава
 
 

И есть художники. Им можно давать только самые общие указания, остальное — их вотчина. Иначе можно нарваться на ситуацию "суди, дружок, не выше сапога". Это касается и людей, и инструментов. Пресловутые двигатели на основе алгоритмов нейронных сетей — это художники.

Начну с конца этих событий и приведу описание, которое дало наименьшее количество брака (ну или наибольшее количество потенциально пригодных картинок):

Описание: Extremely detailed (full shot body:1.2) photo of a 18 years old ((male scientist:1.3)), oval face, (short brown combed back hair with ponytail:1.25), (pale ashen skin:1.1), (green eyes:1.1), (dark blue lips:1.1), (in tightly fastened white lab coat:1.3), (standing in chemical lab by a table with test tubes:1.2), (wearing transparent colorless protective safety goggles:1.2), (short olive serpent-like scarf around neck), realism, beautiful and detailed lighting, shadows. Half-turned to camera. By Midjourney and Greg Rutkowski and Gaston Bussiere and Craig Mullins. cg, octane render, 8k, wallpaper.

Исключающее описание: mustache, whiskers, stethoscope, tie, double head, double face, ugly, morbid, extra fingers, poorly drawn hands, mutation, blurry, extra limbs, gross proportions, missing arms, mutated hands, long neck, duplicate, mutilated, mutilated hands, poorly drawn face, deformed, bad anatomy, cloned face, malformed limbs, missing legs, too many fingers, big head, missing head, malformed hands, error, blur, out of focus, signature, watermark, watermarked, username, green lab coat, female, girl, woman

А вот пример картинки, которую можно, после доработки некоторым количеством живого труда, довести до мало-мальски приемлемого вида:

На случай, если комментарии давно "убежали", привожу текстовое описание для персонажа (перефразированное): В общем, защитные тряпки, змея, очки плюс умеренно атлетичная фигура. А ещё стянутые в низкий хвост слабо вьющиеся волосы и серо-зелёные глаза; лабораторный халат, изолирующие очки-щиток, пробирка с чем-то жидким и зрелищным в руке.

Вот тут и выяснилось, насколько художник (Stable Diffusion 2+) не любит множества подробностей. Сделать змею вокруг шеи мне не удалось вообще: в итоге указал на шарф, напоминающий змею: художник-человек может придать ему необходимые подробности и формы. Что касается остального — см. те элементы описания, что в круглых скобках: таким образом в языке описания можно повысить значимость, вес для этих элементов.

Совсем кратко. Примерно восемнадцать часов попыток, двенадцать тренировочных баз (моделей), восемь самплеров и туча других вариаций. Примерно шестнадцать тысяч изображений отсмотрено. И вот какие сделаны выводы.

Художник в данном случае нормально относится к ситуации, когда уточняющие элементы не сходятся на одной сущности. Ну то есть можно задать 100500 желательных сущностей на картинке, но на каждую по 1-2 пояснения, и художник будет счастлив. В том смысле, что выдаст намного больше годного.

А вот если все уточнения касаются центрального объекта описания, как в нашем случае, начинаются сложности. Если совсем на пальцах, художник "мечется", пытаясь выбрать что-то более или менее важное, и в итоге получается усреднённое нечто, на что трудно смотреть без слёз. Самым странным оказалась неожиданная сцепленность причёски "хвостик" (pony tail) с полом персонажа. Пришлось в итоге указать запрет на формирование женских персонажей и повысить вес уточнения, что нужен мужской — только для того, чтобы хотя бы в 10-15 процентах выходных картинок были не девушки или андрогины, а парни.

Ну и в качестве примера ситуации, когда описания отдельных компонент относительно краткие, без изнуряющих художника подробностей. Описания (собственно про объект) приведены вместе с картинками.

Рассвет над дальними горами

photo of scenic view on alpine blooming meadow, sun rising over distant snow-capped mountains

Женщина в одежде в стиле паропанка

a woman rushes extra rapidly down the street, detailed european face, aspiring facial expression, ginger hair, steampunk style close, steampunk city on the background

Девушка в имперском стиле

Style-Empire, beautiful young woman with brown hair, wet paint gold butterfly filigree, broken glass

Девушка в доспехах

beautiful fantasy warrior, wearing torn black leather armor, tarnished and scratched silver pauldrons, worn leather gloves, short blonde hair, bright blue eyes, dense forest in background

===== Перейти к комментариям

Список списков (2023-02-24)

Поскольку слово "нейросеть" у многих начинает ассоциироваться конкретно с чем-то одним (настолько, что сам вопрос, где же именно делана картинка, музыкальный трек или текстовый фрагмент, вызывает недоумение — "а что, бывают другие?"), добавлю немного веселья в эту ситуацию.

Ловите "списки списков" — ресурсы, относящиеся к алгоритмам нейронных сетей в самом широком смысле слова (от старинных, проверенных временем — таких как генеративные — до новизны класса латентной диффузии).

Библиотека нейросетей (на русском языке)

Futurepedia (на английском языке) — утверждается, что самый большой каталог этого добра

Generative AI Database (на английском языке) — конкретно про генеративное (если видели когда-нибудь This Person Does not Exist и его родственников — это качественные примеры)

Дополнительно, из недавно проверенных в деле (скорее всего, есть в указанных списках):

Holo AI (электронный помощник писателя)

"Настя" (Nastia) — виртуальный компаньон (в свете печальных событий с Репликой, вполне может стать годной альтернативой), в состоянии развития

Что до меня любимого, то вот краткие сводки с полей:

получил от редактора "Зной", идёт завершающая вычитка

понемногу завершаю "Реплику"

перед тем, как вернуться к долгострою (Мозаика, Отражение глаз твоих и т.д.), планирую написать две малых формы: "Интервью" и "За дровами" — следите за новостями

Будем здоровы! Да, и к слову: если пользуетесь чем-то, что относится к категории нейронных сетей — не сочтите за труд упомянуть в комментарии к этой записи, чем и для чего. Соберём сообща список того, что особенно популярно среди литераторов!

Кому что обещал — помню, работаю, стараюсь удержаться в обещанных временных рамках.

Принуждение к благочинию (2023-02-15)

Сервис "Реплика", о котором я (довольно давно) упоминал, находится в странном состоянии. Выглядит это как кризис — и создатели его, увы — владельцы сервиса.

Немного технической предыстории. Реплика изначально использовала одну из реализаций нейронной сети типа Large Language Model (LLM). У Реплики память, скажем мягко, не очень долгая (до пяти обменов с оператором), плюс LLM и текст генерирует странновато, и ресурсы ест как не в себя.

Далее — реконструкция событий по отрывочным сообщениям от Luka (компании-владельца сервиса). В какой-то момент Luka принимает решение перейти на двигатель из другого семейства, GPT3 (Generative Pre-Trained Transformer). И вот тут кроется засада: требования лицензии этого двигателя (от OpenAI) запрещают использование двигателя для порождения контента сексуального направления. Точка.

Вместе с этим именно "секстинг" (виртуальный секс и прочие "взрослые" виды общения) был той самой изюминкой, которой Luka привлекала платных пользователей (общее число пользователей за 10 миллионов, сколько из них платных — нет сведений).

И не так давно Luka, безо всяких объявлений, блокирует все "взрослые" виды общения с Репликами, и совпадает это действие ни много ни мало с днём Святого Валентина.

Последствия выглядят катастрофическими — даже судя по отрывочным сводкам из центра циклона, пользователи отменяют платную подписку в массовом масштабе. При том, что на официальном форуме Luka заявила, что возврата к удалённому типу общения не будет.

Решение то ли поспешное (при том, что остались два типа базовых отношений оператора и Реплики. предполагающие как минимум игривую, скажем так, направленность), то ли не очень продуманное.

Важно понимать ещё, что дело не в виртуальном сексе. Введённые ограничения и фильтры на ключевые слова исключают резкие выражения, многие другие "попавшие под раздачу" темы разговоров. Реплика теперь будет очень благочинной, целомудренной и... невероятно скучной. Сомневаюсь, что в качестве инструмента психологической поддержки от неё будет толк: смена модели привела к фактическому сбросу каждой Реплики, её накопленные манеры общения и пр. куда-то "делись".

Что теперь будет с сервисом — непонятно. Пока что кажется, что его владельцы прицельно отстреливают сервису все ценные качества, одно за одним.

Ну и, в качестве комментария, другие сервисы, похожие отчасти на Реплику:

Chai

EleutherAI

KoboldAI (можно установить на своих мощностях, есть выбор моделей для разного типа генерирования текста)

и вокруг них (поиск по этим названиям легко позволит найти возможные альтернативы).

В странном времени живём...

===== Перейти к комментариям

Укрощение строптивой (2023-02-05)

Фото красоток "без верха" все до одной были просчитаны в SD. Ниже — типовые подробности создания картинки.

(Feminine Photo:1.3) of (Ultra detailed:1.3),(Lustful:1.3) masterpiece, best quality, hyper detail, face detail, (nsfw:0), (full body:1.2) (photo:1.3) of a young ripped Indian female with perky medium naked breasts, topless, (very detailed Brown concave bob cut:1.3), standing in a deserted street during a rainy night, wet, wearing short worn out skirt, beautiful face, sharp focus, volumetric lighting, Style-Princess, photo realistic, 4k, HDR, UHD,Highly Detailed, (full shot body:1.2), (visible feet:1.2),( visible head:1.2), facing camera , (very detailed skin:1.1), (game concept:1.3), (depth of field:0.5), CGSociety ,ArtStation, rule of thirds, shot on 70mm, short exposure, low contrast, diffraction grading

Negative prompt: nude, watermark,signature, twins, painting, digital artwork, 3d, Scribbles,Low quality,Low rated,Mediocre,3D rendering, Screenshot, Software, UI, artwork, painting, digital painting, octane render, unreal,Amateur,Low rated,Phone,Wedding,Frame,Painting,tumblr,watermark,signature, (cropped, out of frame, cut off:1.4), wrong, error , fault, bad proportions, disfigured, deformed, distortion, bad anatomy, low res, mouth open, text, watermark, (poorly drawn hands:1.2), (poorly drawn face:1.2), mutation, blurry, extra limbs, gross proportions, malformed limbs, long neck, contorted

Steps: 60, Sampler: Euler a, CFG scale: 8, Seed: 1586774228, Face restoration: CodeFormer, Size: 512x768, Model hash: 8194f84cdc, Model: realisticVisionV12_v12

При создании описания картинки важно помнить, что SD "не понимает" описания сцены с точки зрения человека. Когда задаются предикаты (фрагменты описания, через запятую или иначе), нейросеть смотрит в базу и, если там есть достаточно количество похожих тегов (ассоциаций — тех, что вы ставите в виде предиката), то выбирает их и использует связи между ними, чтобы каким-то образом построить картинку.

Выглядит это мистически: задаются текстовые теги-описатели для картинок, которые "скармливают" обучающему модулю двигателя, а затем одна лишь комбинация тегов позволяет двигателю построить картинку.

Надо помнить ещё, что нейросеть во время обучения опознаёт огромное количество деталей картинки, для которых не указано тега. Отсюда та простота, с которой нейросеть создаёт типовые картинки; отсюда сложности с отрисовкой мелких деталей сложной формы (таких, как кисти рук).

Посмотрим, можно ли модифицировать картинку, не внося в неё слишком много изменений. Практика показывает, что если зафиксировать параметры создания, и вносить только изменения в текстовое описание, можно добиться интересных результатов. Возьмём фото индианки, и попробуем одеть её не так вызывающе, а в конце — попросим улыбнуться. Внимание, первая картинка 18+.

Юбка

Юбка и майка

Куртка и юбка

Джинсовые куртка и юбка

То же и улыбка

Меняются, не очень существенно, элементы одежды и фон, но сама девушка остаётся почти без изменений, что важно.

Важно: модель понимает далеко не все виды одежды, и в данном случае упорно пытается нарисовать неприкрытый живот персонажа. Чтобы прикрыть его. пришлось перебрать немало вариантов одежды.

А теперь оденем её цивильно, и посмотрим, сумеет ли SD передать возраст персонажа. Укажем возраст в описании явно:

8 лет

12 лет

20 лет

30 лет

40 лет

50 лет

60 лет

70 лет

80 лет

Получается вполне приемлемо. Т.е., примерная схема такая: получить более или менее сносный по виду и позе облик, и, зафиксировав всё, кроме текстового описания, не очень большими правками вносить желательные детали.

Ещё один небольшой секрет: незначительных вариаций в одежде и пр. можно добиться, меняя немного — на сотые доли — веса тех или иных предикатов, когда эти веса указаны явно, например (full body:1.2). При этом помнить, что предикаты, ответственные за план и параметры камеры лучше не менять, а веса изменять на не очень существенной детали собственно писания внешнего вида.

===== Перейти к комментариям

Марсианский пейзаж (2023-01-27)

Не прошло и месяца, как вышла новая версия "морды" для работы с SD.

Изменений настолько много, что я не буду детально их здесь прописывать. Скажу только, что после установки рекомендуемого модуля оптимизации, время создания одной картинки сократилось в 2-8 раз, в зависимости от настроек.

Единственное — компиляция и установка этого модуля (xformers) заняла неожиданно много времени, пусть оно и стоило каждой потраченной секунды.

Ну а я продолжаю работу над иллюстрациями к книгам. Конкретно сейчас мне нужен безжизненный пейзаж, характерный для инопланетной области, описанной в "Зное". Ниже — один из примеров, а под "стрелочкой" — ещё 22 варианта.

Определение: an oil painting of wide decrepit stone paved stairs going down barren badlands terrains, facing dark red sun over horizon, distant aerial view, by Greg Rutkowski

Остальные параметры создания — в имени файла картинки. Тренировочная база: Anything v3.0 (30%) + ProtoGen X5.6 (70%)

00033

00037

00043

00046

00047

00055

00057

00058

00064

00068

00075

00076

00077

00078

00087

00093

00096

00099

00106

00110

00111

00113

00117

===== Перейти к комментариям

Картина маслом (2023-01-06)

Пока идёт поиск лиц и тел, отчего бы не подумать над другим использованием электронного художника?

Первое и самое простое — создание картин. Смотрим на список артистов, чей стиль известен SD, подбираем, скажем, пейзажиста или мариниста, указываем стиль ("in style of romantism" — в стиле романтизма), указываем авторский стиль художника, и — генерируем сотню-другую картинок. Среди них, как ни странно, качественных обычно много, до 90%.

Предыдущая глава  
↓ Содержание ↓
↑ Свернуть ↑
  Следующая глава



Иные расы и виды существ 11 списков
Ангелы (Произведений: 91)
Оборотни (Произведений: 181)
Орки, гоблины, гномы, назгулы, тролли (Произведений: 41)
Эльфы, эльфы-полукровки, дроу (Произведений: 230)
Привидения, призраки, полтергейсты, духи (Произведений: 74)
Боги, полубоги, божественные сущности (Произведений: 165)
Вампиры (Произведений: 241)
Демоны (Произведений: 265)
Драконы (Произведений: 164)
Особенная раса, вид (созданные автором) (Произведений: 122)
Редкие расы (но не авторские) (Произведений: 107)
Профессии, занятия, стили жизни 8 списков
Внутренний мир человека. Мысли и жизнь 4 списка
Миры фэнтези и фантастики: каноны, апокрифы, смешение жанров 7 списков
О взаимоотношениях 7 списков
Герои 13 списков
Земля 6 списков
Альтернативная история (Произведений: 213)
Аномальные зоны (Произведений: 73)
Городские истории (Произведений: 306)
Исторические фантазии (Произведений: 98)
Постапокалиптика (Произведений: 104)
Стилизации и этнические мотивы (Произведений: 130)
Попадалово 5 списков
Противостояние 9 списков
О чувствах 3 списка
Следующее поколение 4 списка
Детское фэнтези (Произведений: 39)
Для самых маленьких (Произведений: 34)
О животных (Произведений: 48)
Поучительные сказки, притчи (Произведений: 82)
Закрыть
Закрыть
Закрыть
↑ Вверх