Литературный помощник: Настя (2025-02-06)

Из-за галлюцинаций во всех сервисах ТГИИ есть пояснение, что порождённый ТГИИ текст не следует считать фактическим материалом, или хотя бы внутренне непротиворечивым.

Ряд исследователей полагает, что сам факт существования галлюцинаций может свидетельствовать о том, что ГИИ могут успешно эмулировать творческую активность человека: галлюцинации — это выход за пределы, за рамки контекста, создание чего-то такого, что "не лезет ни в какие ворота".

"Мнение" ТГИИ

Обмен ниже произведён с сервисом GhatGPT, модель 1o. Помните о том, что все без исключения сообщения ТГИИ следует подвергать сверке с фактическими данными.

Спросим ТГИИ

Оператор:Ты — эксперт по текстовому генеративному искусственному интеллекту (т.е., по таким продуктам как ChatGPT, GigaChat, Character.AI и т.п., а также по лежащим в их основе технологиям).

Сформулируй особенности порождённого текстовым генеративным искусственным интелектом (далее сокращённо ТГИИ) контента, конкретно освети вопросы:

— достоверности контента (в части согласования с фактическими данными объективной реальности)

— зависимости контента от контекста (прежнего обмена с пользователем в рамках текущего чата)

— возможности свести к минимуму вероятность фактических ошибок и галлюцинаций ТГИИ

В тех случаях, когда это известно, приведи размер "памяти ТГИИ", т.е. длины скользящего окна контекста в лексических единицах (токенах). Приведи примеры размера контекста минимум для пяти известных публичных сервисов ТГИИ.

ChatGPT v1o:

Текст, порождённый текстовыми генеративными системами искусственного интеллекта (ТГИИ), имеет ряд характерных особенностей, которые можно рассматривать с точки зрения достоверности, зависимости от контекста и способов минимизации ошибок. Ниже приведены основные пункты, а также примеры размеров контекстных окон для нескольких популярных публичных сервисов ТГИИ.

1. Достоверность (согласованность с фактическими данными)

Вероятностная природа вывода. Большинство ТГИИ (LLM-модели) обучены на огромных массивах текстов и порождают ответы, ориентируясь на вероятностные закономерности слов и фраз. Это означает, что итоговый текст не гарантированно будет достоверным, поскольку модель не «проверяет» фактологические утверждения, а лишь «продолжает» статистически правдоподобный контекст.

Риск «галлюцинаций». «Галлюцинации» (hallucinations) — это ситуация, когда модель придумывает несуществующие факты или даёт логически/фактологически неверные ответы. Это может происходить, если модель не обладает «знанием» о конкретном факте (или оно недостаточно «явно» закреплено в её параметрах), но при этом стремится выдать связный и убедительный текст.

Ограниченный тренинг-дата. ТГИИ обычно обучаются на данных, доступных до определённого момента времени. Следовательно, они могут не знать о событиях, произошедших после окончания периода сбора обучающих данных. Это снижает релевантность ответов, когда вопрос касается новейших фактов.

2. Зависимость от контекста (предыдущего обмена в рамках текущего чата)

«Скользящее» или «посессионное» окно контекста. Модель при каждом новом запросе (пользовательском сообщении) получает в качестве «входа» (prompt) определённую часть истории диалога — то, что помещается во внутреннее окно контекста. Чем больше объём этого окна, тем больше предыдущей информации модель способна «удержать» в памяти при формировании ответа.

Учет истории диалога. Если модель «видит» предыдущие реплики, она может продолжать тему, исправлять ранее упомянутые неточности и поддерживать логическую связность. Однако если предыдущая история переписки не помещается в окно контекста (например, оно переполнено), модель «забывает» более ранние детали и факты.

Риск накопления ошибок. Если на ранних этапах общения модель (или человек) допустит неточность, эта неточность может «записаться» как часть контекста и приводить к дальнейшему воспроизведению ошибки, если пользователь или сама модель явно её не скорректируют.

3. Способы минимизации вероятности фактических ошибок и галлюцинаций

— Факт-чекинг и использование сторонних инструментов. Наиболее эффективный путь — это проверять ключевые факты и даты через внешние сервисы или базы данных. Некоторые усовершенствованные решения пытаются интегрировать LLM с поисковыми системами или внутренними валидационными модулями.

— Уточняющие вопросы к пользователю. Если контекст недостаточно ясен, модель может запрашивать разъяснения (в зависимости от архитектуры и настроек) — это снижает риск неверной интерпретации вопроса.

— Подготовка подсказок (prompt engineering). Правильные инструкции и формулировка запроса помогают модели сфокусироваться и повышают точность ответа. Например, прямое требование «Проверь, есть ли точное подтверждение этого факта» или «Дай ссылку на источник» может повысить корректность.

— Индивидуальное «дообучение» (fine-tuning) или «retrieval-augmentation». Подключение модели к специализированной библиотеке (knowledge base) с проверенными данными. Во время генерации ответа LLM может обращаться к этой библиотеке, что существенно уменьшает риск галлюцинаций.

— Использование цепочек размышлений (Chain-of-Thought prompting). Запрос, вынуждающий модель «пошагово» объяснять ход рассуждений. Иногда это помогает модели «самопроверять» логику и отсеивать явно неправильные варианты.

4. Примеры размеров «памяти ТГИИ» (контекстного окна)

Ниже приведены ориентировочные данные о размере контекстного окна (в токенах) для ряда известных публичных сервисов (данные могут меняться по мере обновлений систем):

OpenAI GPT-3.5 (ChatGPT, ранние версии): Около 4 096 токенов (примерно 3—4 тыс. слов в пересчёте на среднюю длину слова).

OpenAI GPT-4: Существуют две основные версии модели с разным контекстом: 8 192 токена и 32 768 токенов (в «расширенной» версии).

Google Bard: Точных официальных цифр в открытом доступе по токенам часто нет, Google указывает иные метрики, но по оценкам пользователя и испытаниям можно говорить о порядке 8—16 тысяч токенов для последних моделей.

Character.AI: Точная публичная информация о размере окна не раскрывается, однако по ряду тестов пользователей и утечкам инсайдерской информации оценивается в пределах 8—10 тысяч токенов (хотя компания может менять эти параметры).

GigaChat (Сбер): Публичные версии модели GigaChat (на базе семейства ruGPT/Transformers) по разным сборкам могут иметь от 2 048 до 16 384 токенов в контексте, в зависимости от конкретной конфигурации.

Meta Llama 2 (для полноты набора): Llama 2 (7B, 13B и 70B параметров) имеет контекстное окно 4 096 токенов по умолчанию. Существуют модификации с расширенным контекстом (до 32 768 токенов), но они не всегда доступны в публичных демо.

Обратите внимание, что токен не равен слову один к одному: в зависимости от используемого токенизатора и языка (английский, русский, смешанная речь) распределение слов по токенам варьируется.

Ключевые выводы

— Достоверность ответов ТГИИ напрямую связана с вероятностной (статистической) природой генерации и «глубиной»/качеством обучения.

— Контекст (объём «памяти») играет важную роль. Большие окна позволяют модели учитывать больше предыдущей информации диалога и снижать риск противоречий, однако при переполнении старые данные «забываются».

— Минимизация ошибок возможна благодаря комбинации мер: продуманным подсказкам (prompt engineering), внешнему факт-чекингу, интеграции с поисковыми системами и валидационными базами, а также цепочкам размышлений.

— Таким образом, контент, порождённый ТГИИ, лучше всего использовать как помощник для творческих и вычислительных задач. При этом всегда необходима «финальная проверка» человеком, особенно в вопросах, где критична фактологическая точность.

===== Перейти к комментариям

Предварение

Vidu: видео по описанию или картинке (2024-08-05)

Созданием цифрового видео по описанию или на базе исходного (референтного) изображения сейчас мало кого можно удивить, это можно делать и своими усилиями, средствами давно известного SD (Stable Diffusion, вычислительной системы порождения цифровых изображений по текстовому описанию и/или на базе других изображений).

Вчера Vidu (онлайн-сервис от КНР) стал доступен всем желающим, бесплатно там можно сделать до 20 4-секундных ролика в месяц.

Пример работы сервиса (ссылка на картинке откроет страницу, где можно запустить ролик).

Как и в случае других генеративных сервисов, на выходе может быть полно брака (и в смысле того, что сервис делает ролик не по тем действиям, и в смысле качества и согласованности самого ролика). С учётом, что ролик генерируется от 10 до 15 секунд, итоговые результаты впечатляют.

На картинке — персонаж пишущейся книги "Фонтан юности"; орков Варкрафта помнят, вероятно, все, но в книге общее с орками — только внешний вид. Картинка иллюстрирует знакомство протагонистов, Катерины Полозовой (она же Карин рем ан Корвус) и её напарницы, той самой девушки-орка Лиры рем ан Морвен (самоназвание по книге "рима").

ИИ взял картинку за основу сцены и, по описанию, Лира должна посмотреть с удивлением, шире улыбнуться и пройти мимо. Если покадрово посмотреть на изменение интерьера и отрисовку облика самой Лиры, вполне можно впечатлиться.

Не обошлось и без дефектов; чёрные пятна на лице Лиры — сажа; по сюжету, напарницам (обе служат в полиции) только что пришлось спасать людей от пожара, отсюда сажа. ИИ трактует сажу как отверстия.

Что особенно впечатляет — это то, как ИИ достраивает облик самой Лиры. По описанию статической картинки, у неё две косички; ИИ добавляет третью за спину, и вполне убедительно дорисовывает и полицейскую форму, и всё то, что прицеплено на поясе Лиры.

Это всё ИИ делает самостоятельно: в описании сценария ролика нет ни слова о том, где всё происходит. Если вас всё ещё не впечатлило то, как ИИ проанализировал картинку, экстраполировал трёхмерную модель Лиры и продолжил интерьер воображаемого помещения — то сейчас самое время.

По описанию, насколько я могу судить, на моём локальном оборудовании, если бы я располагал ПО и тренировочной базой, это всё считалось бы порядка 5-8 минут. Вполне приемлемо для оборудования, что слабее даже среднего игрового компьютера.

Очень советую найти ежемесячно десяток-другой минут и поэкспериментировать.

===== Перейти к комментариям

Предварение (2024-08-03)

С чего начать в области, о которой большинство людей имеют самое превратное представление?

Вкратце (TL;DR)

Указанная аббревиатура от ("too long; didn't read" — "слишком длинно, не (до)читал") обычно используется в виде шутливого указания на самую суть. Можно, конечно, написать "не осилил" (или на новоязе, "ниасилил"), тут уже вопрос вкуса.

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ является программно-аппаратным комплексом со следующими характеристиками:

— решает задачи, для поиска ответов на которые которых традиционно требуется интеллект человека

— интерпретирует исходные данные (воспринимаемый внешний мир) как знаковую систему

— в состоянии адаптировать методы и приёмы решения поставленной задачи по мере обработки данных

из внешнего мира

Т.е., и мультиварка, и "умная лампа", и бортовой компьютер автомобиля, и система мониторинга здоровья в связи с системой жизнеобеспечения (тот же аппарат ИВЛ) и прочие "умные вещи" — это всё варианты реализации ИИ, при том не имеющие по сути ничего общего ни по типу используемых алгоритмов, ни по области применения, ни по взаимодействию с человеческим оператором.

Можно просто спросить виновника торжества. Ниже будут приводиться в т.ч. ответы виртуального собеседника, одной из реализаций большой языковой модели (LLM). В разных ситуациях я буду спрашивать разные реализации и версии LLM, поэтому абсолютно все ответы помечены, со стороны ИИ, как LLM.

Важная оговорка. Разумеется, это не разговор, а работа вычислительной системы (текст на входе порождает текст на выходе). По уму, все ссылки на общение следует явно пометить как имитацию (т.е., писать "спросил", "ответил"), но я предпочитаю не замусоривать текст. Всё, что касается взаимодействия с вычислительными системами, является (очень или не очень) правдоподобной имитацией общения.

Далее текст от человека помечается словом "оператор".

Оператор: Я наблюдаю прискорбное состояние информированности людей о состоянии дел в области искусственного интеллекта. У большинства людей сложилось самое превратное представление об ИИ (предрассудки — от "Скайнета", что вот-вот покончит со всеми людьми и до сентенций вида "ИИ делает то, что человек умеет делать намного лучше").

С чего можно начать просвещение и каким путём идти?

LLM:

Просвещение в области искусственного интеллекта (ИИ) — это важная задача, учитывая распространение мифов

и недопонимание среди широкой аудитории. Начать можно с основ и постепенно углубляться в более сложные аспекты,

используя разнообразные методы и подходы. Вот несколько шагов, которые могут помочь в этом процессе:

Шаг 1: Объяснение Основ

1. Разработка Информационных Материалов:

Создайте простые и доступные объяснения о том, что такое ИИ, как он работает и какие

существуют виды ИИ (например, узкий ИИ и общий ИИ).

Используйте аналогии и примеры из повседневной жизни для объяснения сложных концепций.

2. Видеоконтент:

Запишите короткие видеоролики, объясняющие основные принципы ИИ и развеивающие распространенные

мифы.

Используйте анимацию и графику для визуализации процессов и идей.

Шаг 2: Публикации и Социальные Сети

1. Блоги и Статьи:

Пишите статьи, которые объясняют актуальные достижения в области ИИ, их применение и ограничения.

Размещайте эти статьи на популярных платформах и в социальных сетях.

2. Социальные Сети:

Создайте профиль в социальных сетях, посвященный просвещению в области ИИ.

Публикуйте факты, мифы и реалии о ИИ, используя инфографику и короткие посты.

Шаг 3: Образовательные Программы

1. Онлайн-курсы:

Разработайте онлайн-курсы или вебинары, которые помогут людям понять, что такое ИИ и как он работает.

Курсы могут быть как для начинающих, так и для тех, кто хочет углубиться в тему.

2. Лекции и Семинары:

Организуйте лекции и семинары в школах, университетах и на рабочих местах.

Приглашайте экспертов в области ИИ для выступлений и обсуждений.

Шаг 4: Интерактивные Мероприятия

1. Хакатоны и Воркшопы:

Проводите хакатоны и воркшопы, где люди могут сами попробовать создать простые модели ИИ.

123