Андрагогика Bloom: Apply ⏱ 9 мин память агента

Короткая и длинная память

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

🔥 Must Have

Без этого различия любой разговор про «персонализацию» и «AI, который помнит клиента» — пустой. Опора для всего модуля.

🤔 Зачем это читать

Менеджер по продажам полчаса объясняет AI-ассистенту, кто такой клиент «Северсталь-Логистик»: какой у них договор, на чём в прошлый раз споткнулись, чего боится их закупщик. Ассистент отвечает блестяще. На следующее утро менеджер открывает новый чат, пишет «продолжаем по Северстали» — и в ответ вежливое «расскажите, пожалуйста, о каком клиенте речь». Снова с чистого листа. Как будто вчерашнего разговора и не было.

Знакомо? Или другой вариант: вендор показывает слайд — «наш AI запоминает каждого вашего покупателя и общается персонально». Звучит дорого и солидно. А внутри, может быть, обычный чат, который «помнит» ровно до конца сессии, а наутро забывает всех. Снаружи на демо не отличить. Платишь — за разное.

Оба раза дело в одной невидимой границе, про которую никто не предупреждает. У AI два совершенно разных вида памяти, и их постоянно путают — в том числе те, кто продаёт. Один живёт ровно до конца разговора и потом стирается. Другой переживает любой «новый чат». Не различаешь их — и либо удивляешься, почему ассистент тебя «не помнит», либо платишь за персонализацию, которой нет.

После этой темы ты сможешь сам определить, какой памяти требует твоя задача — короткой или длинной, — и поймать момент, когда тебе продают одно под видом другого. Это уже не теория «как оно устроено», а рабочий навык: посмотрел на задачу — назвал нужный тип памяти.

Задержись на 10 секунд. Вспомни случай, когда ты ждал, что AI что-то «запомнит» между разговорами — клиента, твои правки, договорённость, — а в следующий раз он начал с нуля. Что это была за ситуация? Держи её в голове: к концу страницы станет видно, какой именно памяти там не хватило и можно ли это вообще починить.

🧠 Откуда вообще берётся «забывчивость»

В прошлой теме (6.1 — Почему модель не помнит прошлый разговор) мы разобрали неприятную правду: сама по себе модель-повар ничего не помнит. Каждый ответ она готовит заново, глядя только на то, что прямо сейчас лежит у неё на рабочем столе — в контекстном окне (рабочий стол повара: сколько кусочков текста влезает перед ним разом, см. 2.3 — Токены и контекстное окно). Убрал со стола — забылось. Точка.

Так вот, «память агента» — это не одна штука, а два разных механизма, которые решают эту проблему с двух разных сторон. И вся путаница в индустрии — оттого, что оба называют одним словом «память». Давай разведём их раз и навсегда, на примере кухни.

🍳 Короткая память — то, что повар держит в голове на текущий заказ

Представь повара в разгар смены. Официант подходит: «Стол 5 — стейк без лука, девочка слева аллергик на орехи, торопятся». Повар кивает и держит это в голове, пока готовит именно этот заказ. Лук не кладёт, орехов рядом не держит, шевелится быстрее. Всё работает идеально — пока готовится этот заказ.

А теперь стол 5 рассчитался и ушёл. Что осталось в голове у повара про «без лука»? Ничего. Он уже про следующий стол думает. И это нормально — иначе к концу вечера у него в голове была бы каша из двухсот заказов.

Это и есть короткая память (short-term memory). Технически — это всё то же контекстное окно: история текущего разговора, которая лежит у модели на столе, пока сессия открыта. Она отлично работает внутри одного разговора и живёт только до его конца — стирается, как только разговор закончился. Закрыл чат, открыл новый — стол вытерли, повар тебя «не знает».

Сразу снимем главную ловушку. «А давайте возьмём модель с огромным окном на миллион токенов — тогда она всё запомнит!» Нет. Большой стол — это всё та же короткая память, просто стол шире. Повар держит в голове больше текущего заказа — но в конце смены стол всё равно вытирают начисто. «Длинное окно» не делает память постоянной. Это разные оси: ширина стола и наличие книги на полке. Запомни это, мы вернёмся к этому в разделе про чутьё.

📖 Длинная память — рецептурная книга и карточки постоянных гостей

Теперь — второй механизм, совсем другой. У хорошего ресторана, кроме поваров с их сменной памятью, есть полка. На полке — рецептурная книга (как мы готовим фирменные блюда) и картотека постоянных гостей: карточка на каждого завсегдатая. «Иванов, столик у окна, не ест острое, на годовщину берёт то самое вино, в прошлый раз жаловался на медленную подачу».

Эта полка никуда не девается в конце смены. Завтра придёт другой повар, снимет карточку Иванова — и обслужит его так, будто помнит лично. Между сменами, между визитами, между годами. Это длинная память (long-term memory): знания живут не в голове повара, а во внешнем хранилище, отдельно от любого конкретного разговора. Перед тем как ответить, агент идёт к этой полке, достаёт нужную карточку и кладёт её повару на стол. Между сессиями — помнит.

Картотека, которая ищет по смыслу

И вот тут — самое интересное и неочевидное. Эта картотека не обычная, не алфавитная. Это умная картотека, которая ищет по смыслу, а не по точному слову. (Английские названия этой технологии — в «Ключевых понятиях» внизу, тут они нам не нужны.)

Разница принципиальная. Обычная картотека найдёт карточку, только если ты назвал точное слово, которое на ней написано. Умная — находит по тому, что ты имел в виду. Спросил у неё «прозрачный навар из птицы» — а на карточке написано «куриный бульон». Слова разные, ни одно не совпало. Но по смыслу это одно и то же — и картотека выдаёт правильную карточку. Спросил «чем бы накормить гостя с непереносимостью молочного» — найдёт карточку «безлактозное меню», хотя слова «молочное» там может и не быть.

Два вида памяти — на одной кухне

🍳

Короткая

В голове повара на текущий заказ. «Стол 5 — без лука». Работает весь разговор. Смена кончилась — стол вытерли, всё стёрлось.

📖

Длинная

Книга и карточки гостей на полке. Лежит между сменами. Завтра другой повар снимет карточку — и помнит гостя. Ищется по смыслу.

Короткая — внутри одной сессии, до конца разговора. Длинная — между сессиями, во внешнем хранилище. «Большой стол» — это по-прежнему короткая.

Зачем это всё владельцу? Затем, что именно длинная память превращает «тупой бот, который каждое утро здоровается как с незнакомцем» в ассистента, который помнит клиента, договорённости и историю — между разговорами, неделями, месяцами. Та самая «персонализация», за которую платят, живёт здесь, на полке, а не в ширине стола.

        Псевдокод · как агент достаёт длинную память перед ответом
        # это НЕ настоящий код, а логика на человеческом языке

        пришёл_запрос = "продолжаем по Северстали"

        # идём к умной картотеке и ищем ПО СМЫСЛУ, а не по точному слову

        карточка = картотека.найти_по_смыслу("Северсталь-Логистик")

        # кладём найденное повару на стол вместе с запросом

        на_столе = карточка + пришёл_запрос

        ответ = повар.приготовить(на_столе)

        # → теперь повар «помнит» клиента, хотя сам разговор начат с нуля

🔀 Как они работают вместе

Важно: это не «или-или». В живом ассистенте обычно работают обе памяти сразу, и каждая на своём месте. Короткая держит нить текущего разговора (о чём мы говорим прямо сейчас, что ты уточнил две реплики назад). Длинная подкладывает на стол то, что важно помнить вообще (кто этот клиент, чем кончилась прошлая встреча).

Простое правило. Спроси себя: «это должно дожить до следующего разговора?» Если нет — хватит короткой, она бесплатно идёт в комплекте с любым чатом. Если да — нужна длинная, а это уже отдельное внешнее хранилище, которое кто-то должен построить и оплачивать. На этом вопросе и построен тренажёр ниже.

Прежде чем трогать тренажёр — прикинь сам. Возьми ту свою ситуацию из начала страницы, где AI «начал с нуля». Задай ей один вопрос: то, что ты хотел сохранить, должно было дожить до следующего разговора — или хватало текущего? Если до следующего — какой памяти там не хватило? Подержи догадку в голове: сейчас прогоним пять рабочих задач и проверим твоё чутьё.

🎮 Какая память нужна этой задаче

Пять рабочих задач для AI-ассистента. По каждой реши: достаточно короткой памяти (всё в рамках одного разговора) или нужна длинная (помнить между разговорами, внешнее хранилище)? Жми кнопку — сразу увидишь разбор. Главный вопрос-подсказка один: это должно дожить до следующей сессии?

📖 Ключевые понятия

Короткая память (short-term memory): То, что повар держит в голове на текущий заказ. Технически — история разговора в контекстном окне, на рабочем столе модели. Отлично работает внутри одной сессии и живёт только до конца разговора: разговор закончился — память стёрлась. Идёт в комплекте с любым чатом бесплатно.
Длинная память (long-term memory): Рецептурная книга и карточки гостей на полке: знания живут во внешнем хранилище, отдельно от любого разговора, и переживают конец сессии. Перед ответом агент достаёт нужное и кладёт повару на стол. Именно она даёт память между сессиями и персонализацию. Её надо отдельно строить и оплачивать.
Умная картотека по смыслу (vector DB): Хранилище для длинной памяти, которое ищет не по точному совпадению слов, а по смыслу. Поиск в ней — поиск по смыслу (semantic search) или просто поиск (retrieval). Спросил «прозрачный навар из птицы» — найдёт карточку «куриный бульон», хотя ни одно слово не совпало.
«Длинное окно» ≠ длинная память: Контекстное окно на миллион токенов — это широкий стол, но всё та же короткая память: в конце сессии его вытирают. Размер окна и наличие внешнего хранилища — две разные вещи. Большой стол не делает память постоянной.

🛡️ Частые заблуждения

«Возьмём модель с окном побольше — и она будет помнить всё и навсегда»

Нет. Большое окно — это всё та же короткая память, просто стол шире. В конце сессии его вытирают начисто. Память «навсегда» и «между разговорами» даёт только длинная — внешнее хранилище, а не ширина стола.

«Если AI один раз меня понял и хорошо ответил — значит, он меня запомнил»

Понял ≠ запомнил между сессиями. Внутри текущего разговора он держит контекст блестяще (короткая память). Но открой завтра новый чат — и без длинной памяти он снова не знает, кто ты. Хороший ответ сегодня ничего не обещает на завтра.

«AI и так помнит наши прошлые разговоры — это же одна и та же программа»

По умолчанию — не помнит. Каждый новый чат он начинает с чистого листа, как будто видит тебя впервые. Чтобы он помнил прошлые разговоры, кто-то должен специально подключить длинную память — внешнее хранилище. Само по себе оно не появляется, даже если ты заходишь под своим логином.

🧠 AI-чутьё (AI Judgment)

«Длинное окно» — не постоянная память; персонализация требует длинной памяти

Главная мысль, которую стоит унести с этой страницы: когда тебе обещают, что AI будет «помнить клиента» и «общаться персонально», — это обещание про длинную память, а не про размер окна. И вот тут продавцы регулярно ловят покупателей. На демо показывают, как ассистент блестяще держит длинный разговор, и называют это «памятью». Но это короткая память — она стирается в конце сессии. Персонализация между визитами на ней невозможна в принципе.

Отсюда рабочее правило владельца. Услышал «персонализация», «помнит каждого клиента», «учится на истории» — мысленно приложи два вопроса: «Это должно жить между разговорами — то есть нужна длинная память, внешнее хранилище?» и «А оно у вас вообще есть, или вы мне ширину окна показываете под видом памяти?». Если в ответ начинают про «огромное контекстное окно» — это красный флаг: тебе путают (вольно или нет) две разные вещи.

И сразу о цене вопроса, без неё картина неполная. Длинная память — это не бесплатный бонус. Её надо построить, наполнять, поддерживать и платить за хранилище. А ещё в ней оседают данные клиентов — а это уже про приватность и закон, отдельный серьёзный разговор (его поднимем в теме 6.4 — Память и приватность). Так что правильный вопрос звучит не «а можно сделать, чтобы помнил?», а «нам эта память правда нужна на этой задаче — и кто оплатит её содержание и риски?».

🎯 Практика

Одно задание на пять минут, чтобы различие «короткая / длинная» закрепилось на твоих реальных задачах, а не на абстрактных.

Выпиши две задачи со своей работы, где ты хотел бы подключить AI-ассистента. Любые — разбор документа, ответы клиентам, помощь с отчётом.
По каждой задай один вопрос: «то, что ассистент узнал, должно дожить до следующего разговора?» Если нет — пометь «короткая». Если да (помнить клиента, мои правила, историю) — пометь «длинная, нужно внешнее хранилище».
Для тех, где вышло «длинная», добавь третий вопрос — «а кто это построит и оплатит, и не попадут ли туда персональные данные?». Если ответа нет — ты только что нашёл то, что обязательно надо проговорить с вендором или командой до, а не после запуска.

Помнишь случай из начала — где AI «начал с нуля»? Теперь видно, что там не хватило именно длинной памяти: то, что ты хотел сохранить, должно было дожить до следующего разговора, а короткая память к тому моменту уже стёрлась. Это чинится — но не «окном побольше», а внешним хранилищем.

🔗 Что дальше

Следующая тема: 6.3 — Три вида памяти. Длинную память раскладываем по полочкам: что помнить как факты, что как удачный опыт, а что как правило работы — и почему это не одно и то же.

Связанные темы:

6.1 — Почему модель не помнит прошлый разговор — фундамент под этой темой: почему повар сам по себе ничего не запоминает и откуда вообще берётся нужда в памяти.
6.4 — Память и приватность — оборотная сторона длинной памяти: в хранилище оседают данные клиентов, а это уже про закон и риск.
2.3 — Токены и контекстное окно — про рабочий стол повара, на котором живёт короткая память; здесь видно, почему «окно побольше» — это всё ещё она.