Педагогика Bloom: Understand ⏱ 7 мин память

Почему модель не помнит разговор сама

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

☀️ Should Have

Без этого «почему AI забыл начало чата» и «почему длинный диалог дорожает» так и останутся магией. Фундамент всего разговора про память.

🤔 Зачем это читать

Менеджер ведёт с AI-ассистентом долгий разговор: полчаса согласовывает условия сделки, шаг за шагом, по мелочам. А в конце спрашивает: «так на какой цене мы остановились в самом начале?» — и получает уверенный, но неправильный ответ. Будто собеседник, с которым ты час всё проговаривал, вдруг забыл первые десять минут. Неприятно: ты ведь всё это написал, вот же оно, выше в чате.

Знакомо? Или другой вариант: ты долго разбираешь с ассистентом переписку с поставщиком — условие за условием, сроки, цены. А под конец месяца замечаешь, что эти длинные диалоги обходятся заметно дороже коротких. Вопросы те же, а вышло дороже. Откуда набежало именно на длинных чатах?

Оба раза дело в одной и той же штуке, про которую почти никто не говорит вслух: модель сама по себе не помнит ваш разговор. Вообще. То, что выглядит как «она помнит, о чём мы говорили» — на самом деле фокус. И когда понимаешь, как этот фокус устроен, сразу становится ясно и почему AI «забывает» начало длинного чата, и почему длинные диалоги дорожают. Это не два разных глюка. Это одна механика.

После этой темы ты сможешь объяснить — себе или коллеге, — почему AI «теряет» начало долгого разговора и почему длинный диалог стоит дороже короткого. И поймёшь, почему память в AI-продукте приходится строить отдельно, а не получать «бесплатно вместе с моделью».

Задержись на 10 секунд. Вспомни длинный разговор с AI, где под конец он будто забыл, о чём вы договаривались в начале, — или поплыл, начал противоречить сам себе. Что это была за ситуация? Держи её в голове: к концу страницы станет видно, что там на самом деле произошло, — и почему это не «глюк», а так и задумано.

🧑‍🍳 Шеф не помнит заказ — он слышит пересказ

Представь хорошую кухню. У окна выдачи стоит официант, а у плиты — шеф. Гость диктует заказ официанту, тот идёт к шефу и пересказывает. Шеф готовит. Через минуту гость добавляет: «и без лука, пожалуйста». Официант снова идёт к шефу. И вот тут важная деталь, которую легко пропустить.

Шеф не держит твой заказ в голове. Между блюдами он занят сотней других столов и про твой просто не помнит. Поэтому официант, подходя во второй раз, пересказывает заказ целиком, с самого начала: «стол семь — стейк прожарки медиум, гарнир картофель, и теперь ещё без лука». Не «добавь без лука» к тому, что шеф якобы помнит, а весь заказ заново. Шеф готовит, опираясь только на этот пересказ. Кажется, что шеф помнит твой стол. На деле он каждый раз слышит свежий пересказ — и работает по нему.

С AI-моделью всё ровно так же. Модель — это шеф (повар по насмотренности), а интерфейс чата — официант. Когда ты пишешь второе, третье, сотое сообщение, происходит вот что: программа-официант берёт всю историю вашего разговора — все твои сообщения и все ответы модели — и подаёт её шефу заново, целиком, вместе с новым вопросом. Каждый раз. Модель не «вспоминает», о чём вы говорили. Она каждый раз заново слышит пересказ всего разговора и отвечает по нему.

Третий вопрос в чате — что реально получает модель

🧑 Ты видишь чат

Ты: цена 100 ₽?

AI: да, 100 ₽

Ты: а со скидкой?

AI: 90 ₽

Ты: а на какой мы начали?

→

🧑‍🍳 Модель слышит пересказ

«Вот весь разговор целиком:

— спросили цену, ответил 100 ₽;

— спросили скидку, ответил 90 ₽;

— теперь спрашивают, с какой начали».

Ответь на последнее.»

Модель не «помнит» первые два круга. Ей каждый раз заново пересказывают весь разговор — и она отвечает по пересказу.

🪑 Откуда лимит: пересказ кладут на тот самый стол (контекстное окно — сколько влезает разом)

Помнишь рабочий стол повара из темы про токены и контекстное окно (2.3 — Токены и контекстное окно: рабочий стол повара)? Кратко напомню: контекстное окно (рабочий стол повара — сколько кусочков-заготовок помещается перед ним разом) — это ограниченное место, на котором лежит всё сразу: твой запрос, документы, место под ответ. Так вот, пересказ всей истории кладут туда же.

И тут вылезает первое следствие. История разговора растёт с каждым кругом. Первый вопрос — на столе почти пусто. Сотый вопрос — на столе пересказ девяноста девяти предыдущих кругов плюс все ответы. Рано или поздно этот пересказ перестаёт помещаться на стол. И тогда самые старые куски разговора — то самое начало — приходится сдвинуть с края, чтобы освободить место под новое. Они буквально исчезают со стола. Шеф их больше не слышит в пересказе — значит, для него их и нет.

Вот тебе и ответ на загадку «AI забыл, что я писал в начале длинного чата». Он не забыл в человеческом смысле. Просто начало вашего разговора сдвинули со стола, чтобы влез конец. А то, чего нет на столе, для модели не существует — она ведь и так ничего не помнит, она работает только с тем, что ей пересказали прямо сейчас.

💸 Откуда цена: за пересказ платят каждый раз

Второе следствие — про деньги. Снова вернёмся к тому, что мы знаем: модель считает деньги в токенах (кусочках текста), и платишь ты за каждый кусочек, который лёг на стол. А теперь сложи это с пересказом.

Каждый новый вопрос тащит на стол всю историю заново. Значит, на сотом вопросе ты оплачиваешь не только сотый вопрос — ты оплачиваешь пересказ всех девяноста девяти предыдущих кругов, который снова разложили на стол. И на сто первом — то же самое плюс ещё один круг. Чем длиннее диалог, тем длиннее пересказ, тем больше кусочков на столе, тем выше счёт за каждый следующий ответ.

Поэтому короткий вопрос в конце длинного разговора может стоить дороже, чем тот же вопрос в начале. Не потому, что вопрос стал сложнее. А потому, что вместе с ним каждый раз заново оплачивается весь предыдущий разговор. Длинный диалог дорожает не рывком, а накопительно — как снежный ком.

Чем длиннее диалог, тем длиннее пересказ

пересказ

1-й вопрос
стол почти пуст · дёшево

пересказ растёт

20-й вопрос
стол заполняется · дороже

пересказ переполняет стол

100-й вопрос
дорого · начало сдвинуто со стола

Один и тот же короткий вопрос на 100-м круге дороже, чем на 1-м: вместе с ним каждый раз оплачивается весь разговор до него.

Псевдокод · что происходит на каждый твой новый вопрос # это НЕ настоящий код, а логика на человеческом языке
# у модели НЕТ своей памяти о разговоре — её собирает программа-официант
пересказ = вся_история_разговора + твой_новый_вопрос

положить_на_стол(пересказ) # весь разговор заново, каждый раз
ответ = модель_отвечает_по_столу() # видит только то, что на столе сейчас
счёт += посчитать_токены(пересказ) # платишь за весь пересказ снова

# → история растёт → пересказ длиннее → дороже И рано или поздно не влезает
# → когда не влезло: начало сдвигают со стола → «модель забыла начало»

Заметь главное в этом псевдокоде: память собирает программа вокруг модели, а не сама модель. Официант ведёт записи и пересказывает — шеф просто готовит по услышанному. Это и есть фокус, который мы обещали раскрыть. «Модель помнит разговор» — иллюзия, которую создаёт пересказ. А раз так — ясно, что для настоящей, надёжной памяти (чтобы AI помнил тебя через неделю, а не терял начало через час) её нужно строить отдельно, отдельным механизмом. Об этом — дальше в модуле.

Прежде чем трогать тренажёр — прикинь сам. Если модель сама ничего не помнит, а официант каждый раз пересказывает ей весь разговор заново, то ответь на два вопроса в голове: что произойдёт со счётом, когда диалог станет очень длинным? И почему именно начало разговора пропадает первым, а не конец? Подержи свои догадки — и проверь их утверждениями ниже.

🎮 Правда или миф про память модели

Пять утверждений про то, как модель «помнит» разговор. По каждому реши: это правда или миф. Жми кнопку — сразу увидишь разбор. Это не экзамен, а проверка, уложилась ли механика «официант пересказывает шефу».

📖 Ключевые понятия

Модель сама не помнит: Языковая модель не хранит ваш разговор между сообщениями. На каждый новый вопрос ей заново подают всю историю диалога как часть запроса. «Помнит» — это иллюзия: на деле она каждый раз отвечает по свежему пересказу, а не по воспоминаниям.
Пересказ истории (официант → шеф): Программа вокруг модели (интерфейс чата) собирает все прошлые сообщения и ответы и подаёт их модели заново вместе с новым вопросом — каждый раз с начала. Это аналог официанта, который пересказывает шефу весь заказ целиком при каждом подходе.
Лимит из-за окна: Пересказ ложится на рабочий стол повара — контекстное окно. История растёт с каждым кругом и рано или поздно перестаёт помещаться. Тогда самое старое (начало разговора) сдвигают со стола — отсюда «AI забыл, что было вначале».
Рост цены с длиной диалога: Платишь за каждый кусочек-токен на столе, а пересказ растёт с каждым кругом. Поэтому один и тот же вопрос в конце длинного диалога дороже, чем в начале: вместе с ним каждый раз оплачивается весь разговор до него.

🛡️ Частые заблуждения

«AI забыл начало нашего разговора — значит, он сломался или поглупел»

Не сломался. Начало просто сдвинули со стола (из контекстного окна), чтобы влез конец длинного диалога. Модель и так ничего не помнит сама — она отвечает по тому, что ей пересказали сейчас. Нет начала в пересказе — нет его и для модели. Это не глюк, а прямое следствие того, как всё устроено.

«Длинный диалог стоит столько же, сколько короткий, — вопросы-то простые»

Дороже. Каждый круг тащит на стол всю историю заново, и за неё каждый раз платишь токенами. Сотый вопрос обходится дороже первого, даже если он короче, — потому что вместе с ним заново оплачивается весь предыдущий разговор. Цена растёт накопительно с длиной чата.

«Я очистил чат и начал заново — но модель ведь всё равно где-то помнит, что я писал раньше»

Сама модель — нет. Из прошлого разговора она ничего не уносит: новый чат для неё чистый стол, пересказывать в нём нечего. Другое дело — программа вокруг неё: интерфейс может сохранять историю на сервере, чтобы показать её тебе позже или подкладывать в новые чаты. Но это уже отдельное хранилище, которое кто-то специально сделал, — а не «память модели». Что именно туда складывают и можно ли это хранить — отдельный разговор (об этом дальше в модуле, тема про приватность).

🧠 AI-чутьё (AI Judgment)

Память модели по умолчанию — это пересказ, а не воспоминание

Главное, что стоит унести с этой страницы: сама модель ничего не помнит — то, что выглядит как память, на деле каждый раз заново пересказанная история разговора. Эта одна мысль объясняет сразу две вещи, которые на работе обычно списывают на «магию» или «глюк»: почему AI теряет начало длинного чата (история не влезла на стол) и почему длинные диалоги дорожают (за пересказ платишь каждый круг).

Отсюда рабочее правило владельца. Когда тебе обещают AI-ассистента, который «помнит всё про клиента» или «держит весь контекст переписки», мысленно прикладывай вопрос: «За счёт чего он помнит — просто пересказывает весь разговор каждый раз (тогда это упрётся в лимит и в счёт), или под капотом есть отдельный механизм памяти?». Это не придирка. Это разница между ассистентом, который дешёво и надёжно помнит нужное, и тем, который к концу длинного диалога тупит, теряет начало и жжёт бюджет.

И вот мостик в следующую тему. Раз настоящую память нельзя получить «бесплатно вместе с моделью», её приходится строить — и тут оказывается, что память бывает разная: одна на текущий разговор, другая — на «навсегда». С этого и начнём дальше.

🎯 Практика

Одно задание на пять минут, чтобы «модель не помнит сама» увидеть своими глазами, а не на словах.

Открой любой привычный AI-чат. Начни новый разговор и в первом сообщении назови какую-нибудь деталь — например: «меня зовут Игорь, я веду проект „Весна“».
Дальше поговори с ним о чём угодно постороннем, кругов на пять-семь, не упоминая ни имя, ни проект. А потом спроси: «как меня зовут и как называется мой проект?». Пока разговор короткий — он ответит верно: начало ещё лежит на столе и пересказывается.
Теперь главное наблюдение про память между чатами: открой совершенно новый чат (не продолжение старого) и спроси то же самое — «как меня зовут?». Он не будет знать. Это и есть доказательство: модель сама ничего не уносит из прошлого разговора. Помнит ровно столько, сколько ей пересказали в текущем окне, — и ни секундой дольше.

Помнишь случай из начала — долгий разговор, где AI будто забыл, о чём договаривались вначале? Теперь видно, что там было: начало разговора сдвинули со стола, чтобы влез конец, и в пересказе его уже не оказалось. Не «поглупел» — просто так устроено.

🔗 Что дальше

Следующая тема: 6.2 — Короткая и длинная память. Раз память приходится строить отдельно — разберём, какая она бывает: одна живёт только в текущем разговоре (тот самый пересказ на столе), другая хранится «навсегда» и переживает закрытие чата. Это и есть выход из ловушки, которую мы только что разобрали.

Связанные темы:

2.3 — Токены и контекстное окно: рабочий стол повара — фундамент под этой темой: что за «стол», на который кладут пересказ, и почему он конечный.
6.3 — Три вида памяти — когда настоящую память всё-таки строят, у неё оказывается несколько разных видов под разные задачи.
6.4 — Память и приватность — если AI начинает помнить клиентов, всплывает вопрос: а что именно ему можно запоминать и хранить.