Почему модель не помнит разговор сама
🤔 Зачем это читать
Менеджер ведёт с AI-ассистентом долгий разговор: полчаса согласовывает условия сделки, шаг за шагом, по мелочам. А в конце спрашивает: «так на какой цене мы остановились в самом начале?» — и получает уверенный, но неправильный ответ. Будто собеседник, с которым ты час всё проговаривал, вдруг забыл первые десять минут. Неприятно: ты ведь всё это написал, вот же оно, выше в чате.
Знакомо? Или другой вариант: ты долго разбираешь с ассистентом переписку с поставщиком — условие за условием, сроки, цены. А под конец месяца замечаешь, что эти длинные диалоги обходятся заметно дороже коротких. Вопросы те же, а вышло дороже. Откуда набежало именно на длинных чатах?
Оба раза дело в одной и той же штуке, про которую почти никто не говорит вслух: модель сама по себе не помнит ваш разговор. Вообще. То, что выглядит как «она помнит, о чём мы говорили» — на самом деле фокус. И когда понимаешь, как этот фокус устроен, сразу становится ясно и почему AI «забывает» начало длинного чата, и почему длинные диалоги дорожают. Это не два разных глюка. Это одна механика.
После этой темы ты сможешь объяснить — себе или коллеге, — почему AI «теряет» начало долгого разговора и почему длинный диалог стоит дороже короткого. И поймёшь, почему память в AI-продукте приходится строить отдельно, а не получать «бесплатно вместе с моделью».
Задержись на 10 секунд. Вспомни длинный разговор с AI, где под конец он будто забыл, о чём вы договаривались в начале, — или поплыл, начал противоречить сам себе. Что это была за ситуация? Держи её в голове: к концу страницы станет видно, что там на самом деле произошло, — и почему это не «глюк», а так и задумано.
🧑🍳 Шеф не помнит заказ — он слышит пересказ
Представь хорошую кухню. У окна выдачи стоит официант, а у плиты — шеф. Гость диктует заказ официанту, тот идёт к шефу и пересказывает. Шеф готовит. Через минуту гость добавляет: «и без лука, пожалуйста». Официант снова идёт к шефу. И вот тут важная деталь, которую легко пропустить.
Шеф не держит твой заказ в голове. Между блюдами он занят сотней других столов и про твой просто не помнит. Поэтому официант, подходя во второй раз, пересказывает заказ целиком, с самого начала: «стол семь — стейк прожарки медиум, гарнир картофель, и теперь ещё без лука». Не «добавь без лука» к тому, что шеф якобы помнит, а весь заказ заново. Шеф готовит, опираясь только на этот пересказ. Кажется, что шеф помнит твой стол. На деле он каждый раз слышит свежий пересказ — и работает по нему.
С AI-моделью всё ровно так же. Модель — это шеф (повар по насмотренности), а интерфейс чата — официант. Когда ты пишешь второе, третье, сотое сообщение, происходит вот что: программа-официант берёт всю историю вашего разговора — все твои сообщения и все ответы модели — и подаёт её шефу заново, целиком, вместе с новым вопросом. Каждый раз. Модель не «вспоминает», о чём вы говорили. Она каждый раз заново слышит пересказ всего разговора и отвечает по нему.
🪑 Откуда лимит: пересказ кладут на тот самый стол (контекстное окно — сколько влезает разом)
Помнишь рабочий стол повара из темы про токены и контекстное окно (2.3 — Токены и контекстное окно: рабочий стол повара)? Кратко напомню: контекстное окно (рабочий стол повара — сколько кусочков-заготовок помещается перед ним разом) — это ограниченное место, на котором лежит всё сразу: твой запрос, документы, место под ответ. Так вот, пересказ всей истории кладут туда же.
И тут вылезает первое следствие. История разговора растёт с каждым кругом. Первый вопрос — на столе почти пусто. Сотый вопрос — на столе пересказ девяноста девяти предыдущих кругов плюс все ответы. Рано или поздно этот пересказ перестаёт помещаться на стол. И тогда самые старые куски разговора — то самое начало — приходится сдвинуть с края, чтобы освободить место под новое. Они буквально исчезают со стола. Шеф их больше не слышит в пересказе — значит, для него их и нет.
Вот тебе и ответ на загадку «AI забыл, что я писал в начале длинного чата». Он не забыл в человеческом смысле. Просто начало вашего разговора сдвинули со стола, чтобы влез конец. А то, чего нет на столе, для модели не существует — она ведь и так ничего не помнит, она работает только с тем, что ей пересказали прямо сейчас.
💸 Откуда цена: за пересказ платят каждый раз
Второе следствие — про деньги. Снова вернёмся к тому, что мы знаем: модель считает деньги в токенах (кусочках текста), и платишь ты за каждый кусочек, который лёг на стол. А теперь сложи это с пересказом.
Каждый новый вопрос тащит на стол всю историю заново. Значит, на сотом вопросе ты оплачиваешь не только сотый вопрос — ты оплачиваешь пересказ всех девяноста девяти предыдущих кругов, который снова разложили на стол. И на сто первом — то же самое плюс ещё один круг. Чем длиннее диалог, тем длиннее пересказ, тем больше кусочков на столе, тем выше счёт за каждый следующий ответ.
Поэтому короткий вопрос в конце длинного разговора может стоить дороже, чем тот же вопрос в начале. Не потому, что вопрос стал сложнее. А потому, что вместе с ним каждый раз заново оплачивается весь предыдущий разговор. Длинный диалог дорожает не рывком, а накопительно — как снежный ком.
стол почти пуст · дёшево
стол заполняется · дороже
дорого · начало сдвинуто со стола
# у модели НЕТ своей памяти о разговоре — её собирает программа-официант
пересказ = вся_история_разговора + твой_новый_вопрос
положить_на_стол(пересказ) # весь разговор заново, каждый раз
ответ = модель_отвечает_по_столу() # видит только то, что на столе сейчас
счёт += посчитать_токены(пересказ) # платишь за весь пересказ снова
# → история растёт → пересказ длиннее → дороже И рано или поздно не влезает
# → когда не влезло: начало сдвигают со стола → «модель забыла начало»
Заметь главное в этом псевдокоде: память собирает программа вокруг модели, а не сама модель. Официант ведёт записи и пересказывает — шеф просто готовит по услышанному. Это и есть фокус, который мы обещали раскрыть. «Модель помнит разговор» — иллюзия, которую создаёт пересказ. А раз так — ясно, что для настоящей, надёжной памяти (чтобы AI помнил тебя через неделю, а не терял начало через час) её нужно строить отдельно, отдельным механизмом. Об этом — дальше в модуле.
Прежде чем трогать тренажёр — прикинь сам. Если модель сама ничего не помнит, а официант каждый раз пересказывает ей весь разговор заново, то ответь на два вопроса в голове: что произойдёт со счётом, когда диалог станет очень длинным? И почему именно начало разговора пропадает первым, а не конец? Подержи свои догадки — и проверь их утверждениями ниже.
🎮 Правда или миф про память модели
Пять утверждений про то, как модель «помнит» разговор. По каждому реши: это правда или миф. Жми кнопку — сразу увидишь разбор. Это не экзамен, а проверка, уложилась ли механика «официант пересказывает шефу».
📖 Ключевые понятия
- Модель сама не помнит
- Языковая модель не хранит ваш разговор между сообщениями. На каждый новый вопрос ей заново подают всю историю диалога как часть запроса. «Помнит» — это иллюзия: на деле она каждый раз отвечает по свежему пересказу, а не по воспоминаниям.
- Пересказ истории (официант → шеф)
- Программа вокруг модели (интерфейс чата) собирает все прошлые сообщения и ответы и подаёт их модели заново вместе с новым вопросом — каждый раз с начала. Это аналог официанта, который пересказывает шефу весь заказ целиком при каждом подходе.
- Лимит из-за окна
- Пересказ ложится на рабочий стол повара — контекстное окно. История растёт с каждым кругом и рано или поздно перестаёт помещаться. Тогда самое старое (начало разговора) сдвигают со стола — отсюда «AI забыл, что было вначале».
- Рост цены с длиной диалога
- Платишь за каждый кусочек-токен на столе, а пересказ растёт с каждым кругом. Поэтому один и тот же вопрос в конце длинного диалога дороже, чем в начале: вместе с ним каждый раз оплачивается весь разговор до него.
🛡️ Частые заблуждения
«AI забыл начало нашего разговора — значит, он сломался или поглупел»
Не сломался. Начало просто сдвинули со стола (из контекстного окна), чтобы влез конец длинного диалога. Модель и так ничего не помнит сама — она отвечает по тому, что ей пересказали сейчас. Нет начала в пересказе — нет его и для модели. Это не глюк, а прямое следствие того, как всё устроено.
«Длинный диалог стоит столько же, сколько короткий, — вопросы-то простые»
Дороже. Каждый круг тащит на стол всю историю заново, и за неё каждый раз платишь токенами. Сотый вопрос обходится дороже первого, даже если он короче, — потому что вместе с ним заново оплачивается весь предыдущий разговор. Цена растёт накопительно с длиной чата.
«Я очистил чат и начал заново — но модель ведь всё равно где-то помнит, что я писал раньше»
Сама модель — нет. Из прошлого разговора она ничего не уносит: новый чат для неё чистый стол, пересказывать в нём нечего. Другое дело — программа вокруг неё: интерфейс может сохранять историю на сервере, чтобы показать её тебе позже или подкладывать в новые чаты. Но это уже отдельное хранилище, которое кто-то специально сделал, — а не «память модели». Что именно туда складывают и можно ли это хранить — отдельный разговор (об этом дальше в модуле, тема про приватность).
🧠 AI-чутьё (AI Judgment)
Память модели по умолчанию — это пересказ, а не воспоминание
Главное, что стоит унести с этой страницы: сама модель ничего не помнит — то, что выглядит как память, на деле каждый раз заново пересказанная история разговора. Эта одна мысль объясняет сразу две вещи, которые на работе обычно списывают на «магию» или «глюк»: почему AI теряет начало длинного чата (история не влезла на стол) и почему длинные диалоги дорожают (за пересказ платишь каждый круг).
Отсюда рабочее правило владельца. Когда тебе обещают AI-ассистента, который «помнит всё про клиента» или «держит весь контекст переписки», мысленно прикладывай вопрос: «За счёт чего он помнит — просто пересказывает весь разговор каждый раз (тогда это упрётся в лимит и в счёт), или под капотом есть отдельный механизм памяти?». Это не придирка. Это разница между ассистентом, который дешёво и надёжно помнит нужное, и тем, который к концу длинного диалога тупит, теряет начало и жжёт бюджет.
И вот мостик в следующую тему. Раз настоящую память нельзя получить «бесплатно вместе с моделью», её приходится строить — и тут оказывается, что память бывает разная: одна на текущий разговор, другая — на «навсегда». С этого и начнём дальше.
🎯 Практика
Одно задание на пять минут, чтобы «модель не помнит сама» увидеть своими глазами, а не на словах.
- Открой любой привычный AI-чат. Начни новый разговор и в первом сообщении назови какую-нибудь деталь — например: «меня зовут Игорь, я веду проект „Весна“».
- Дальше поговори с ним о чём угодно постороннем, кругов на пять-семь, не упоминая ни имя, ни проект. А потом спроси: «как меня зовут и как называется мой проект?». Пока разговор короткий — он ответит верно: начало ещё лежит на столе и пересказывается.
- Теперь главное наблюдение про память между чатами: открой совершенно новый чат (не продолжение старого) и спроси то же самое — «как меня зовут?». Он не будет знать. Это и есть доказательство: модель сама ничего не уносит из прошлого разговора. Помнит ровно столько, сколько ей пересказали в текущем окне, — и ни секундой дольше.
Помнишь случай из начала — долгий разговор, где AI будто забыл, о чём договаривались вначале? Теперь видно, что там было: начало разговора сдвинули со стола, чтобы влез конец, и в пересказе его уже не оказалось. Не «поглупел» — просто так устроено.