Универсальный Bloom: Analyze ⏱ 11 мин самоулучшение

Reflexion: агент учится на своих ошибках

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

💧 Could Have

Красивый и важный приём, но не фундамент. Прочти, чтобы понимать слово «самообучающийся агент» и не вестись на него вслепую.

🤔 Зачем это читать

У тебя в работе уже месяц AI-агент разбирает входящие заявки. И каждую среду он спотыкается об одно и то же: видит в письме слово «срочно», ставит наивысший приоритет и дёргает дежурного — хотя «срочно» там стоит в каждом втором письме просто для веса. Ты ему объясняешь. Он кивает (ну, в переносном смысле). На следующей неделе — ровно та же ошибка. Будто разговариваешь со стенкой, которая каждое утро забывает вчерашний день.

Знакомо? Это бесит сильнее, чем разовый промах. Разовую ошибку прощаешь. А вот когда одни и те же грабли раз за разом — закрадывается мысль: «он что, вообще не учится?». И мысль верная: по умолчанию — не учится. Каждый запуск для агента — чистый лист. Вчерашний провал он не помнит, потому что ему негде его хранить.

А теперь представь, что после каждого промаха агент записывает короткий разбор в свой блокнот — «слово „срочно“ в письме само по себе ничего не значит, проверяй по сумме и срокам» — и в начале следующего разбора заглядывает в этот блокнот. Та же ошибка перестаёт повторяться. Агент будто становится опытнее со временем. Этот приём называется reflexion (самоулучшение через записи об ошибках) — и да, это другое слово, не «рефлексия» из темы про дегустацию, разницу разберём отдельно, она важная.

После этой темы ты сможешь отличить агента, который реально умнеет от своих ошибок, от агента, который просто красиво называется «самообучающимся» — и поймёшь главную ловушку: учиться на ошибках можно, только если честно знаешь, что было ошибкой. Нет честного сигнала — и агент с тем же усердием зазубрит чушь.

Задержись на 10 секунд. Вспомни сотрудника или процесс у себя, который повторяет одну и ту же ошибку из месяца в месяц. И спроси себя: а откуда вообще стало известно, что это ошибка? Кто и как это зафиксировал? Подержи ответ в голове — к концу страницы окажется, что именно этот ответ решает, сможет агент научиться или нет.

📓 Бортовой журнал кухни: «соус свернулся — убавляю огонь»

Снова на кухню — тут это видно нагляднее всего. Представь толкового повара, который вечером, после смены, тратит две минуты на одну запись в журнал бригады. Не отчёт для начальства — заметку для себя на будущее. Сегодня у него свернулся соус: молоко пошло хлопьями, блюдо в мусор, гость недоволен. Он записывает коротко и по делу: «соус голландез свернулся на сильном огне → в следующий раз убавляю и не отхожу от плиты».

Что меняется? Сам по себе вечер уже не спасти — соус выброшен. Но завтра, прежде чем взяться за этот соус, повар заглядывает в журнал и видит свою же вчерашнюю заметку. И готовит уже иначе. Через месяц таких заметок накопилась страница — и повар, который год назад заваливал половину соусов, теперь не заваливает почти ни одного. Он не стал гением. Он просто не наступает дважды на одни грабли, потому что записал, где они лежат.

Вот это и есть reflexion (самоулучшение через записи об ошибках) у AI-агента, один в один. После неудачной попытки агент сам формулирует короткий урок словами — что пошло не так и что делать иначе — и кладёт эту заметку в память (про память была отдельная тема: блокнот, который переживает один запуск). А в следующий раз, берясь за похожую задачу, он сначала достаёт из памяти свои прошлые уроки и учитывает их. Грабли, на которые он уже наступал, перестают срабатывать.

Как работает reflexion: попытка → разбор → урок в журнал → следующая попытка

🍳

1. Попытка

Агент сделал задачу. Соус свернулся — попытка провалилась.

→

🔎

2. Разбор словами

«Что пошло не так? Сильный огонь. Что иначе? Убавить».

→

📓

3. Урок — в журнал

Заметка ложится в память и переживёт этот запуск.

↻ Следующая попытка начинается с чтения журнала — и старый промах больше не повторяется. Круг замкнулся, агент стал чуть опытнее.

🆚 Чем это отличается от «дегустации» (и не путай слова)

Тут легко запутаться, потому что слова похожи, и многие их сваливают в кучу. Разведём по-честному. В прошлых темах мы говорили про самопроверку (reflection) и про критика (critic) — это когда агент (или отдельный «свежий шеф») пробует блюдо прямо сейчас, перед подачей, и переделывает его, пока не поднёс гостю. Дегустация спасает текущее блюдо. Но как только тарелка уехала в зал — урок испаряется. Завтра тот же агент начнёт с нуля и может свернуть тот же соус снова.

Reflexion (самоулучшение через записи об ошибках) работает на другом горизонте. Он не спасает сегодняшнее блюдо — он делает так, чтобы завтрашнее вышло лучше. Разница ровно в одном слове: память. Дегустация живёт внутри одной попытки и забывается. Reflexion записывает урок наружу, в журнал, и достаёт его в следующий раз. Одно — про «не отдать брак сейчас», другое — про «не повторить брак потом».

🥄 Дегустация (reflection / critic)

Пробует блюдо сейчас, перед подачей. Спасает эту попытку. Урок забывается, как только тарелка уехала.

📓 Reflexion (записал — запомнил)

Записывает урок в память после провала. Улучшает следующие попытки. Старый промах не повторяется.

И вот что тут по-настоящему ценно для тебя как для владельца. Reflexion — это самоулучшение без переобучения модели. Чтобы повар-модель стала «умнее по-настоящему», её надо переучивать заново — долго, дорого, это делают разработчики раз в месяцы. А reflexion даёт эффект «агент стал опытнее» задёшево: модель не трогаем, просто ведём ей журнал уроков и подкладываем его перед работой. Снаружи похоже на обучение. Под капотом — никакого обучения, просто хорошо организованная память.

⚠️ Главная ловушка: а откуда известно, что это была ошибка?

Теперь — самое важное и самое денежное во всей теме. Вернёмся к повару с журналом. Вся его схема держится на одном: он точно знает, что соус свернулся. Это видно глазами, это бесспорно. Честный сигнал об ошибке. А теперь представь, что повар записывает в журнал уроки не по факту провала, а по настроению одного капризного гостя: «вчера дядьке за пятым столом не понравилось — значит, кладу меньше соли». Записал. На следующий день недосолил всем остальным, кому соли было ровно. Он «учился» — но на шуме, а не на правде. И стало хуже.

С агентом — буква в букву. Reflexion усиливает то, что ты назвал ошибкой. Дашь ему честный сигнал (заявка реально ушла не туда; платёж реально не прошёл; код реально не запустился) — он будет умнеть. Дашь мутный или случайный сигнал (один клиент пожаловался; так совпало; критерий размытый) — он с тем же усердием зазубрит ложный урок и начнёт системно ошибаться по-новому. Хуже того: ошибочный урок ляжет в журнал и будет отравлять все будущие попытки, пока кто-то его оттуда не вычистит.

Запомни формулу дословно: reflexion ровно настолько умён, насколько честен сигнал об ошибке. Поэтому первый вопрос к любому «самообучающемуся агенту» — не «как он учится», а «откуда он узнаёт, что ошибся, и можно ли этому сигналу верить». Нет надёжного ответа — нет и обучения, есть имитация с риском накопить вредных привычек.

🧾 Как это выглядит изнутри (на пальцах)

Разложим один полный круг на псевдокоде — это просто логика на человеческом языке, не настоящий код. Сцена: агент сортирует входящие заявки по приоритету.

Псевдокод (на пальцах) · агент учится на провале через журнал # это НЕ настоящий код, а логика на человеческом языке
# --- ПОПЫТКА №1 ---
заявка = «СРОЧНО!!! когда пришлёте счёт?»
агент: вижу «срочно» → ставлю наивысший приоритет → бужу дежурного

# --- ЧЕСТНЫЙ СИГНАЛ: была ли это ошибка? ---
проверка по факту: дежурного подняли зря, вопрос был про обычный счёт
если сигнал надёжный → это ошибка (а не «кому-то показалось»)

# --- РАЗБОР словами и УРОК в журнал (это и есть reflexion) ---
урок = «слово „срочно“ само по себе ничего не значит;
приоритет определять по сумме и сроку оплаты, не по тону»
записать урок в память (журнал) — переживёт этот запуск

# --- ПОПЫТКА №2 (на следующей похожей заявке) ---
перед работой: достать из журнала прошлые уроки → учесть
заявка = «СРОЧНО оплатите, иначе пени!»
агент: журнал говорит не вестись на тон → смотрю сумму и срок → ставлю верный приоритет
# → без журнала агент совершил бы ровно ту же ошибку, что и в попытке №1

Видишь, где сердце механики? Оно не в «разборе» — разобрать провал умеет и обычная дегустация. Оно в двух строчках: урок уходит в память и следующая попытка начинается с чтения памяти. И ещё — в строчке «честный сигнал»: убери её, и агент будет с тем же усердием записывать в журнал ложные уроки. Вся ценность reflexion висит на этих трёх гвоздях.

🎮 Здесь reflexion поможет — или выучит чушь?

Пять ситуаций, где кто-то хочет «научить агента на его ошибках». По каждой реши: тут есть честный сигнал об ошибке (агент будет реально умнеть) или сигнал мутный/случайный (агент зазубрит ложный урок и станет хуже)? Сначала прикинь сам — потом жми кнопку и сверяйся. А на мутных случаях не останавливайся на «плохо»: разбери, какой именно кусок постановки сломан и что в нём поменять, чтобы сигнал стал честным, — в разборе после ответа есть с чем сверить. Это тренировка того самого вопроса «а откуда известно, что это ошибка».

📖 Ключевые понятия

Reflexion (самоулучшение через записи об ошибках): Приём, при котором агент после неудачной попытки сам формулирует словами короткий урок («что пошло не так и что делать иначе») и кладёт его в память. В следующий раз он сначала достаёт прошлые уроки и учитывает их — поэтому старые ошибки перестают повторяться. Бортовой журнал кухни: «соус свернулся → убавляю огонь».
Честный сигнал об ошибке: Надёжный, проверяемый ответ на вопрос «была ли это ошибка»: код упал, платёж вернулся, две встречи на один слот. Без честного сигнала reflexion записывает ложные уроки и делает агента хуже. Это главное условие, при котором всё работает.
Самоулучшение без переобучения: Агент становится «опытнее» не потому, что переучили саму модель (это долго и дорого), а потому, что ему ведут журнал уроков и подкладывают его перед работой. Под капотом — не обучение, а хорошо организованная память; эффект — будто учится.
Самопроверка (reflection) и критик (critic): Из прошлых тем: проверка блюда перед подачей и переделка прямо сейчас. Спасает текущую попытку, но забывается после неё. Reflexion отличается тем, что записывает урок наружу — и улучшает будущие попытки, а не нынешнюю.
Итерация (круг доработки): Один заход «попытка → разбор → урок → следующая попытка». Reflexion — это итерации, у которых между кругами есть память: каждый следующий круг стартует с учётом уроков предыдущих.

🛡️ Частые заблуждения

«Раз агент „учится на ошибках“, значит, его модель умнеет — он реально становится сообразительнее»

Нет. Сама модель-повар не меняется ни на грамм — её переучивают отдельно, долго и дорого, и делают это разработчики, не твой агент на лету. Reflexion умнеет не моделью, а памятью: накопленными заметками, которые подкладывают перед работой. Это ценно и дёшево, но называть это «модель поумнела» — ошибка. Сотрёшь журнал — и агент снова наивен, как в первый день.

«Самообучающийся агент — это всегда хорошо, чем больше учится, тем лучше»

Только если он учится на честном сигнале. Дай ему мутный критерий ошибки (жалоба одного клиента, «по ощущению», случайное совпадение) — и он будет с тем же усердием зубрить ложные уроки и системно портиться. Хуже того, плохой урок ложится в журнал и отравляет все будущие попытки. «Учится» без надёжного сигнала об ошибке — это не плюс, а накопление вредных привычек.

«Reflexion и дегустация (самопроверка) — это про одно и то же, просто разные слова»

Разные горизонты. Самопроверка спасает блюдо, которое готовится прямо сейчас, и забывается, как только тарелка уехала в зал. Reflexion записывает урок в память и улучшает завтрашние блюда. Одно — «не отдать брак сейчас», другое — «не повторить брак потом». Путать их — значит ждать от агента, что он перестанет повторять ошибки, хотя ему просто негде хранить уроки.

🧠 AI-чутьё (AI Judgment)

Самоулучшение без переобучения — и почему всё держится на честном сигнале

Вот рамка, которую стоит унести: агент может становиться лучше со временем без всякого переобучения модели — за счёт памяти об ошибках. Но ровно настолько, насколько честен сигнал о том, что считать ошибкой. Это разворачивает то, как ты слушаешь слова «самообучающийся», «адаптивный», «учится на ходу». Сами по себе они ничего не гарантируют — это лейбл. За лейблом стоит спросить одно: откуда система узнаёт, что ошиблась, и можно ли этому источнику верить.

Рамка сразу разводит две дорогие ошибки. Первая — поверить в «самообучение» там, где честного сигнала нет: тебе продают агента, который «адаптируется», а на деле он зубрит шум из случайных жалоб и тихо деградирует, пока кто-то не заметит по выросшему числу промахов. Вторая, обратная — отмахнуться от reflexion там, где сигнал есть и чистый (код запускается, платёж проходит, конфликт в календаре виден): тут дешёвый журнал уроков реально превращает посредственного агента в крепкого, и упускать это жалко.

И практический след на будущее. Когда дойдёшь до проектирования своего AI-решения, по каждому самообучающемуся куску твой вопрос будет звучать так: «где тут честный сигнал об ошибке, кто и как часто чистит журнал от ложных уроков, и не отравит ли один плохой урок всё остальное?». Память, которая делает агента умнее, — это та же память, которая может сделать его системно глупее. Управлять ею — работа владельца, а не повара.

🎯 Практика

Одно задание на пять минут — оно превращает «честный сигнал» из книжной фразы в твой рабочий фильтр.

Возьми задачу со своей работы, которую хотел бы отдать «самообучающемуся» агенту, — ту, где ошибки реально случаются (сортировка заявок, проверка документов, ответы клиентам, расчёты).
Ответь честно на один вопрос: «Откуда стало бы известно, что агент ошибся — по проверяемому факту/чёткому правилу или по чьему-то ощущению?». Если по факту (вернулся платёж, не сошлись цифры, виден конфликт) — пиши «честный сигнал есть». Если по ощущению, единичной жалобе или «на глаз» — пиши «сигнал мутный».
Сделай вывод по своей задаче. Честный сигнал есть — reflexion может реально окупиться, заложи в требования «вести журнал уроков». Сигнал мутный — сначала придумай, как сделать сигнал честным (чёткое правило ошибки), и только потом думай про «самообучение». Этот короткий разбор — готовый вопрос подрядчику, который продаёт тебе «адаптивного агента».

Помнишь агента из начала, который каждую среду спотыкался об «срочно»? Теперь видно, что лечит его не «модель помощнее», а журнал уроков плюс честный ответ на «а правда ли это была ошибка». Дёшево — если сигнал чистый. Опасно — если нет.

🔗 Что дальше

Это последний атом про агентный цикл и самоулучшение — ты прошёл всю «кухню изнутри» от первого круга до журнала уроков. Дальше курс ведёт к бригаде и эксплуатации.

Связанные темы:

5.4 — Producer-Critic (отдельный агент-критик проверяет работу до подачи): свежий взгляд лучше самопроверки — прямой фундамент под этой темой: там агент проверяет блюдо сейчас, тут — записывает урок на потом.
4.9 — Агент и ваши системы — где живёт «журнал уроков» и почему память агента упирается в твои реальные системы и данные.

Дальше в курсе:

8.6 — Готовка → дегустация → правка: Evaluator-Optimizer — тот же мотив «оценил и переделал», но уже как способ собрать бригаду из нескольких агентов.
11.5 — Что делать, когда сгорело: error handling — про честный сигнал в проде: как агент ловит, что «сломалось», и не уходит в бесконечную петлю исправлений.