Универсальный Bloom: Evaluate ⏱ 10 мин контроль и доверие

Зови шефа перед отдачей: человек-в-петле (Human-in-the-Loop)

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have
🔥 Must Have
Главный предохранитель доверия: как отпустить агента работать самому и не проснуться с разосланными письмами и списанными деньгами. Без этого «дать агенту свободу» — рулетка.

🤔 Зачем это читать

Ты наконец-то настроил агента, который сам разбирает заявки, считает, отвечает клиентам. Работает. И вот ты стоишь перед последней кнопкой — «отпустить его работать без меня». Палец над ней замирает. В голове одна мысль: а вдруг я приду утром, а он за ночь наотправлял писем не тем, насписывал денег не туда и наобещал клиентам того, чего нельзя? И ты не нажимаешь. Оставляешь агента на коротком поводке, проверяешь каждый его шаг вручную — и тогда зачем он вообще, если ты всё равно сидишь рядом?

Знакомо? Или обратный вариант, который дороже. Кто-то рядом отмахнулся: «да пусть работает сам, мы потом логи (журналы его действий) посмотрим». Отпустили на полное доверие. А «потом» наступило, когда клиент позвонил с вопросом, почему ему оформили возврат на 80 000 ₽, который он не просил. Логи, конечно, посмотрели. После того, как деньги ушли.

Оба тупика — от одной нерешённой развилки: где агент может действовать сам, а где обязан остановиться и спросить человека. «Всё проверять» — медленно и бессмысленно. «Ничего не проверять» — рано или поздно дорого. Правильный ответ посередине, и он не угадывается чутьём — он считается. По цене ошибки и по тому, можно ли откатить шаг назад.

После этой темы у тебя будет рабочая схема: ты сам разложишь операции своего агента на «пусть делает сам» и «пусть зовёт человека», и сможешь обосновать каждую точку — не «мне так спокойнее», а «вот цена ошибки, вот обратимость». Это и есть граница между «боюсь отпустить» и «отпустил с умом, потому что подстелил соломку ровно там, где надо».

Задержись на 10 секунд. Вспомни задачу со своей работы, где ты подписываешь чужую работу, прежде чем она уйдёт дальше: утверждаешь договор перед отправкой, визируешь платёж, согласуешь письмо важному клиенту. Почему именно эти шаги через тебя, а не сотня других? Подержи этот ответ в голове — к концу страницы окажется, что ты уже интуитивно знаешь правило, по которому ставят человека-в-петле. Осталось его назвать.

🧑‍🍳 Спорное блюдо не уходит в зал без шефа

На хорошей кухне есть негласное правило: повар приготовил, но перед самой отдачей в зал блюдо смотрит шеф. Не каждое — гарнир и салат уходят сами. А вот спорное, дорогое, нестандартное — «фирменное за 8 000 ₽», блюдо для гостя с аллергией, заказ, где повар сомневался, — это шеф глянет, прежде чем официант понесёт. Почему? Потому что блюдо, которое уже в зале у гостя, назад не вернёшь без скандала. А пока оно на раздаче — ещё можно поправить или переделать.

Вот это и есть человек-в-петле (human-in-the-loop) — главный предохранитель, ради которого ты сюда пришёл. На важном или необратимом шаге агент останавливается сам и зовёт человека подтвердить, прежде чем «отдать блюдо в зал», то есть сделать действие в реальном мире. Не «человек висит над агентом и всё проверяет» — а «агент работает сам, но на заранее отмеченных шагах паркует решение и ждёт зелёного света».

И ключевая роль тут — твоя, владельца. Не агент решает, что нести шефу. Это решаешь ты, заранее, один раз — пишешь политику: правило вида «возврат дороже 50 000 ₽ → подтверждение человека», «письмо новому клиенту → подтверждение», «всё дешевле и обратимое → делай сам». Агент эту политику просто исполняет. Ты — шеф, который один раз объяснил бригаде, что нести на проверку. Дальше бригада несёт сама.

Где в работе агента стоит точка «зови человека»
🤖
Агент работает сам
Считает, читает данные, готовит черновик возврата на 80 000 ₽.
Стоп: зови человека
Сработала политика «дороже 50 000 ₽». Агент паркует решение и ждёт.
Человек решил → действие
Подтвердил — деньги уходят. Отклонил — агент идёт другим путём.
Главное: человек встаёт в петлю ДО необратимого действия, а не после. Спросить разрешение до отправки денег — это человек-в-петле. Посмотреть логи после — это уже разбор постфактум, поздно.

📏 Где ставить точку: цена ошибки × обратимость

Теперь главное — не «где спокойнее», а как решать по делу. Ставить человека на каждый шаг нельзя: кухня встанет, и агент превратится в дорогую печатную машинку, за которой ты сидишь сам. Не ставить нигде — рано или поздно прилетит тот самый возврат на 80 000 ₽. Точку определяют два вопроса, и оба простые.

Вопрос первый — цена ошибки. Если агент ошибётся на этом шаге, во что это обойдётся? Перепутал тег в черновике — ноль рублей, поправим. Списал не ту сумму со счёта клиента — деньги, доверие, может, суд. Чем дороже промах, тем нужнее человек перед шагом.

Вопрос второй — обратимость. Можно ли откатить шаг назад, если что-то не так? Это, пожалуй, важнее цены. Черновик письма — стёр и переписал, ничего не случилось. Отправленное письмо клиенту — уже не вернёшь, извиняться поздно. Удалённые данные, проведённый платёж, юридически значимое согласие — назад дороги нет. Необратимое — почти всегда через человека.

Сложи два вопроса вместе — и операции сами раскладываются на две стопки. Тут на помощь приходит знакомая по теме 4.3 про read-only и пишущие инструменты граница: «только посмотреть» против «что-то изменить в реальном мире».

Две стопки операций агента
👀
Пусть делает сам
Дёшево ошибиться + легко откатить. Посмотреть баланс, найти статью в базе, собрать черновик, посчитать. Read-only и всё обратимое.
Зови человека
Дорого ошибиться или нельзя откатить. Списать деньги, отправить письмо клиенту, удалить, подписать, дать юридически значимое обещание.
Чем выше цена ошибки и чем труднее откатить — тем правее операция. Правую стопку агент несёт на проверку шефу. Левую делает сам.

И тут включается то, что ты помнишь из темы 1.6 про уровни автономии: чем больше свободы даёшь повару, тем выше и выигрыш, и цена сорвавшейся ошибки. Человек-в-петле — это ручка, которой ты эту цену придерживаешь именно там, где она кусается, не убивая скорость на всём остальном.

📝 Политику пишешь ты, исполняет агент

Вот тут — самая частая путаница, и её стоит проговорить вслух. Человек-в-петле — это не «агент сам решит, когда ему позвать человека». Если бы агент сам решал, где он опасен, — это был бы тот же агент без присмотра, только с лишним шагом. Решаешь ты, заранее, и записываешь это правилом. Агент правило исполняет тупо и честно, как кассовый аппарат.

Выглядит это как простая политика на человеческом языке — её можно показать на псевдокоде. Псевдокод — это просто логика словами, не настоящий код.

Псевдокод (на пальцах) · политика «когда звать человека», которую пишет владелец # это НЕ настоящий код, а логика на человеческом языке
# агент подготовил действие и СПЕРВА сверяется с политикой

ЕСЛИ действие = «только посмотреть» (баланс, история, поиск):
    делай сам, человека не зову # обратимо, цена ошибки ≈ 0

ЕСЛИ действие = «списать деньги» И сумма больше 50 000 ₽:
    СТОП → покажи человеку, жди «да/нет» # дорого и необратимо

ЕСЛИ действие = «отправить письмо клиенту» ИЛИ «удалить данные»:
    СТОП → покажи человеку, жди «да/нет» # назад не отыграешь

ИНАЧЕ:
    делай сам # всё мелкое и обратимое — без дёрганья человека
# → пороги (50 000 ₽, список действий) задаёт ВЛАДЕЛЕЦ под свой риск, не агент

Заметь две вещи. Первое: цифры и список «опасных» действий тут не священные — это твои пороги под твой бизнес. У магазина с чеком в 2 000 ₽ планка одна, у компании, ворочающей миллионами, — другая. Второе: остановка происходит до действия. Агент готовит, упирается в правило, замирает и показывает тебе: «вот что я собираюсь сделать, подтверди». Ты видишь решение прежде, чем оно случилось в реальном мире, — и можешь сказать «нет». Это и отличает живой предохранитель от посмертного вскрытия логов.

🎮 Реши, где ставить человека-в-петле

Ты запускаешь агента для отдела поддержки интернет-магазина. Ниже — пять операций, которые он будет делать. По каждой реши: пусть делает сам или зови человека перед действием. Опирайся ровно на два вопроса: дорого ли ошибиться и можно ли откатить шаг назад. Жми кнопку — сразу увидишь разбор. Это не экзамен, это прокачка твоей собственной схемы. После пяти операций будет итог и вопросы под твою ситуацию.

📖 Ключевые понятия

Человек-в-петле (human-in-the-loop)
Предохранитель, при котором на важном или необратимом шаге агент сам останавливается и зовёт человека подтвердить действие, прежде чем оно случится в реальном мире. «Зови шефа перед отдачей»: спорное блюдо не уходит в зал без проверки. Не «человек проверяет всё», а «агент паркует решение на заранее отмеченных шагах».
Цена ошибки
Во что обойдётся, если агент ошибётся на этом конкретном шаге: ноль (перепутал тег в черновике) или деньги, доверие, суд (списал не ту сумму). Первый из двух вопросов, по которым решают, где нужен человек.
Обратимость
Можно ли откатить шаг назад, если что-то пошло не так. Черновик — обратим (стёр, переписал). Отправленное письмо, проведённый платёж, удалённые данные — необратимы. Второй вопрос, и часто решающий: необратимое почти всегда идёт через человека.
Логи
Журнал действий агента: что он сделал и когда. Полезны, чтобы разобрать задним числом, что пошло не так. Но логи смотрят после — это не предохранитель: к моменту записи деньги уже ушли, а письмо уже у клиента.
Политика контроля
Правило вида «дороже 50 000 ₽ → подтверждение человека», которое заранее пишет владелец под свой риск, а агент тупо исполняет. Точку контроля задаёт человек, а не агент. Пороги и список «опасных» действий — твои, под твой бизнес.

🛡️ Частые заблуждения

«Человек посмотрит логи потом — вот тебе и человек-в-петле»

Нет, и это самая дорогая подмена. Человек-в-петле работает только ДО необратимого действия: агент останавливается и ждёт твоего «да», прежде чем списать деньги или отправить письмо. Посмотреть логи после — это вскрытие, когда деньги уже ушли и клиент уже прочитал письмо. Поздно. «Посмотреть логи потом» полезно для разбора задним числом, но это не предохранитель.

«Раз нужен человек на контроле — поставлю его на каждый шаг, так безопаснее»

Так ты убьёшь весь смысл агента: он встанет на каждом «посмотреть баланс» и будет ждать тебя, а ты — сидеть и кликать «ок» сто раз в час. Через день ты начнёшь подтверждать не глядя — и контроль станет фиктивным. Человек-в-петле работает ровно наоборот: его ставят точечно, только на дорогих и необратимых шагах, чтобы на всём остальном агент летел сам.

«Пусть агент сам решает, когда ему позвать человека — он же умный»

Не путай. Если агент сам решает, где он опасен, — это тот же агент без присмотра, просто с лишним шагом, и ровно в опасный момент он может решить, что справится. Точку контроля задаёшь ты, заранее, политикой («дороже стольки → подтверждение»). Агент её исполняет, а не придумывает. Решение «где предохранитель» слишком важное, чтобы отдавать его тому, кого этот предохранитель и страхует.

🧠 AI-чутьё (AI Judgment)

Чем выше автономия и необратимость — тем нужнее человек-в-петле

Главная рамка темы, которую стоит унести с собой: человек-в-петле — это не недоверие к агенту, это управление ценой ошибки. Чем больше свободы ты даёшь повару (привет, уровни автономии из 1.6) и чем необратимее его шаги (привет, пишущие инструменты из 4.3), тем дороже обходится сорвавшийся промах — и тем нужнее человек на пороге перед действием. Это не тормоз прогресса, а единственный способ отпустить агента работать самому и спать спокойно: ты заранее отметил места, где он обязан спросить.

И обратная сторона, не менее важная: человек-в-петле на всём подряд — это тоже провал, просто другой. Если агент дёргает тебя на каждый шаг, ты не выиграл ничего, кроме иллюзии контроля, — и довольно скоро начнёшь штамповать «ок» не читая. Хороший дизайн контроля — это узкая, осознанная горстка точек на самых дорогих и необратимых действиях, а не паранойя на каждой строчке. Считай по двум вопросам: дорого ли ошибиться и можно ли откатить. Где «да-да» — туда человека. Где «нет-нет» — отпускай.

Практический вывод владельца: оценивая любой агентный проект — свой или из презентации вендора — задавай один прямой вопрос. «Покажите, на каких именно необратимых действиях агент остановится и спросит человека, и кто этот человек?» Если ответ «он всё делает сам, мы потом посмотрим» — это не автономия, это бомба замедленного действия. Если внятного списка точек с порогами нет — обсуждать дальше нечего. (Как такие точки укладываются в более широкую защиту от вброса чужих инструкций — отдельная важная тема 11.6 — Санитарный контроль: guardrails и least privilege.)

🎯 Практика

Одно задание на десять минут — оно превращает «человека-в-петле» из красивого слова в твою рабочую политику под конкретную задачу.

  1. Возьми задачу со своей работы, которую хотел бы отдать агенту (ту, что держал в голове с начала страницы, или любую другую). Выпиши все действия, которые агент будет делать, — по строке на действие. выпиши даже мелкие: посмотреть, посчитать, написать черновик, отправить, списать, удалить.
  2. Напротив каждого действия поставь две оценки: цена ошибки (ноль / средняя / высокая) и обратимость (легко откатить / трудно / никак). Теперь раздели лист на две стопки: «пусть делает сам» (дёшево и обратимо) и «зови человека» (дорого или необратимо).
  3. Для правой стопки сформулируй политику словами, как в псевдокоде выше: «действие X дороже Y рублей → подтверждение человека». И ответь на самый честный вопрос: кто этот человек и успеет ли он реально смотреть? Если на одного человека падает сто подтверждений в час — твоя точка контроля фиктивна, и стопки надо пересобрать: либо поднять пороги, либо упростить процесс. Это и есть проектирование контроля, а не его имитация.

Помнишь палец, замерший над кнопкой «отпустить агента» в начале страницы? Теперь у тебя есть не страх, а список: вот где он работает сам, вот где останавливается и зовёт тебя, и вот почему именно так. Кнопку можно нажимать — ты подстелил соломку ровно там, где она нужна.

🔗 Что дальше

Связанные темы (уже можно открыть):

Дальше в курсе: