Зови шефа перед отдачей: человек-в-петле (Human-in-the-Loop)
🤔 Зачем это читать
Ты наконец-то настроил агента, который сам разбирает заявки, считает, отвечает клиентам. Работает. И вот ты стоишь перед последней кнопкой — «отпустить его работать без меня». Палец над ней замирает. В голове одна мысль: а вдруг я приду утром, а он за ночь наотправлял писем не тем, насписывал денег не туда и наобещал клиентам того, чего нельзя? И ты не нажимаешь. Оставляешь агента на коротком поводке, проверяешь каждый его шаг вручную — и тогда зачем он вообще, если ты всё равно сидишь рядом?
Знакомо? Или обратный вариант, который дороже. Кто-то рядом отмахнулся: «да пусть работает сам, мы потом логи (журналы его действий) посмотрим». Отпустили на полное доверие. А «потом» наступило, когда клиент позвонил с вопросом, почему ему оформили возврат на 80 000 ₽, который он не просил. Логи, конечно, посмотрели. После того, как деньги ушли.
Оба тупика — от одной нерешённой развилки: где агент может действовать сам, а где обязан остановиться и спросить человека. «Всё проверять» — медленно и бессмысленно. «Ничего не проверять» — рано или поздно дорого. Правильный ответ посередине, и он не угадывается чутьём — он считается. По цене ошибки и по тому, можно ли откатить шаг назад.
После этой темы у тебя будет рабочая схема: ты сам разложишь операции своего агента на «пусть делает сам» и «пусть зовёт человека», и сможешь обосновать каждую точку — не «мне так спокойнее», а «вот цена ошибки, вот обратимость». Это и есть граница между «боюсь отпустить» и «отпустил с умом, потому что подстелил соломку ровно там, где надо».
Задержись на 10 секунд. Вспомни задачу со своей работы, где ты подписываешь чужую работу, прежде чем она уйдёт дальше: утверждаешь договор перед отправкой, визируешь платёж, согласуешь письмо важному клиенту. Почему именно эти шаги через тебя, а не сотня других? Подержи этот ответ в голове — к концу страницы окажется, что ты уже интуитивно знаешь правило, по которому ставят человека-в-петле. Осталось его назвать.
🧑🍳 Спорное блюдо не уходит в зал без шефа
На хорошей кухне есть негласное правило: повар приготовил, но перед самой отдачей в зал блюдо смотрит шеф. Не каждое — гарнир и салат уходят сами. А вот спорное, дорогое, нестандартное — «фирменное за 8 000 ₽», блюдо для гостя с аллергией, заказ, где повар сомневался, — это шеф глянет, прежде чем официант понесёт. Почему? Потому что блюдо, которое уже в зале у гостя, назад не вернёшь без скандала. А пока оно на раздаче — ещё можно поправить или переделать.
Вот это и есть человек-в-петле (human-in-the-loop) — главный предохранитель, ради которого ты сюда пришёл. На важном или необратимом шаге агент останавливается сам и зовёт человека подтвердить, прежде чем «отдать блюдо в зал», то есть сделать действие в реальном мире. Не «человек висит над агентом и всё проверяет» — а «агент работает сам, но на заранее отмеченных шагах паркует решение и ждёт зелёного света».
И ключевая роль тут — твоя, владельца. Не агент решает, что нести шефу. Это решаешь ты, заранее, один раз — пишешь политику: правило вида «возврат дороже 50 000 ₽ → подтверждение человека», «письмо новому клиенту → подтверждение», «всё дешевле и обратимое → делай сам». Агент эту политику просто исполняет. Ты — шеф, который один раз объяснил бригаде, что нести на проверку. Дальше бригада несёт сама.
📏 Где ставить точку: цена ошибки × обратимость
Теперь главное — не «где спокойнее», а как решать по делу. Ставить человека на каждый шаг нельзя: кухня встанет, и агент превратится в дорогую печатную машинку, за которой ты сидишь сам. Не ставить нигде — рано или поздно прилетит тот самый возврат на 80 000 ₽. Точку определяют два вопроса, и оба простые.
Вопрос первый — цена ошибки. Если агент ошибётся на этом шаге, во что это обойдётся? Перепутал тег в черновике — ноль рублей, поправим. Списал не ту сумму со счёта клиента — деньги, доверие, может, суд. Чем дороже промах, тем нужнее человек перед шагом.
Вопрос второй — обратимость. Можно ли откатить шаг назад, если что-то не так? Это, пожалуй, важнее цены. Черновик письма — стёр и переписал, ничего не случилось. Отправленное письмо клиенту — уже не вернёшь, извиняться поздно. Удалённые данные, проведённый платёж, юридически значимое согласие — назад дороги нет. Необратимое — почти всегда через человека.
Сложи два вопроса вместе — и операции сами раскладываются на две стопки. Тут на помощь приходит знакомая по теме 4.3 про read-only и пишущие инструменты граница: «только посмотреть» против «что-то изменить в реальном мире».
И тут включается то, что ты помнишь из темы 1.6 про уровни автономии: чем больше свободы даёшь повару, тем выше и выигрыш, и цена сорвавшейся ошибки. Человек-в-петле — это ручка, которой ты эту цену придерживаешь именно там, где она кусается, не убивая скорость на всём остальном.
📝 Политику пишешь ты, исполняет агент
Вот тут — самая частая путаница, и её стоит проговорить вслух. Человек-в-петле — это не «агент сам решит, когда ему позвать человека». Если бы агент сам решал, где он опасен, — это был бы тот же агент без присмотра, только с лишним шагом. Решаешь ты, заранее, и записываешь это правилом. Агент правило исполняет тупо и честно, как кассовый аппарат.
Выглядит это как простая политика на человеческом языке — её можно показать на псевдокоде. Псевдокод — это просто логика словами, не настоящий код.
# агент подготовил действие и СПЕРВА сверяется с политикой
ЕСЛИ действие = «только посмотреть» (баланс, история, поиск):
делай сам, человека не зову # обратимо, цена ошибки ≈ 0
ЕСЛИ действие = «списать деньги» И сумма больше 50 000 ₽:
СТОП → покажи человеку, жди «да/нет» # дорого и необратимо
ЕСЛИ действие = «отправить письмо клиенту» ИЛИ «удалить данные»:
СТОП → покажи человеку, жди «да/нет» # назад не отыграешь
ИНАЧЕ:
делай сам # всё мелкое и обратимое — без дёрганья человека
# → пороги (50 000 ₽, список действий) задаёт ВЛАДЕЛЕЦ под свой риск, не агент
Заметь две вещи. Первое: цифры и список «опасных» действий тут не священные — это твои пороги под твой бизнес. У магазина с чеком в 2 000 ₽ планка одна, у компании, ворочающей миллионами, — другая. Второе: остановка происходит до действия. Агент готовит, упирается в правило, замирает и показывает тебе: «вот что я собираюсь сделать, подтверди». Ты видишь решение прежде, чем оно случилось в реальном мире, — и можешь сказать «нет». Это и отличает живой предохранитель от посмертного вскрытия логов.
🎮 Реши, где ставить человека-в-петле
Ты запускаешь агента для отдела поддержки интернет-магазина. Ниже — пять операций, которые он будет делать. По каждой реши: пусть делает сам или зови человека перед действием. Опирайся ровно на два вопроса: дорого ли ошибиться и можно ли откатить шаг назад. Жми кнопку — сразу увидишь разбор. Это не экзамен, это прокачка твоей собственной схемы. После пяти операций будет итог и вопросы под твою ситуацию.
📖 Ключевые понятия
- Человек-в-петле (human-in-the-loop)
- Предохранитель, при котором на важном или необратимом шаге агент сам останавливается и зовёт человека подтвердить действие, прежде чем оно случится в реальном мире. «Зови шефа перед отдачей»: спорное блюдо не уходит в зал без проверки. Не «человек проверяет всё», а «агент паркует решение на заранее отмеченных шагах».
- Цена ошибки
- Во что обойдётся, если агент ошибётся на этом конкретном шаге: ноль (перепутал тег в черновике) или деньги, доверие, суд (списал не ту сумму). Первый из двух вопросов, по которым решают, где нужен человек.
- Обратимость
- Можно ли откатить шаг назад, если что-то пошло не так. Черновик — обратим (стёр, переписал). Отправленное письмо, проведённый платёж, удалённые данные — необратимы. Второй вопрос, и часто решающий: необратимое почти всегда идёт через человека.
- Логи
- Журнал действий агента: что он сделал и когда. Полезны, чтобы разобрать задним числом, что пошло не так. Но логи смотрят после — это не предохранитель: к моменту записи деньги уже ушли, а письмо уже у клиента.
- Политика контроля
- Правило вида «дороже 50 000 ₽ → подтверждение человека», которое заранее пишет владелец под свой риск, а агент тупо исполняет. Точку контроля задаёт человек, а не агент. Пороги и список «опасных» действий — твои, под твой бизнес.
🛡️ Частые заблуждения
«Человек посмотрит логи потом — вот тебе и человек-в-петле»
Нет, и это самая дорогая подмена. Человек-в-петле работает только ДО необратимого действия: агент останавливается и ждёт твоего «да», прежде чем списать деньги или отправить письмо. Посмотреть логи после — это вскрытие, когда деньги уже ушли и клиент уже прочитал письмо. Поздно. «Посмотреть логи потом» полезно для разбора задним числом, но это не предохранитель.
«Раз нужен человек на контроле — поставлю его на каждый шаг, так безопаснее»
Так ты убьёшь весь смысл агента: он встанет на каждом «посмотреть баланс» и будет ждать тебя, а ты — сидеть и кликать «ок» сто раз в час. Через день ты начнёшь подтверждать не глядя — и контроль станет фиктивным. Человек-в-петле работает ровно наоборот: его ставят точечно, только на дорогих и необратимых шагах, чтобы на всём остальном агент летел сам.
«Пусть агент сам решает, когда ему позвать человека — он же умный»
Не путай. Если агент сам решает, где он опасен, — это тот же агент без присмотра, просто с лишним шагом, и ровно в опасный момент он может решить, что справится. Точку контроля задаёшь ты, заранее, политикой («дороже стольки → подтверждение»). Агент её исполняет, а не придумывает. Решение «где предохранитель» слишком важное, чтобы отдавать его тому, кого этот предохранитель и страхует.
🧠 AI-чутьё (AI Judgment)
Чем выше автономия и необратимость — тем нужнее человек-в-петле
Главная рамка темы, которую стоит унести с собой: человек-в-петле — это не недоверие к агенту, это управление ценой ошибки. Чем больше свободы ты даёшь повару (привет, уровни автономии из 1.6) и чем необратимее его шаги (привет, пишущие инструменты из 4.3), тем дороже обходится сорвавшийся промах — и тем нужнее человек на пороге перед действием. Это не тормоз прогресса, а единственный способ отпустить агента работать самому и спать спокойно: ты заранее отметил места, где он обязан спросить.
И обратная сторона, не менее важная: человек-в-петле на всём подряд — это тоже провал, просто другой. Если агент дёргает тебя на каждый шаг, ты не выиграл ничего, кроме иллюзии контроля, — и довольно скоро начнёшь штамповать «ок» не читая. Хороший дизайн контроля — это узкая, осознанная горстка точек на самых дорогих и необратимых действиях, а не паранойя на каждой строчке. Считай по двум вопросам: дорого ли ошибиться и можно ли откатить. Где «да-да» — туда человека. Где «нет-нет» — отпускай.
Практический вывод владельца: оценивая любой агентный проект — свой или из презентации вендора — задавай один прямой вопрос. «Покажите, на каких именно необратимых действиях агент остановится и спросит человека, и кто этот человек?» Если ответ «он всё делает сам, мы потом посмотрим» — это не автономия, это бомба замедленного действия. Если внятного списка точек с порогами нет — обсуждать дальше нечего. (Как такие точки укладываются в более широкую защиту от вброса чужих инструкций — отдельная важная тема 11.6 — Санитарный контроль: guardrails и least privilege.)
🎯 Практика
Одно задание на десять минут — оно превращает «человека-в-петле» из красивого слова в твою рабочую политику под конкретную задачу.
- Возьми задачу со своей работы, которую хотел бы отдать агенту (ту, что держал в голове с начала страницы, или любую другую). Выпиши все действия, которые агент будет делать, — по строке на действие. выпиши даже мелкие: посмотреть, посчитать, написать черновик, отправить, списать, удалить.
- Напротив каждого действия поставь две оценки: цена ошибки (ноль / средняя / высокая) и обратимость (легко откатить / трудно / никак). Теперь раздели лист на две стопки: «пусть делает сам» (дёшево и обратимо) и «зови человека» (дорого или необратимо).
- Для правой стопки сформулируй политику словами, как в псевдокоде выше: «действие X дороже Y рублей → подтверждение человека». И ответь на самый честный вопрос: кто этот человек и успеет ли он реально смотреть? Если на одного человека падает сто подтверждений в час — твоя точка контроля фиктивна, и стопки надо пересобрать: либо поднять пороги, либо упростить процесс. Это и есть проектирование контроля, а не его имитация.
Помнишь палец, замерший над кнопкой «отпустить агента» в начале страницы? Теперь у тебя есть не страх, а список: вот где он работает сам, вот где останавливается и зовёт тебя, и вот почему именно так. Кнопку можно нажимать — ты подстелил соломку ровно там, где она нужна.