Анатомия агента: 5 шагов и что внутри
🤔 Зачем это читать
Тебе на стол кладут коммерческое предложение: «Внедрим AI-агента для отдела закупок. Он сам обработает заявки, сверит остатки, оформит заказ поставщику. 3 500 000 ₽». Звучит как магия, и именно поэтому страшно: ты не понимаешь, из чего эта штука собрана. А раз не понимаешь — не можешь спросить ничего по делу. Киваешь, подписываешь, надеешься.
Знакомо? Или другой вариант: на демо тебе показывают красивое окно, куда менеджер пишет «оформи заказ» — и на экране появляется заказ. Выглядит как агент. А на самом деле под капотом может не быть никаких «рук»: модель просто пишет текст про заказ, а реально его кто-то заводит вручную. Снаружи не отличишь. Цена — разная в разы.
Пока «агент» для тебя — это чёрный ящик с надписью «магия», тебя легко развести. Не оценишь, что именно продают. Не поймёшь, где оно сломается и почему. А ломается оно всегда в конкретных местах — и эти места видны, как только ты знаешь устройство.
После этой темы ты сможешь разобрать любого «агента» на части: из каких шагов он работает и какие куски в нём должны быть. Это как заглянуть на кухню ресторана перед тем, как заказать банкет. Один раз увидел, как там всё устроено, — и больше не купишь воздух под красивым названием.
Задержись на 10 секунд. Вспомни, как тебе в последний раз описывали что-то «умное и автономное» на AI — на работе, в рекламе, от знакомого. А ты понял хотя бы примерно, из чего оно состоит и где могло бы дать сбой? Держи эту картинку в голове: к концу страницы ты разложишь её по полочкам.
🧑🍳 Сначала — живая сцена. Смена повара
Давай без определений, сразу на примере. Из прошлой темы (1.4 — Лестница сложности) ты помнишь: агент — это не тот, кому дали жёсткий рецепт, а тот, кому дали миссию и отпустили решать самому. Вот как это выглядит на кухне.
Представь, что повар выходит на смену. Ему не вручают пошаговую инструкцию. Ему говорят миссию: «Накорми вот этого гостя за 20 минут. У него аллергия на орехи». Всё. Дальше повар крутится сам.
Смотри, что он делает по порядку:
- Получил миссию. «Накорми за 20 минут, без орехов». Это цель, а не рецепт. Что готовить — пока непонятно.
- Осмотрелся. Заглянул в кладовую: что есть из продуктов? Сколько висит других заказов? Сколько времени реально осталось? Он собирает обстановку, прежде чем что-то делать.
- Продумал. Прикинул в голове: «Из этого за 20 минут успею пасту с курицей. Орехов в ней нет — годится». Это план, набросанный до того, как взялся за сковородку.
- Сделал. Достал сковородку, нарезал, поставил воду, пожарил. Тут он наконец трогает мир руками — пускает в ход кухонную технику.
- Научился. Попробовал — пересолено. Долил воды, поправил. Подал. И отметил себе: «Этому гостю — всегда без орехов». В следующий раз не переспросит.
Вот и весь агент. Не магия — обычный человек, который сам соображает под задачу. А теперь дадим этим шагам названия, чтобы ты узнавал их в любом «агенте», что тебе покажут.
🔄 Цикл агента: 5 шагов по кругу
То, что повар проделал, — это и есть цикл агента (agent loop, рабочий круг агента). Сердце всей этой истории. Пять шагов, и главное в них — слово «круг»: агент не идёт по прямой, а крутит этот цикл снова и снова, пока миссия не выполнена.
Запомнить просто, если держать в голове повара: Миссия → Осмотреться → Продумать → Действовать → Научиться. Чат-бот из самой первой темы умеет только наполовину третий шаг — поговорить. Агент проходит весь круг и, если надо, повторяет его. Вот эта способность крутить цикл и отличает «того, кто сам решает шаги» от «того, кто просто отвечает».
🧩 Что внутри: четыре части, без которых круг не крутится
Хорошо, цикл понятен. Но чтобы повар прошёл все пять шагов, у него должно быть четыре вещи. Это и есть «начинка» агента — то, из чего его собирают. Сразу разведи в голове: шаги — это что агент делает по порядку, части — чем он это делает. Глагол против инструмента, не путай. Разберём части по очереди, и станет видно, где у дешёвой подделки чего-то не хватает.
🧠 Мозг — модель (LLM)
Это сам повар, точнее — его голова. Языковая модель (LLM, large language model — большая языковая модель), тот самый «повар по насмотренности» из темы про модель. Мозг думает: разбирает миссию, прикидывает план, решает, какой следующий шаг. Но вот что важно и про что забывают: мозг сам по себе ничего не трогает. Он может только думать и говорить. Размышляет, формулирует — а руки нужны отдельно. Это ключ ко всему, что дальше.
🙌 Руки — инструменты (tools)
Мозг решил «нужна жареная курица» — но пожарить должны руки. Инструменты (tools, орудия, которыми агент действует в мире) — это всё, чем агент реально что-то делает: ищет в интернете, лезет в базу данных, отправляет письмо, заводит заказ в системе. Это руки повара и его телефон поставщика. Вот тут — самое денежное место всей темы: агент без рук — это просто чат-бот. Если у «агента» нет инструментов, он может сколько угодно красиво рассуждать, но в реальном мире не сделает ни-че-го. Только текст. Запомни это намертво, мы к этому ещё вернёмся.
📓 Блокнот — память
Память — это блокнот повара. Что я уже сделал на этом круге? Что гость просил? Что выяснил, когда осматривался? Без памяти агент на каждом шаге начинает с чистого листа: спросит про орехи, через минуту переспросит снова, заведёт один и тот же заказ дважды. Память — то, что склеивает пять шагов в осмысленную работу, а не в набор разрозненных дёрганий.
🗒️ План
Планирование — это та самая прикидка меню до готовки. Мозг разбивает большую миссию на понятные шаги: сначала проверю остатки, потом сверю с заявкой, потом оформлю заказ, в конце отправлю подтверждение. Чем крупнее задача, тем важнее план — иначе повар хватается за всё разом и сжигает курицу, пока режет лук. План — это порядок, наведённый в хаосе большой цели.
Теперь разложим один заход агента «по косточкам» — как он сшивает части и шаги вместе. Это псевдокод: не настоящий код, а логика работы на человеческом языке.
миссия = «Оформи заказ на товары, которых осталось мало»
план = мозг.продумать(миссия) # 🧠 разбил цель на шаги
пока миссия не выполнена:
обстановка = руки.посмотреть_остатки() # 👀 осмотрелся через инструмент
решение = мозг.продумать(обстановка, блокнот) # 🧠 что делать дальше
руки.оформить_заказ(решение) # 🙌 подействовал в реальном мире
блокнот.записать(«заказал то-то») # 📓 запомнил, чтобы не повторить
мозг.проверить(результат) # 👅 научился: вышло или крутим круг заново
# убери строку с «руки» — и останется болтливый чат-бот, а не агент
Видишь, как всё сходится? Пять шагов цикла крутятся, опираясь на четыре части. Мозг думает на шагах «продумать» и «научиться». Руки работают на «осмотреться» и «действовать». Блокнот держит всё это вместе. План задаёт, что за чем. Это и есть анатомия агента — больше там ничего нет.
Одна тонкость, чтоб потом не путаться: «осмотреться» — это шаг цикла, а руки — орган, которым он делается. Один и тот же момент, но смотрим с разных сторон: шаг отвечает на «что агент сейчас делает по порядку», часть — на «чем он это делает». На тренажёре ниже их специально перемешали — вот эта ось и будет тебя проверять.
Прежде чем жать кнопки — прикинь свою догадку. Сейчас будет восемь карточек: в пяти описаны действия повара, в трёх — части агента. Не подсматривай в текст выше. Просто спроси себя про каждую: это какой шаг цикла или какая часть? Доверься первому ощущению — а тренажёр покажет, угадал ты или перепутал. Перепутать тут не стыдно, на этом и учатся. А заодно держи в уме ту самую «штуку» из начала страницы: тут потренируешься на поваре, а в «Практике» разберёшь уже своё.
🎮 Разбери агента на части
Восемь карточек. В каждой — кусочек работы повара-агента. Твоя задача: понять, к чему он относится. Это не угадайка, а различение: шаги цикла и части агента легко перепутать, пока образ не уложился. Кнопки специально разбиты на две группы — сначала реши, это шаг или часть, потом жми вариант. И сразу увидишь разбор.
📖 Ключевые понятия
- Цикл агента (agent loop)
- Рабочий круг, который агент крутит до результата: миссия → осмотреться → продумать → действовать → научиться. Главное в нём — «по кругу»: не вышло с одного захода, агент возвращается и пробует снова. Этим он и отличается от чат-бота, который отвечает один раз и всё.
- Мозг — модель (LLM)
- Сам повар, его голова. Языковая модель, которая думает, решает и формулирует. Сама по себе ничего не трогает в реальном мире — только размышляет и говорит. Поэтому одного мозга для агента недостаточно.
- Руки — инструменты (tools)
- Всё, чем агент реально действует: поиск, база данных, отправка письма, оформление заказа. Это руки повара и его связь с миром. Без инструментов агент ничего не делает — остаётся просто чат-ботом.
- Память (блокнот)
- То, что агент держит в уме по ходу работы: что уже сделал, что узнал, чего просил гость. Склеивает шаги в осмысленную работу. Без памяти агент на каждом шаге начинает с чистого листа.
- Планирование
- Прикидка меню до готовки: мозг разбивает большую миссию на понятные шаги и задаёт им порядок. Чем крупнее задача, тем важнее план — иначе агент хватается за всё разом.
🛡️ Частые заблуждения
«Агент — это просто модель помощнее, такой очень умный чат-бот»
Нет. Модель — это только мозг, одна из четырёх частей. Агент — это мозг плюс руки (инструменты), память и план, сшитые в рабочий круг. Чат-бот думает и говорит. Агент ещё и действует, и проверяет, и повторяет. Разница не в «уме», а в устройстве.
«Если оно красиво рассуждает про заказ — значит, это рабочий агент»
Рассуждать про заказ и оформить заказ — разные вещи. Без рук-инструментов агент выдаёт только текст, а реально в системе ничего не происходит. Складная речь — это мозг. Дело делают руки. Их и проверяй в первую очередь.
«Агент проходит свои пять шагов один раз — и готово»
Самое ценное в агенте — что он крутит цикл по кругу. Не получилось с первого захода — осмотрелся заново, поправил план, попробовал ещё раз. Если «агент» делает один проход и сдаётся, он недалеко ушёл от обычного бота.
🧠 AI-чутьё (AI Judgment)
Из чего состоит то, что вам продают
Вот рабочее правило, которое стоит унести с этой страницы: когда тебе показывают «агента», мысленно разбери его на четыре части и спроси про каждую. Где тут мозг? Какие у него руки — что он реально умеет делать, а не только описывать словами? Есть ли память, или он всё забывает между шагами? Виден ли план, когда задача большая?
Самый острый из этих вопросов — про руки. «Агент» без инструментов — это просто чат-бот в дорогой упаковке. Если на демо тебе пишут «оформи заказ», а на экране появляется заказ — спроси прямо: это система сама его завела или человек за кадром? Очень часто красивую болтовню модели выдают за автономную работу, а руки приделать «забыли». Цена при этом — как за полноценного агента.
Не нужно становиться технарём, чтобы задать эти вопросы. Нужно просто держать в голове анатомию: пять шагов и четыре части. С ней любое коммерческое предложение перестаёт быть чёрным ящиком — ты видишь, что внутри, и видишь, чего там не хватает.
🎯 Практика
Одно задание на пять минут — оно превратит абстрактную анатомию в твой рабочий инструмент.
- Возьми любого «агента», про которого ты слышал: из рекламы, с работы, от знакомого. Или придумай задачу из своей сферы, которую хотелось бы отдать агенту.
- Разбери его на четыре части. Выпиши на бумаге: мозг (что он должен соображать), руки (что конкретно он должен делать — в какие системы лезть, что отправлять), память (что ему нужно помнить между шагами), план (на какие шаги бьётся задача).
- Теперь посмотри на пункт «руки». Если ты не можешь назвать ни одного конкретного действия в реальном мире — перед тобой не агент, а чат-бот. Это и есть твоя первая проверка на разводку, и ты только что провёл её сам.
Помнишь ту «умную автономную штуку» из начала, про которую ты не понимал, из чего она? Теперь у тебя есть отвёртка. Разбери её на мозг, руки, память и план — и сразу увидишь, где там настоящая работа, а где красивые слова.