Андрагогика Bloom: Apply ⏱ 9 мин знания агента

RAG: повар идёт в картотеку перед готовкой

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

🔥 Must Have

Это та самая механика, которая заставляет AI отвечать по ВАШИМ документам, а не выдумывать. Без неё разговор про «AI на наших данных» — пустой.

🤔 Зачем это читать

Клиент пишет в чат на сайте: «А у вас возврат в течение 30 дней?» AI-ассистент уверенно отвечает: «Да, конечно, 30 дней, привозите чек». Звучит гладко, клиент доволен. Одна беда: у вас возврат — 14 дней, и только при сохранённой упаковке. AI это не вычитал в ваших правилах — он просто выдал то, что «обычно бывает у магазинов». Через неделю — спор, скан переписки и вопрос «кто это пообещал».

Знакомо? Или другой вариант: ты спрашиваешь AI про ваш собственный продукт, внутренний регламент или прайс — а в ответ общие слова, будто он первый день в компании. Потому что так и есть: про ВАШУ кухню он не знает ничего. Он учился на чужих текстах из интернета, а ваши документы в него никто не клал.

Оба раза причина одна. Модель по умолчанию отвечает «по памяти» — по тому, что осело в ней во время обучения. А память эта общая, чужая и местами выдуманная: где не знает точно — уверенно достроит правдоподобное (это и есть галлюцинации, мы их разбирали в 2.5 — Галлюцинации). Про ваши цены, политики и продукты там просто нет данных.

После этой темы ты сможешь сам определить, какой задаче нужен RAG (поиск нужных фактов в вашей базе перед ответом), а какой — нет, и поймать момент, когда AI отвечает «из головы» там, где обязан смотреть в документ. Это рабочий навык: посмотрел на вопрос — понял, обойдётся ли модель своей памятью или ей нужно сходить в вашу картотеку.

Задержись на 10 секунд. Вспомни случай, когда AI уверенно сказал что-то про вашу компанию, продукт или правила — а оказалось мимо. Или наоборот: ответил общими словами там, где нужен был конкретный ваш факт. Что это был за вопрос? Держи его в голове: к концу страницы станет видно, можно ли это вообще починить и чем именно.

📕 Закрытая книга: повар отвечает по памяти и привирает

Представь повара, который учился на тысячах блюд и держит в голове общее представление «как примерно готовят». Спроси его про классический борщ — расскажет уверенно и в целом верно. А теперь спроси: «как мы готовим борщ в нашем ресторане, по фирменной рецептурной карте?». И вот тут начинается беда. Фирменную карту он в глаза не видел — её писали уже после того, как он выучился. Но молчать он не умеет. Поэтому он уверенно сочинит: «ну, наверное, со свёклой, сметаной и чесночными пампушками». Звучит убедительно. Совпадает с вашим рецептом? Случайно — может быть. По факту — он угадывал.

Это и есть режим «закрытая книга». Модель отвечает только тем, что осело в её «памяти» во время обучения — а это чужие тексты из интернета, до какого-то момента в прошлом, и без единого вашего документа. Про общие вещи (что такое НДС, как пишется деловое письмо) — отвечает прилично. Про ваше специфическое (ваши цены, ваша политика возврата, ваш внутренний регламент) — либо не знает, либо, что хуже, уверенно достраивает правдоподобное. Без лица, без сомнения, без пометки «я тут не уверен».

Главная ловушка закрытой книги. Опасна не та ошибка, где AI честно говорит «не знаю». Опасна та, где он не знает, но звучит уверенно. Клиенту не видно разницы между «вычитал в нашем регламенте» и «правдоподобно сочинил». Снаружи — один и тот же гладкий ответ. Цена — разная: один раз верный, другой раз спор и репутация.

📖 Открытая книга: повар сходил в картотеку и готовит по карточке

Теперь — другой режим. Прежде чем отвечать про фирменный борщ, повар не выдумывает, а идёт в картотеку. Находит карточку «Борщ фирменный», достаёт её, кладёт перед собой на стол — и готовит строго по ней. Свёклу шинкует так, как написано, сметану кладёт ту, что в карте, пампушки — по граммам. Не угадывает. Смотрит и делает.

Вот это и есть RAG (поиск нужных фактов в базе перед ответом) — по-английски Retrieval-Augmented Generation, дословно «генерация ответа, дополненная поиском». Длинное название, простая суть: перед тем как ответить, система достаёт из внешней базы знаний (ваших документов) нужные фрагменты и отвечает ПО НИМ, а не по общей памяти. «Закрытая книга» превратилась в «открытую»: повар держит перед глазами вашу карту и готовит по ней.

Один вопрос — два режима ответа

📕

Закрытая книга

Отвечает по памяти. «Возврат? Ну, дней 30, наверное.» Уверенно — и мимо ваших правил. Источника нет: проверить нечем.

📖

Открытая книга (RAG)

Сначала достаёт карточку. «По регламенту — 14 дней, упаковка сохранена.» По вашему документу. И можно показать, откуда взято.

Снаружи оба ответа гладкие. Разница в том, откуда факт: из общей памяти (выдумано) или из вашей картотеки (проверяемо).

🗂 Откуда берётся картотека и как в ней ищут

В прошлой теме (6.2 — Короткая и длинная память) мы уже познакомили тебя с умной картотекой по смыслу (vector DB) — хранилищем, которое ищет не по точному совпадению слов, а по смыслу: спросил «прозрачный навар из птицы» — нашёл карточку «куриный бульон». RAG живёт ровно на этой картотеке. Разберём, как ваши документы туда попадают и как оттуда достаётся нужное — без технических дебрей, на уровне «что происходит».

Шаг первый, подготовка (делается один раз заранее). Берут ваши документы — регламенты, FAQ, прайсы, базу ответов поддержки — и режут на куски-карточки. Это называется нарезка/chunking (деление документов на куски-карточки): целиком 50-страничный регламент на стол повару не положишь, а карточку «возврат товара» — в самый раз. Это первое.

Теперь второе. Каждой карточке система проставляет эмбеддинг/embedding (числовой «отпечаток смысла») — грубо говоря, координату на «карте смыслов», по которой потом находят похожее. Все карточки с их отпечатками складывают в ту самую умную картотеку.

Шаг второй, в момент вопроса (каждый раз). Приходит запрос — «какой у вас срок возврата?». Система берёт его, считает его «отпечаток смысла» и идёт в картотеку доставать нужные карточки — это и есть поиск/retrieval. Достаёт несколько самых подходящих, кладёт их повару на стол вместе с вопросом — и только теперь модель формулирует ответ, опираясь на эти карточки. А раз ищет по смыслу, а не по дословному совпадению слов, такой поиск называют поиск по смыслу/semantic search.

Что происходит при каждом вопросе

❓

Вопрос

«Какой у вас срок возврата?»

→

🗂

Поиск по смыслу

Картотека достаёт карточку «Политика возврата».

→

🧑‍🍳

Ответ по карточке

«14 дней, упаковка сохранена» + ссылка на источник.

Сначала достали факт из вашей базы — потом сформулировали ответ. Не наоборот.

        Псевдокод · как работает RAG перед ответом
        # это НЕ настоящий код, а логика на человеческом языке

        вопрос = "какой у вас срок возврата?"

        # 1. идём в картотеку (vector DB) и ищем ПО СМЫСЛУ нужные карточки

        карточки = картотека.найти_по_смыслу(вопрос, сколько = 3)

        # 2. кладём найденное повару на стол ВМЕСТЕ с вопросом

        на_столе = карточки + вопрос

        ответ = повар.приготовить(на_столе)

        # 3. показываем, откуда взят факт — ссылка на источник

        ответ.добавить_источник(карточки.откуда)

        # → ответ привязан к вашему документу, а не выдуман по памяти

⚓ Зачем это владельцу: заземление и ссылки на источники

Два слова, ради которых вся затея. Первое — заземление/grounding (привязка ответа к источнику). Когда ответ построен на конкретной карточке из вашей базы, модели меньше нужно выдумывать — факт уже лежит перед ней. Галлюцинаций становится меньше не потому, что модель «поумнела», а потому, что ей дали смотреть в документ, а не вспоминать. Важная честность: меньше — не значит ноль. Если в картотеке нашлась не та карточка или факт размазан по разным документам, ошибиться всё равно можно. RAG резко снижает выдумки, но не отменяет проверку.

Второе — ссылки на источники/citations (откуда взят ответ). Раз ответ собран из конкретных карточек, система может показать: «вот отсюда». Это даёт аудируемость — возможность проверить и доказать. Клиент спорит про срок возврата — открываешь карточку регламента, на которую сослался ассистент: вот пункт, вот дата. Для поддержки, юристов, комплаенса это меняет всё: ответ перестаёт быть «AI так сказал» и становится «вот документ, на который он опирался».

Прежде чем трогать тренажёр — прикинь сам. Возьми тот свой вопрос из начала страницы. Задай ему один встречный вопрос: ответ на него — это общее знание любого грамотного человека или специфика именно вашей компании (ваши цены, правила, продукты, свежие внутренние данные)? Если общее — повар ответит из головы. Если ваше — без картотеки он будет угадывать. Подержи догадку в голове: сейчас прогоним семь вопросов и проверим твоё чутьё.

🎮 Из головы или в картотеку?

Семь вопросов, которые могут прилететь вашему AI-ассистенту. По каждому реши: повар ответит из головы (это общее знание, RAG не нужен) или ему нужно сходить в картотеку (специфика компании, точные или свежие внутренние данные — нужен RAG)? Критерий ты уже нащупал выше — проверь его на семи живых вопросах. Жми кнопку — увидишь разбор.

📖 Ключевые понятия

RAG (поиск нужных фактов в базе перед ответом): Полностью — Retrieval-Augmented Generation, «генерация ответа, дополненная поиском». Перед тем как ответить, система достаёт из внешней базы (ваших документов) нужные фрагменты и отвечает по ним, а не по общей памяти модели. Повар идёт в картотеку за карточкой, а не выдумывает рецепт.
Закрытая книга → открытая книга: Образ перехода. Закрытая книга — модель отвечает только по тому, что осело при обучении (чужое, старое, без ваших данных — и уверенно достраивает там, где не знает). Открытая книга — перед ответом смотрит в ваш документ.
Нарезка/chunking (деление документов на куски-карточки): Подготовка базы: длинные документы режут на небольшие осмысленные куски-карточки. Целый регламент повару на стол не положишь — а карточку «возврат товара» в самый раз.
Эмбеддинг/embedding (числовой «отпечаток смысла»): Координата карточки на «карте смыслов». По близости отпечатков система находит похожее по смыслу, а не по точным словам. «Прозрачный навар из птицы» и «куриный бульон» оказываются рядом.
Поиск/retrieval и поиск по смыслу/semantic search: Сам момент доставания нужных карточек из картотеки под конкретный вопрос. «По смыслу» — потому что ищется то, что вы имели в виду, а не дословное совпадение слов.
Векторная база/vector DB (умная картотека по смыслу): Хранилище карточек с их отпечатками смысла, в котором и происходит поиск по смыслу. Та самая «умная картотека», с которой ты познакомился в теме про длинную память.
Заземление/grounding (привязка ответа к источнику): Ответ построен на конкретном фрагменте из вашей базы, а не на общей памяти. Меньше выдумок — модели меньше нужно достраивать. Меньше, но не ноль: не та карточка — снова возможна ошибка.
Ссылки на источники/citations (откуда взят ответ): Система показывает, из каких карточек собран ответ. Даёт аудируемость: можно открыть документ и проверить. «AI так сказал» превращается в «вот пункт регламента, на который он опирался».

🛡️ Частые заблуждения

«Возьмём модель помощнее — и она сама будет знать всё про наш бизнес»

Нет. Сколько ни добавляй мощности, ваших цен, регламентов и тикетов в модели нет — её обучали на чужих текстах. «Помощнее» лучше рассуждает и складнее пишет, но про ваши данные знать не начнёт. Знание ваших фактов даёт не размер модели, а доступ к вашей базе — то есть RAG.

«Раз RAG отвечает по документам — значит, теперь он не врёт вообще»

Меньше — да, совсем — нет. Если в картотеку положили мусор, плохо нарезали документы или поиск достал не ту карточку, ответ снова уедет. «Грязный склад» = красивый, но неверный ответ. RAG резко снижает выдумки, но не отменяет проверку и порядок в самих данных.

«Закинул все документы в чат одним сообщением — это и есть RAG»

Нет. Вставить документы прямо в запрос — это просто положить их повару на стол целиком на один раз: на следующий вопрос их там уже нет, а длинный текст он читает по диагонали и теряет детали (это про память из 6.2). RAG — это постоянная картотека, из которой под каждый вопрос достаётся только нужная карточка. Разовая вставка ≠ картотека с поиском.

🧠 AI-чутьё (AI Judgment)

RAG — для ваших приватных и точных знаний; citations — для аудируемости; «модель помощнее» не заменит доступ к вашим данным

Главная мысль, которую стоит унести с этой страницы: когда тебе нужно, чтобы AI отвечал про ВАШУ компанию точно и проверяемо, — это задача про RAG, а не про выбор модели. FAQ магазина, HR-мануалы, база ответов поддержки, прайсы, внутренние политики — всё это живёт в ваших документах, и единственный способ заставить AI отвечать по ним, а не по фантазии — дать ему картотеку и заставить смотреть туда перед ответом.

Отсюда рабочее правило владельца. Услышал обещание «наш AI знает всё про ваш бизнес» — приложи два вопроса: «Откуда он берёт наши факты — из вашей картотеки наших документов или из общей памяти модели?» и «Может ли он показать источник — на какой именно наш документ он оперся?». Если в ответ начинают про «очень умную и большую модель» — это красный флаг: мощность модели не кладёт в неё ваши данные. А если ответ нельзя сослать на источник, в регулируемых и спорных вопросах (возвраты, договоры, кадры) ему нельзя доверять как доказательству.

И сразу про цену вопроса, чтобы картина была честной. RAG — это не бесплатный переключатель. Нужно собрать документы, нарезать, наполнить и поддерживать картотеку в актуальном состоянии (устаревшая карточка — снова неверный ответ). А ещё в эту базу попадают ваши внутренние и клиентские данные — и это сразу про приватность и закон, отдельный серьёзный разговор. Так что правильный вопрос звучит не «а можно, чтобы он знал наши документы?», а «какие именно документы, кто будет держать картотеку свежей и не утекут ли оттуда персональные данные?».

🎯 Практика

Одно задание на пять минут, чтобы различие «из головы / в картотеку» закрепилось на твоих реальных вопросах, а не на абстрактных.

Выпиши пять вопросов, которые ваши клиенты или коллеги реально задают чаще всего — про продукт, цены, правила, процессы. Любые, прямо как звучат.
По каждому задай один вопрос: «ответ на это знает любой грамотный человек — или только тот, кто читал наши документы?». Если общее знание — пометь «из головы». Если ваша специфика (цены, политики, история, внутренние данные) — пометь «нужен RAG, наша картотека».
Для тех, где вышло «нужен RAG», добавь третий вопрос — «в каком нашем документе лежит правильный ответ и кто держит его в актуальном виде?». Если на половину вопросов документа нет или он устарел — ты только что нашёл, что чинить до запуска AI-ассистента, а не после первого спора с клиентом.

Помнишь случай из начала — где AI уверенно сказал что-то про вашу компанию мимо правды? Теперь видно: там он работал в режиме «закрытая книга», отвечал по общей памяти про ваш специфический факт. Чинится это не «моделью поумнее», а картотекой ваших документов, в которую он сходит перед ответом, и ссылкой на источник, по которой ответ можно проверить.

🔗 Что дальше

Следующая тема: 7.2 — Из чего собран RAG: эмбеддинги, поиск, нарезка. Заглянем внутрь умной картотеки: как «отпечаток смысла» позволяет находить нужное по сути, а не по словам, и почему от качества нарезки зависит, что повар достанет со стола.

Связанные темы:

6.2 — Короткая и длинная память — фундамент под этой темой: там появилась умная картотека по смыслу, на которой и стоит RAG.
2.5 — Галлюцинации — почему модель уверенно выдумывает; RAG — один из главных способов это лечить, давая ей смотреть в документ.
7.4 — Грязные данные + агент = катастрофа — оборотная сторона: почему «мусор на складе» рождает красивый, но неверный ответ, и что чинить в самих документах до запуска.