Андрагогика Bloom: Evaluate ⏱ 11 мин готовность данных

Грязные данные + агент = катастрофа

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

🔥 Must Have

Самая частая причина, по которой AI на ваших документах позорит вас перед клиентом. Прочти до того, как подпишешь бюджет.

🤔 Зачем это читать

Внедрили AI-ассистента на свою базу документов — гордость отдела. Клиент пишет: «Сколько стоит годовое обслуживание?» Ассистент уверенно, мгновенно, вежливо отвечает: «59 000 ₽». Клиент оформляет. А цена с января — 74 000 ₽. Старый прайс просто остался лежать в той же папке, что и новый, и никто его не убрал. Теперь у вас выбор: продать в убыток по названной цене или сказать клиенту «извините, наш бот ошибся». Оба варианта стоят денег и лица.

Знакомо? Или другой вариант, пострашнее: тот же ассистент — уже не просто отвечает, а сам оформляет заказ. И оформил его по старой цене, отправил клиенту подтверждение, поставил задачу на склад. Пока кто-то заметил — ушло три таких заказа. Ассистент ничего не «соврал» специально. Он честно взял то, что лежало на полке. Полка была грязная.

Дело тут не в том, что модель глупая. В прошлой теме (7.1 — RAG: повар идёт в картотеку перед готовкой, скоро) мы разобрали красивую идею: чтобы агент не выдумывал, перед ответом он лезет в вашу базу и достаёт оттуда факты. RAG — это «поиск нужных фактов в твоей базе перед ответом» (англ. retrieval-augmented generation) — делает агента точнее ровно настолько, насколько чиста сама база. Достал из грязной кладовой просрочку — приготовил блюдо из просрочки. С серьёзным лицом, красиво, на тарелке.

После этой темы ты сможешь оценить, готовы ли твои данные к тому, чтобы пускать на них агента — увидеть, что критично почистить до запуска, что терпит, а где честный ответ: «сначала наведём порядок на складе, агент потом». Это навык владельца, который не подписывает бюджет вслепую.

Задержись на 10 секунд. Представь свою рабочую папку с документами — ту, на которую вы захотели бы посадить AI: прайсы, регламенты, договоры, переписка с клиентами. Честно: сколько там лежит устаревшего, дублей, файлов с именами вроде «финал_финал_2_правка.docx», документов без даты? Подержи эту картину в голове — к концу страницы мы на неё посмотрим как на «склад перед приёмкой».

🗑 Garbage in → plausible garbage out

Есть старое правило про компьютеры: «мусор на входе — мусор на выходе». С обычной программой это полбеды: мусор на выходе обычно выглядит как мусор. Кривая таблица, очевидная ошибка, ноль вместо суммы — глаз цепляется, человек замечает.

С AI правило становится злее. Тут мусор на входе превращается в правдоподобный мусор на выходе. Скормили агенту устаревший прайс — он не выдаст ошибку и не подсветит проблему. Он спокойно, грамотно, уверенным тоном назовёт старую цену. Снаружи ответ неотличим от правильного: те же вежливые формулировки, та же уверенность. Именно это и опасно — мусор приходит в красивой упаковке, и его некому поймать.

Кстати, это прямой родственник того, о чём шла речь в теме 2.5 — Галлюцинации: модель умеет уверенно говорить то, чего нет. Только там она выдумывала сама, а здесь — добросовестно повторяет чужой мусор из базы. Для клиента разницы ноль: он получил уверенный неправильный ответ.

🥫 Грязная кладовая глазами повара

Вернёмся на кухню. RAG — это повар, который перед готовкой идёт в кладовую (вашу базу документов), достаёт нужный продукт и готовит из него. Прекрасная идея — пока кладовая в порядке. И сразу убери частое заблуждение владельца: «AI на наших документах» — это не «мы обучили модель на наших документах». RAG не меняет саму модель, он подкладывает ей нужный документ в момент ответа. Повар тот же — меняется только то, что лежит на полке.

А теперь зайдём в кладовую, где давно не наводили порядок. И посмотрим, что повар оттуда достанет.

Пять видов грязи на полках

📅

Просрочка

Устаревшие документы рядом с новыми. Старый прайс, отменённая политика, регламент трёхлетней давности. Повар не знает, что тут протухло.

👯

Дубли с конфликтом

Две банки с одной этикеткой, но разным содержимым. Две версии правила — и они противоречат друг другу. Какую возьмёт повар? Любую.

🏷

Без подписи

Нет даты, нет источника. Непонятно, откуда документ и актуален ли он. Нельзя ни проверить, ни сослаться на источник — это и называют отсутствием заземления (grounding): ответ не привязан ни к чему, что можно показать. Нечем доказать — нельзя доверять.

🍲

Мешанина версий

«финал», «финал_2», «правка_итог» — всё свалено вместе. Куски одного документа разбросаны, не собрать целое. Повар хватает первый попавшийся.

🗑

Мусор: черновики, шутки в чате, чужие файлы

Случайное, нерабочее, не относящееся к делу. Попало в кладовую «на всякий случай» — а повар не отличает заготовку от обрезков.

Главная мысль кладовой: повар не оценивает продукт на свежесть и не читает мелкий шрифт. Он берёт то, что нашёл, и готовит. Если две банки противоречат — возьмёт ту, что ближе, и не задумается. Если на банке нет даты — всё равно откроет. Чистоту склада обеспечивает не повар. Это работа владельца — до того, как пустить повара к полкам.

⚡ Почему агент опаснее простого ответа

Пока агент только отвечает — грязные данные дают неправильный ответ. Плохо, но человек ещё может перепроверить и поймать. А теперь вспомни, чем агент отличается от обычного чат-бота (мы это разбирали в теме 4.1 — Инструменты агента): агент не только говорит, он действует. Отправляет письмо, оформляет заказ, ставит задачу, меняет запись в системе.

И вот тут грязные данные перестают быть «неловким ответом» и становятся деньгами и обязательствами. Смотри, как одна устаревшая цифра проходит по цепочке.

Как грязная полка превращается в убыток

🥫

Грязная полка
Старый прайс лежит рядом с новым, без даты

→

🧑‍🍳

Повар достал
Агент берёт старую цифру и уверенно её называет

→

📤

Агент сделал
Оформил заказ, отправил подтверждение клиенту

Чем самостоятельнее повар (выше автономия агента) — тем дальше уезжает ошибка, прежде чем её кто-то заметит. И тем дороже её откатывать.

Запомни эту связку, она и есть нерв темы: чем выше автономия агента, тем выше требования к чистоте данных. Поварёнок, который только подсказывает официанту, ошибётся дёшево — его поправят. Шеф, которому доверили готовить и отдавать в зал без проверки, на той же грязной банке отравит весь банкет. Свобода действовать умножает цену плохих данных, а не уменьшает её.

🧹 Аудит данных — это ДО, а не после

Отсюда — главный практический вывод, который дороже всего стоит. Проверку готовности данных (по-английски это называют data readiness — насколько твой склад вообще готов, чтобы на него пускали агента) надо делать до запуска, а не разгребать последствия после.

Это, кстати, не теория из учебника. По исследованиям внедрения AI в компаниях, качество и готовность данных — барьер №1 уже не первый год: в опросах директоров по данным 2025 года именно это назвали главным препятствием для AI-проектов (около 43%). Проекты буксуют не из-за «слабой модели», а из-за того, что её посадили на бардак. Те, у кого получается, почти всегда сначала навели порядок в данных и перестроили процесс — и только потом включили AI.

Хорошая новость: тебе не нужно самому чистить базу. Тебе нужно уметь оценить — что на складе критично, что терпит, и стоит ли вообще сейчас пускать туда агента. Это и есть навык владельца. На нём построен тренажёр ниже.

Прежде чем трогать тренажёр — прикинь сам. Из пяти видов грязи (просрочка, дубли с конфликтом, без подписи, мешанина версий, мусор) — какие, по-твоему, критично убрать до запуска агента, а какие можно стерпеть на старте? И главный вопрос: бывает ли так, что данные настолько грязные, что правильный ответ — «агента пока вообще не пускаем»? Подержи свою догадку в голове: сейчас прогоним пять реальных складов и проверим твоё чутьё.

🎮 Пускать агента на этот склад?

Пять компаний хотят посадить AI-агента на свои данные. По каждой — короткое описание склада и того, что агенту разрешат делать. Твоя задача как владельца — оценить решение: можно запускать как есть, надо сначала почистить критичное, или пока вообще нельзя. Жми кнопку — сразу увидишь разбор. Это про чутьё, а не про зубрёжку.

📖 Ключевые понятия

«Мусор на входе → правдоподобный мусор на выходе» (garbage in, plausible garbage out): С обычной программой мусор на выходе виден глазом. С AI он приходит в красивой упаковке: грамотный, уверенный, неотличимый от правды ответ — построенный на грязных данных. Поэтому его некому поймать.
Готовность данных (data readiness): Насколько твой «склад» документов готов к тому, чтобы на него пускали агента: всё актуально, без конфликтов и дублей, с датами и источниками, без мусора. Оценивается ДО запуска, а не после.
Заземление и ссылки на источники (grounding, citations): Привязка ответа к конкретному документу-источнику и возможность показать, откуда он взят. Работает как защита: если у каждого факта есть дата и источник, грязь видно сразу — а ответ можно проверить. Документ без подписи заземлить нельзя.
Автономия и цена ошибки: Чем больше агенту разрешено делать самому (не только отвечать, но и отправлять, оформлять, менять), тем дальше уезжает ошибка на грязных данных до того, как её заметят, — и тем дороже она обходится. Выше автономия — выше требования к чистоте склада.

🛡️ Частые заблуждения

«Если в базе два разных прайса, агент сам это заметит и предупредит»

Не предупредит. Многие верят, что модель «увидит» противоречие и переспросит — но повар не сверяет банки между собой, он берёт ту, что ближе, и готовит. Агент не поднимет руку «тут конфликт, уточните» — он уверенно выдаст одну из версий как единственную правду. Конфликт замечает не агент, а тот, кто навёл порядок на складе до него.

«Закинем в базу всё, что есть, — пусть будет больше, лишним не будет»

Будет, и ещё каким. Лишнее, противоречивое и устаревшее не «лежит про запас» — оно активно мешает: повар достаёт не тот продукт. Чистая база из нужного работает лучше огромной свалки. «Больше данных» и «лучше данные» — разные вещи.

«Грязные данные — это технический вопрос, разработчики разберутся уже на ходу»

Нет. Что считать актуальным, какой прайс верный, какая версия политики действует — это не код, это знание о вашем бизнесе. Разработчик не знает, что прайс сменился в январе. Решение «что чисто, а что мусор» принимает владелец. И принимает ДО запуска, а не когда клиент уже получил старую цену.

🧠 AI-чутьё (AI Judgment)

Аудит данных — предусловие внедрения; иногда правильный ответ — «сначала порядок, агент потом»

Главное, что стоит унести с этой страницы: аудит данных — это не один из этапов внедрения, а предусловие самого решения внедрять. Вопрос «а готовы ли наши данные?» задаётся не после того, как купили агента, а до того, как подписали бюджет. Перепутать порядок — самый дорогой и самый частый способ слить AI-проект.

Отсюда рабочее правило владельца. Когда тебе приносят идею «давайте посадим AI на наши документы», прежде чем кивать, приложи три вопроса: «Насколько чист этот склад — есть ли там устаревшее, противоречивое, без дат и источников?», «Что именно агенту разрешат делать — только отвечать или ещё и действовать?» и «Если данные грязные, а действовать ему дадим, — кто и когда наведёт порядок до запуска?». Чем выше автономия в ответе на второй вопрос, тем строже спрос по первому.

И не бойся непопулярного вывода. Иногда самый зрелый ответ звучит так: «Сначала наведём порядок в данных, агента запустим потом». Это не провал проекта и не трусость — это ровно то решение, которое отличает 5%, у кого AI доезжает до результата, от тех, у кого он позорит компанию перед клиентом на второй неделе. Чистый склад — не подготовка к проекту. Чистый склад и есть половина проекта.

🎯 Практика

Одно задание на десять минут — мини-аудит твоего реального склада, без всякого кода.

Возьми ту самую папку с документами из начала страницы — на которую вы хотели бы посадить AI. Пройдись по ней с пятью «фонариками»: просрочка (устаревшее), дубли с конфликтом (противоречат друг другу), без подписи (нет даты/источника), мешанина версий, мусор (черновики, чужое, нерабочее).
По каждому виду грязи отметь честно: есть / нет / много. Не нужно чинить — нужно увидеть масштаб.
Теперь добавь вторую ось: что вы хотите, чтобы агент делал — только отвечал или ещё и действовал (отправлял, оформлял, менял)? Сопоставь с грязью и вынеси вердикт: можно как есть / сначала почистить вот это / пока нельзя.
Если вышло «сначала почистить» или «пока нельзя» — ты только что нашёл то, что обязательно проговорить с командой или вендором до запуска. Это и есть разговор, который спасает бюджет.

Помнишь свою папку из начала — с «финал_финал_2.docx» и документами без дат? Теперь это не «бардак, до которого руки не доходят», а склад перед приёмкой. И ты знаешь, что приёмку делают до того, как пускают повара к полкам, — а не после того, как он подал блюдо из просрочки клиенту.

🔗 Что дальше

Этой темой закрывается модуль про RAG — поиск фактов в твоей базе перед ответом. Дальше курс переходит к тому, как заставить нескольких агентов работать вместе.

Следующая тема: 8.1 — Почему одного агента мало: предел одного повара. Как заставить нескольких поваров работать вместе — когда и зачем собирать бригаду.

Связанные темы:

7.1 — RAG: повар идёт в картотеку перед готовкой — откуда вообще берётся идея «доставать факты из базы»; чистота этой базы и есть тема, которую мы только что разобрали.
2.5 — Галлюцинации — родственная беда: там модель выдумывает сама, здесь — добросовестно повторяет чужой мусор. Для клиента результат один.
4.9 — Агент и ваши системы — про подключение агента к вашим базам, складу и CRM; здесь видно, откуда грязные данные физически попадают повару на стол.
6.2 — Короткая и длинная память — про умную картотеку по смыслу; полезно вспомнить, что «поиск по смыслу» не починит то, что на складе в принципе не разобрано.