Андрагогика Bloom: Analyze ⏱ 7 мин факты с датой выбор модели

Модели стареют за недели

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have
☀️ Should Have
Не самый первый кирпич, но почти каждый, кто строит процесс вокруг конкретной модели, потом за это платит. Стоит прочитать до выбора.

🤔 Зачем это читать

Вышел громкий релиз. Презентация, цифры в шапке: «новая модель — лидер чартов, окно на 1 000 000 токенов» (токен — кусочек текста, примерно слог или короткое слово; окно — сколько текста модель держит в голове за раз, мы разбирали это в теме про окно). Команда выбрала именно её, прописала её имя в настройках, инструкции, договоре с подрядчиком. Запустили. Работает.

Проходит месяц — выходит новая версия, текущая тихо уходит на второй план. Ещё через несколько недель цена на ту, что вы зашили, меняется или её начинают сворачивать. А потом выясняется неприятное: «лидер чарта», которого вы взяли по громкому релизу, на вашей конкретной задаче — разбор счетов, ответы клиентам на вашем сленге — работает хуже модели, про которую никто не писал. Чарт-то был про другое.

И теперь переезд — это не «поменяли строчку». Это переписать инструкции, перепроверить весь процесс, заново согласовать с подрядчиком. Потому что всё было привязано к одному имени и одной партии «продукта», как будто оно вечное.

После этой темы ты сможешь разобрать любой выбор модели на две части: что в нём прочное, а что устареет через недели. И поймёшь, почему сравнивать модели надо дегустацией на своём блюде, а не по чужой вывеске «у нас окно больше».

Задержись на 10 секунд. Вспомни последнюю покупку или решение, которое вы приняли «потому что это сейчас лучшее на рынке» — телефон, поставщик, подрядчик, инструмент. Через сколько оно перестало быть «лучшим»? И насколько больно было бы менять, если бы вокруг него уже выстроился весь процесс? Держи это в голове — ровно так ведут себя модели, только быстрее.

📅 Меню сменилось, пока ты читал договор

Вспомни повара по насмотренности из азов курса. Модель — это и есть такой повар: ты не нанимаешь его в штат, а берёшь у поставщика готовую работу нужного повара под свою задачу. Так вот, у этих поставщиков меню сезонное, и сезон длится недели, а не годы: повар, которого ты выбрал, через месяц сменится на новую версию.

Чтобы это не звучало абстрактно — вот реальная хронология того, как сменялись флагманские модели у трёх крупных вендоров (вендор — компания-поставщик модели). Цифры здесь нужны не чтобы их запомнить, а чтобы почувствовать темп. К тому моменту, как ты это читаешь, версии наверняка уже другие — и это ровно то, о чём тема.

Как менялись флагманы за полгода с небольшим
срез на 30.05.2026 — к моменту чтения уже устарел, и в этом всё дело
ноя 2025 → май 2026
Поставщик A
Флагман сменился несколько раз за полгода: ноябрь, февраль, май. Окно выросло до 1 000 000 токенов.
авг 2025 → апр 2026
Поставщик B
Версия прибавляла номер почти каждые пару месяцев. К весне 2026 окно тоже дошло до 1 000 000.
ноя 2025 → фев 2026
Поставщик C
Новый флагман и обновление — за три месяца. Окно — те же 1 000 000 токенов.
Вывод не в цифрах, а в темпе: новые версии выходят почти ежемесячно. К весне 2026 «1 000 000 токенов» из громкой фишки превратился в общее место — он есть у всех. А раз так, выбирать по «у кого окно больше» уже бессмысленно.

Заметь, что произошло с «миллионом токенов». Полгода назад это был аргумент в презентации, повод выбрать именно этого поставщика. Сейчас он есть у всех трёх — и перестал что-либо различать. Так умирает любой аргумент вида «у нас цифра больше»: сегодня фишка, завтра норма у каждого.

🔌 Не привязывай кухню к одному поставщику

Грамотный владелец ресторана никогда не строит всю кухню вокруг одного поставщика и одной партии продукта. Не потому, что поставщик плохой — а потому, что поставщики меняются: цены прыгают, партия заканчивается, кто-то закрывается, кто-то привозит лучше и дешевле. Кухня, которая работает только на лососе от одного фермера, встаёт в тот день, когда фермер уходит на пенсию.

С моделями то же самое, и это важнее любой конкретной цифры. Есть разница между двумя способами всё устроить:

Два способа подключить модель к процессу
🔒
Зашить версию намертво
Имя модели прописано везде: в инструкциях, в обучении людей, в договоре. Смена = переписать всё. Кухня заточена под одного фермера.
vs
🔁
Сделать заменяемой
Модель — деталь, которую можно вынуть и поставить другую. Процесс описан через задачу, а не через имя. Смена поставщика = пара дней проверки.
Раз модели стареют за недели — заменяемость это не перестраховка, а норма проектирования. Привязка намертво гарантирует, что переезд будет дорогим, и вопрос лишь когда.

«Сделать заменяемой» на практике значит простую вещь: ты описываешь процесс через задачу («разобрать входящее письмо и достать из него сумму и срок»), а не через имя модели («модель такая-то версии такой-то делает то-то»). Тогда замена поставщика — это поменять деталь и заново продегустировать, а не разобрать пол-кухни.

🍴 Дегустация на своём блюде, а не вывеска поставщика

Теперь второй капкан — и он коварнее, чем устаревание. Когда выбирают модель «по чарту» или «по громкому релизу», молча предполагают, что чарт меряет ровно твою задачу. Почти никогда это не так.

Чарт (рейтинг, бенчмарк — стандартный тест, по которому сравнивают модели) меряет что-то усреднённое: задачки по математике, общие вопросы, кусок кода. Это как выбирать повара для своего рыбного ресторанчика по тому, что он занял первое место на конкурсе десертов. Победитель — настоящий, медаль — настоящая. Только готовить тебе нужно не десерты.

Есть выверенный, неуютный для маркетинга факт: модели, которые в чартах показывают красивые числа на «своих» тестах, на других задачах проваливаются — иногда вдвое. Есть исследования: модели, безупречные на коротких вопросах, на длинном тексте проседают ниже половины своего же результата, как только ответ нельзя найти простым совпадением слов. (Это не на пустом месте: тест NoLiMa на понимание длинного текста, ICML 2025, — большинство моделей проседают вдвое уже на 32 000 токенов.) Громкая цифра из релиза и поведение на твоём тексте — разные числа.

Псевдокод · как выбрать модель по-владельчески # это НЕ настоящий код, а логика на человеческом языке
# НЕ так:
выбрать_модель = «та, что выше в чарте / про которую громче релиз»

# а так:
собрать 20 - 30 примеров СВОЕЙ реальной задачи (с правильными ответами)
для каждой модели-кандидата:
  прогнать на этих примерах
  посчитать: точность, цена за вызов, скорость ответа
выбрать ту, что лучше на МОИХ примерах при моей цене
# осторожно с «думающими» (reasoning) моделями: точнее на сложном,
# но в разы медленнее и заметно дороже — меряй их цену отдельно
# → и записать процесс так, чтобы кандидата можно было заменить завтра

Двадцать-тридцать своих примеров с известными правильными ответами обыгрывают чужой чарт почти всегда — когда у тебя эти размеченные примеры есть. (Если задача без эталона — скажем, творческая генерация без «правильного» ответа — своя дегустация хромает, и это отдельный разговор.) Потому что чарт отвечает на вопрос «кто в среднем хорош», а тебе нужен ответ на вопрос «кто хорош на моём». Это и есть дегустация: ты пробуешь блюдо, которое реально будешь подавать, а не читаешь грамоты на стене.

🧭 Что из этого вечное, а что протухнет

Соберём разбор. В любом разговоре про выбор модели мысленно дели услышанное на два ящика.

Когда тебе в следующий раз принесут громкий релиз как повод немедленно всё на него переключить, у тебя теперь есть спокойный встречный ход: «Хорошо. Прогоним на наших двадцати примерах рядом с текущей — и посмотрим, выигрывает ли она на нашей задаче и по нашей цене. И сделаем так, чтобы поменять было легко». Это не скепсис ради скепсиса. Это владелец, который видел, как меняется меню.

Прежде чем идти дальше — сделай это сам. Вспомни последний громкий релиз модели, о котором слышал (или просто рекламную фразу «новая модель умеет X»). Мысленно раскидай аргументы из него по двум ящикам: что здесь протухнет за недели, а что — про устройство, а не про версию. Десять секунд. Дальше в тренажёре ты будешь делать ровно это — разбирать чужие формулировки на прочное и сезонное.

🎮 Разбери, что устареет

Четыре пары решений про выбор модели. В каждой паре один вариант привязан к тому, что протухнет (версия, чарт, цифра в шапке), а другой опирается на устройство процесса. Твоя задача — не угадать «правильный», а вычленить, что именно в одном из вариантов устареет через недели, и нажать на тот, что переживёт следующий релиз. Сразу увидишь разбор. Это разминка чутья, не экзамен.

📖 Ключевые понятия

Версия модели
Конкретный выпуск повара-поставщика, с номером и датой. Сменяется почти ежемесячно: на момент весны 2026 флагманы трёх крупных вендоров обновлялись по несколько раз за полгода. Любая «лучшая версия» — сезонное меню, а не вечная истина.
Заменяемость (model-agnostic)
Когда процесс описан через задачу, а не через имя модели, и поставщика можно вынуть и поставить другого без перестройки всей кухни. Прямое следствие того, что модели стареют за недели: заменяемость — норма проектирования, а не перестраховка.
Бенчмарк / чарт
Стандартный тест, по которому публично сравнивают модели. Меряет усреднённое (общие вопросы, математику, код), а не твою задачу. Лидер чарта может проваливать твою работу — как чемпион по десертам, которого позвали готовить рыбу.
Тест на своей задаче
Дегустация: 20 - 30 примеров твоей реальной работы с известными правильными ответами, на которых ты прогоняешь кандидатов и считаешь точность, цену и скорость. Обыгрывает чужой чарт почти всегда — там, где у тебя есть размеченные примеры, — потому что меряет именно то, что тебе нужно подавать.

🛡️ Частые заблуждения

«Выберем самую сильную модель сейчас — и вопрос закрыт надолго»

Не закрыт. На момент весны 2026 флагманы обновляются почти каждый месяц, и через несколько недель «самая сильная» уже не она, а текущая может подорожать или начать сворачиваться. Закрывается не вопрос «какую взять», а вопрос «как сделать так, чтобы менять было легко».

«Лидер чарта — значит, лучшая и для нашей задачи»

Не значит. Чарт меряет усреднённое, а не твоё. Модели с красивыми числами на «своих» тестах на других задачах проседают, иногда вдвое. Единственная честная проверка — прогнать кандидатов на твоих собственных примерах с известными ответами.

«У кого окно больше, тот и лучше — берём с миллионом токенов»

К весне 2026 окно в 1 000 000 токенов есть у всех крупных вендоров — оно перестало что-либо различать. И заявленный размер окна всё равно не равен тому, на каком объёме модель надёжно работает (это отдельная тема). Сравнивай по делу, а не по цифре в шапке.

🧠 AI-чутьё (AI Judgment)

Не строй процесс вокруг версии; делай модель заменяемой; меряй на своей задаче

Главная мысль темы держится на одном наблюдении: в выборе модели почти всё, что звучит громко, устаревает быстрее, чем ты успеваешь это внедрить. Версия, чарт, размер окна, цена — сезонное меню. А раз так, опираться надо не на них, а на то, что переживёт следующий релиз.

Рабочее правило в три шага. Первое: не вшивай имя модели в процесс — описывай через задачу, держи модель заменяемой деталью. Второе: выбирай дегустацией на своих примерах, а не по чужому чарту, и считай не только точность, но цену и скорость. Третье: на каждый громкий релиз отвечай сравнением, а не переездом — прогнал рядом с текущей на своём, увидел реальный выигрыш, тогда менял.

И мостик вперёд. Ровно эта же логика «не привязывайся к конкретной вещи, понимай принцип» дальше в курсе развернётся в выбор фреймворка — там нельзя жениться на одном «комплекте кухни» от поставщика. А чутьё «громкое слово ≠ работающая вещь» защитит тебя от agent washing — когда обычного бота продают как автономного агента под модный ярлык. Тот же навык владельца, который видел, как меняется меню: смотри на то, что делает вещь, а не на вывеску.

🎯 Практика

Одно задание на десять минут — оно превращает тему из «понятно» в «умею».

  1. Возьми одну реальную задачу, где у тебя (или у компании) уже работает или планируется AI: разбор писем, ответы клиентам, черновики отчётов — что угодно конкретное.
  2. Собери 10 - 20 примеров этой задачи с правильными ответами, которые ты знаешь сам. Это твой личный мини-чарт — он меряет ровно твою работу.
  3. Прогони на этих примерах две разные модели (любые две доступные). Сравни не «которая умнее вообще», а кто лучше справился с твоими примерами и сколько это стоило. Запиши результат.
  4. Проверь свой текущий процесс на привязку: если завтра придётся сменить модель — что нужно будет переписать? Если ответ «много всего» — у тебя есть, что сделать заменяемым.

Помнишь ту покупку «потому что сейчас лучшее на рынке» из начала? Теперь видно, в чём была ловушка: «лучшее сейчас» — это про сегодня и про чей-то усреднённый тест, а не про твою задачу завтра. С моделями просто всё то же самое, только сезон короче.

🔗 Что дальше

Связанная тема: 2.4 — «1 миллион токенов» — это маркетинг. Прямое продолжение: почему даже заявленное окно в 1 000 000 токенов — не то же самое, что «надёжно работает с миллионом», и почему размер окна вообще плохой критерий выбора.

Дальше по курсу та же мысль «понимай принцип, не привязывайся к конкретной вещи» вернётся, когда будем выбирать инструменты и фреймворки для своей кухни, и когда будем разбирать, как отличить настоящего агента от красивой вывески. Навык, который ты только что потренировал, там сработает снова.