Основы LLM ⏱ чтение ~12 мин + практика 10 мин факты на весну 2026

1 миллион токенов — это маркетинг

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

☀️ Should Have

Не самый первый кирпич, но именно тут гибнут проекты «зальём всё в окно». Один разбор спасает бюджет.

🤔 Зачем это читать

У тебя архив договоров за пять лет. Подрядчик предлагает красивое: «У модели окно на 1 000 000 токенов — это примерно полторы тысячи страниц. Зальём туда весь архив целиком, и спрашивай что хочешь: где какая сумма, какие условия, кто за что отвечает». Звучит как мечта юриста. Бюджет согласовали, процесс выстроили, людям сказали «теперь всё ищем через AI».

А потом начинается. Спрашиваешь про условие из договора, который попал в середину пачки, — модель уверенно отвечает мимо. Сумму из соглашения посередине списка путает с соседним. Один раз ссылается на пункт, которого вообще не было. И самое подлое: ровно те же вопросы про первый и последний договор она отрабатывает идеально. Поэтому на демонстрации всё блестело, а на потоке — поехало. И крайним опять оказываешься ты, потому что это ты обещал «загрузим весь архив».

Дело не в том, что подрядчик соврал про миллион токенов. Цифра честная: столько модель примет без ошибки. Соврала тишина вокруг цифры — никто не сказал, что принять в окно и надёжно использовать — это два очень разных числа. Помнишь из прошлой темы (2.3 — Токены и контекстное окно): окно — это рабочий стол повара, сколько заготовок помещается перед глазами разом. Так вот, на столе можно разложить гораздо больше, чем повар успевает аккуратно обработать руками.

После этой темы ты сможешь разобрать любое обещание про «огромное окно» по косточкам: что в нём правда, где ловушка и куда на самом деле класть важное, чтобы модель его не потеряла. Это ровно тот разбор, который отделяет процесс, который выживет на потоке, от того, который тихо закроют через полгода.

Задержись на 10 секунд. Вспомни рекламу машины с «багажником на 500 литров». Цифра честная — столько туда влезет. А теперь представь, что ты забил его под завязку и поехал по серпантину. Что будет на первом крутом повороте? Держи эту картинку в голове: с окном модели история ровно та же.

📦 Заявленное окно — это размер багажника, а не гарантия

Начнём с честного. «Окно на 1 000 000 токенов» (токен — это кусочек текста, примерно слог или короткое слово) — реальная цифра. На момент весны 2026 это даже не редкость, а почти норма: флагманские модели от разных вендоров заявляют окно в 1 миллион токенов . Миллион токенов — это и правда около полутора тысяч страниц текста. Модель примет такой объём и не выдаст ошибку «слишком много».

Вот только «примет» и «справится» — разные глаголы. Заявленный размер окна отвечает на вопрос «сколько влезет на стол». Он молчит про другой вопрос — «с каким объёмом руки повара ещё работают аккуратно». И вот это второе число инженеры зовут эффективным окном (effective context — сколько контекста модель реально использует без потери качества). Оно, как правило, заметно меньше заявленного.

Багажник на 500 литров вмещает 500 литров — это правда написано в характеристиках. Но производитель не обещал, что на повороте груз не сместится и половина не вывалится. Заявленное окно — это литры багажника. Эффективное — то, что реально доедет целым. Разница между ними и есть весь сегодняшний разговор.

Два разных числа, которые легко перепутать

🧳

Заявленное окно

«Сколько влезет». До 1 000 000 токенов модель примет без ошибки. Эту цифру пишут в рекламе.

≠

🤲

Эффективное окно

«С чем руки работают аккуратно». Намного меньше. Эту цифру в рекламе не пишут — её приходится знать.

Развод не в том, что цифра врёт. Развод в том, что тебе называют первое число, а ты строишь процесс так, будто это второе.

🤲 Руки работают под носом, середина стола в полумраке

Почему так выходит? Вспомни базовый образ: модель — это повар, который готовит по насмотренности, и внимание у него не бесконечное. Вернёмся к нашему повару за рабочим столом. Ты можешь завалить весь стол продуктами — он не упадёт. Но руки повара аккуратно работают только с тем, что лежит прямо под носом: то, что он выложил первым (начало), и то, что положил последним, перед самой готовкой (конец). А то, что оказалось задвинуто в глубь стола, в середину, — лежит в полумраке. Формально оно есть. Реально повар про него то и дело забывает.

У этого даже есть устоявшееся название — «потерянное в середине» (Lost in the Middle). Исследователи проверяли: кладёшь нужный факт в начало большого текста — модель достаёт его уверенно. Кладёшь в конец — тоже хорошо. А двигаешь ровно тот же факт в середину — и точность падает заметно: по данным исследования (Lost in the Middle, Stanford и др., 2023–2024) проседание составляло на 20-30 пунктов, а в худших случаях и больше. Факт тот же, вопрос тот же. Изменилось только одно — куда он попал на столе.

Насколько точно модель достаёт факт

в зависимости от того, где он лежит в большом тексте (форма кривой и глубина провала — иллюстративные)

высоко

провал

высоко

🟡 начало ↘ ⬜ середина ⬜ центр ⬜ середина ↗ 🟡 конец

Кривая проседает в центре — отсюда и название. Края (начало и конец) модель «видит» лучше всего. Серединой рискуешь.

И заметь подлость этого эффекта для бизнеса. Когда ты проверяешь систему, ты подсовываешь ей короткий тестовый документ и пару очевидных вопросов — всё в начале, всё на виду, всё блестит. А когда система работает на потоке, важное расползается по середине больших пачек. Поэтому пилот (пробный проект) сияет, а боевой режим спотыкается — и обвиняют почему-то модель, хотя дело в том, куда легло важное.

📉 Чем больше зальёшь — тем хуже, а не лучше

Тут включается контринтуитивная штука, на которой спотыкаются почти все. Кажется логичным: окно больше — значит, проблем меньше, всё уместится. На деле наоборот. Чем больше ты заливаешь в окно, тем больше у модели «середины», где легко потеряться, и тем сильнее размывается внимание. Это подтверждают сразу несколько независимых проверок — приведу аккуратно, с оговорками.

Деградация — правило, а не исключение. По тесту RULER (NVIDIA) на десятках моделей с длинным окном у большинства эффективное окно оказалось намного меньше заявленного: качество заметно падало с ростом длины, даже когда заявлено 32 тысячи, 128 тысяч или миллион токенов. То есть это не дефект одной модели, а общее свойство.
Стоит спрятать буквальное совпадение слов — и всё рушится раньше. По тесту NoLiMa (2025), когда ответ нельзя найти простым поиском по словам, а надо понять смысл, уже на 32 тысячах токенов большинство проверенных моделей (по данным работы — 11 из 13) падали ниже половины своей же точности на коротком тексте. А деловые вопросы — они почти всегда «по смыслу», а не «найди вот это слово».
Сама длина портит ответ. Отдельная линия исследований 2025–2026 годов (её называют «context rot», порча от контекста) показывает: даже если нужный кусок модель достала правильно и ничего лишнего вокруг нет, сам факт длинного контекста ухудшает качество ответа. Длина утомляет повара сама по себе.

Вот свежий и наглядный пример, по состоянию на весну 2026. Один из актуальных флагманов на специальном тесте поиска по длинному тексту показал около 85% точности на объёме в 128 тысяч токенов — и около 26% на полном заявленном миллионе . Та же модель, та же задача. Раздул окно до рекламного максимума — и точность поиска упала в разы. Это не про «плохую модель». Это про то, что значит ехать с забитым под завязку багажником.

И ещё одно, про что забывают: окно делят между собой не только твои документы. Туда же помещаются и сам твой запрос, и история переписки, и (если модель «думающая») её внутренние рассуждения, и сам ответ. Так что реального места под твой архив ещё меньше, чем кажется по цифре на коробке.

🗄 Что с этим делать: края и кладовая

Хорошая новость: лечится без всякого кода, на уровне решений владельца. Два правила.

Первое — клади важное по краям. Раз руки повара аккуратнее всего работают в начале и в конце стола, то самое важное — ключевое условие, главный вопрос, критичную инструкцию — клади туда. В начало промпта (твоего запроса) или в самый конец, прямо перед вопросом. Не топи ключевой пункт в середине гигантской простыни текста. Это бесплатно и сразу поднимает надёжность.

Второе — большие объёмы не заливай, а подавай порциями из кладовой. Когда речь про реально большой архив, правильный ответ — не «закинуть всё разом и надеяться», а сначала найти нужные куски и подать модели на стол только их. Этот приём — повар идёт в кладовую за нужным справочником, а не вываливает на стол весь склад — называется RAG (поиск нужных кусков перед ответом, дословно «генерация с подтягиванием»), и ему посвящена отдельная тема впереди. Пока запомни рамку: большой объём → не в окно целиком, а через кладовую по запросу.

Псевдокод · два подхода к большому архиву # это НЕ настоящий код, а логика на человеческом языке

# ❌ как делают и потом удивляются:
стол = загрузить_всё(архив_договоров) # 900 000 токенов на столе
ответ = спросить_модель(стол, «где сумма по аренде?»)
# → нужный договор лежит в середине → модель путает или выдумывает

# ✅ как надёжно (кладовая = RAG):
нужные_куски = найти_в_архиве(«договоры аренды») # только 3-4 штуки
стол = выложить(нужные_куски) # мало, плотно, по делу
ответ = спросить_модель(стол, «где сумма по аренде?»)
# → на столе только релевантное → ответ точнее и дешевле

Заметь: дело не только в точности. Меньше токенов на столе — это ещё и дешевле (ты платишь за объём), и быстрее. Так что «подавать порциями из кладовой» выигрывает сразу по трём фронтам: точнее, дешевле, быстрее. А «зальём всё в миллионное окно» проигрывает по всем трём — и звучит при этом солиднее. В этом и весь маркетинг.

⏸ Прежде чем жать кнопки

Сейчас будет разбор кейса с тем самым архивом договоров. До того как смотреть на варианты, выскажи себе гипотезу: куда положить ключевой пункт в большом документе и что случится, если залить весь архив целиком? Сформулировал — теперь проверь себя на тренажёре.

🎮 Разбор кейса: архив договоров

Тебе предлагают четыре решения по работе с большим архивом. По каждому выбери, что произойдёт на самом деле. Жми кнопку — увидишь разбор сразу. Это не экзамен, а тренировка чутья на «маркетинг окна».

📖 Ключевые понятия

Заявленное окно (заявленный контекст): Сколько токенов модель примет без ошибки — цифра из рекламы и характеристик («окно на 1 000 000 токенов»). Это «сколько влезет на стол», не «с чем справится». На момент весны 2026 миллион токенов заявляют флагманские модели разных вендоров.
Эффективное окно (effective context): Объём, на котором модель ещё работает надёжно, без потери качества. Как правило, заметно меньше заявленного. Эту цифру в буклете не пишут — её надо знать и закладывать в процесс.
«Потерянное в середине» (Lost in the Middle): Свойство моделей лучше всего доставать информацию из начала и конца длинного текста и хуже — из середины. Руки повара точны под носом, середина стола в полумраке. Отсюда правило: важное клади по краям.
«Порча от контекста» (context rot): Эффект, при котором сама длина текста ухудшает ответ — даже если нужный кусок найден верно и лишнего вокруг нет. Чем больше залил, тем больше шумит, а не наоборот.

🛡️ Частые заблуждения

«Окно на миллион токенов — значит, можно загрузить всё разом и не думать»

Загрузить — можно, использовать надёжно — нет. Принять в окно и аккуратно отработать — два разных числа. Эффективное окно меньше заявленного, и то, что попало в середину большой пачки, модель достаёт ненадёжно. Большой объём подают порциями из кладовой, а не вываливают целиком.

«Чем больше окно, тем меньше проблем»

Чаще наоборот. Больше залитого — больше «середины», где легко потеряться, и сама длина размывает внимание модели (это называют context rot). Аккуратнее всего она работает с небольшим, плотным, по делу подобранным контекстом, а не с гигантской простынёй.

«На тесте с парой документов всё сработало — значит, и весь архив осилит»

Короткий тест помещается весь «под носом», середины почти нет — поэтому он блестит. На большом объёме появляется длинная уязвимая середина. Демо на малых данных систематически переоценивает, что будет на потоке. Проверять надо на реальных объёмах.

🧠 AI-чутьё (AI Judgment)

Заявленное окно ≠ эффективное: как не строить процесс вокруг цифры из буклета

Главное, что стоит вынести: размер окна — это рекламная характеристика, а не обещание надёжности. Когда тебе называют «миллион токенов» как аргумент в пользу решения, мысленно переспрашивай не «сколько влезет», а «с каким объёмом оно реально работает точно — и где вы это проверяли». Если ответа на второй вопрос нет, ты смотришь на литры багажника, а не на то, что доедет.

Заметь и тонкость с датами. На момент весны 2026 миллион токенов — это уже общее место у флагманов разных вендоров. То есть размер окна перестал быть тем, чем стоит выбирать решение: все примерно сравнялись. Реальная разница теперь — в том, насколько качественно модель это окно использует и сколько стоит обработка. Кто продаёт тебе «у нас окно больше» как главный довод — продаёт вчерашний день.

И рабочее правило на каждый день: важное — по краям, большой объём — через кладовую, тест — на реальных данных. Три простых движения, которые не требуют ни строчки кода и спасают процесс от тихой смерти на потоке. Это и есть разница между владельцем, который понимает свою кухню, и тем, кого взяли «на красивую цифру».

🎯 Практика

Десять минут, которые проверят сегодняшний разбор на твоих собственных данных.

Возьми реально большой текст из своей работы: длинный договор, отчёт, регламент, выгрузку. Спрячь в его середину одну конкретную проверяемую деталь — сумму, дату, имя ответственного. Запомни, что именно и куда положил.
Скорми весь текст привычному AI-чату и задай вопрос ровно про эту деталь из середины. Достал верно? А теперь перенеси ту же деталь в начало текста и спроси снова. Сравни, насколько увереннее и точнее ответ.
Сделай вывод под свою задачу: где у тебя в работе важное сейчас «тонет в середине» больших документов — и что туда стоило бы вынести в начало или подавать отдельным куском. Это и есть проектное решение владельца, а не повара.

Помнишь багажник на 500 литров с начала страницы? Теперь, когда видишь в презентации «окно на миллион токенов», ты слышишь то же самое: цифра честная, но это литры, а не гарантия, что груз доедет целым. И знаешь, что спросить дальше.

🔗 Что дальше

Большой объём — через кладовую: 7.1 — RAG: кладовая со справочниками. Прямое продолжение сегодняшнего «не заливай всё, подавай порциями»: как повар достаёт из кладовой именно нужный справочник, а не вываливает на стол весь склад.

Почему цифры из буклета устаревают: 2.7 — Модели стареют за недели. Сегодня мы дали числа с пометкой «весна 2026» не из осторожности — тут объясняется, почему любую конкретную цифру про модели нельзя считать вечной истиной.

Связанная тема:

2.3 — Токены и контекстное окно — фундамент под этой темой: что такое токен и рабочий стол повара, на котором мы сегодня разбирались, куда что класть.