Универсальный Bloom: Apply ⏱ 6 мин чтение + 5 мин практика объём

Банкет на 50 порций: map-reduce для массовых задач

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have

💧 Could Have

Узкий, но очень частый на практике приём. Не обязателен для базы, но если у тебя есть задача «обработать сотни одинаковых кусков» — это ровно она.

🤔 Зачем это читать

На стол падает задача: «вот выгрузка — 500 отзывов с маркетплейса за месяц, прочитай каждый и разметь: жалоба / похвала / вопрос / спам. К пятнице». Ты прикидываешь: одна штука — минута на вдумчивое чтение. Пятьсот штук — это больше восьми часов подряд, не отрываясь, не моргая. Целый рабочий день одного человека на тупую, однообразную сортировку. И так каждый месяц.

Знакомо? Это не обязательно отзывы. Это 800 резюме под одну вакансию. Это 300 договоров, в каждом надо найти дату окончания. Это 1000 строк в таблице, где каждую надо привести к одному формату. Работа, где каждый кусок отдельный, одинаковый и независимый от соседей, а боль — только в том, что их очень, очень много. По одному это вечность.

И вот тут люди делают одну из двух ошибок. Первая: запускают всё это одним длиннющим запросом — «вот тебе все 500 отзывов разом, размечай». Получают кашу: половину агент путает, середину «недосматривает» — у модели проседает внимание к середине большого объёма, поэтому всё, что в центре длинной простыни, обрабатывается хуже краёв. Вторая ошибка обратная: садятся и руками гоняют по одному 500 раз. Оба варианта — мимо.

После этой темы ты сможешь распознать задачу, которая идеально ложится на приём map-reduce (по-русски — «раздать и собрать»), и отличить её от той, где он только навредит. Это не про код — это про чутьё: увидел гору одинаковых независимых кусков — понял, что её можно раздать бригаде и собрать за минуты, а не за день.

Задержись на 10 секунд. Вспомни задачу со своей работы, где надо было «прогнать одно и то же по большому списку» — проверить сто папок, разметить выгрузку, свести десятки однотипных отчётов. Сколько это заняло живого времени? Подержи эту задачу в голове: к концу страницы ты увидишь, ложится ли она на сегодняшний приём.

🍽 Банкет на 50 порций: раздал — все жарят — собрал

В теме 8.4 — Бригада параллельно (Parallelization) мы договорились: независимые куски работы можно делать одновременно, а не в очередь — гриль, соус и десерт готовятся параллельно, экспедитор (это наш дирижёр-оркестратор, который раздаёт работу по станциям и собирает блюда на раздаче) потом сводит их вместе. Map-reduce — это тот же принцип, но заточенный под один очень частный, очень денежный случай: когда кусков не три разных, а пятьдесят одинаковых.

Представь банкет. Заказали 50 порций одного и того же стейка. У шефа выбор. Можно поставить одного повара и пусть жарит 50 стейков подряд — это час с лишним, гости успеют разойтись. А можно по-другому: экспедитор раздаёт по одной заготовке на каждую свободную станцию — «ты жаришь эту, ты эту, ты эту». Все станции жарят свою порцию одновременно. А потом экспедитор подходит к раздаче и собирает все 50 готовых стейков на банкетные подносы. Раздал — все жарят параллельно — собрал. Час превращается в минуты.

Вот это и есть map-reduce (читается «мэп-редьюс», по-русски — «раздать и собрать»). Два движения, и оба в названии:

map (раздать) — «разложить одинаковую работу по исполнителям». Большую гору режут на одинаковые кусочки, и каждый кусочек уходит своему исполнителю. Все делают одну и ту же операцию, просто над разными порциями. 500 отзывов — 500 одинаковых заданий «размечай этот».
reduce (собрать) — «свести все результаты в один». Когда исполнители закончили, кто-то собирает их выводы и сводит вместе: складывает в одну таблицу, считает итог, делает общую сводку. 500 размеченных отзывов сводятся в один отчёт «жалоб 120, похвал 300, вопросов 60, спама 20».

Ключевое слово, которое делает всё это возможным, — независимые. Стейк № 17 не зависит от стейка № 4. Повару у седьмой станции не нужно знать, что там нажарил сосед, — он просто делает свою порцию. Ровно поэтому их можно жарить одновременно и не ждать друг друга. Запомни это слово, к нему вся тема и сводится.

Раздал → все жарят параллельно → собрал

📦

Гора

500 одинаковых кусков

→

MAP — раздал, все жарят разом

👨‍🍳

👩‍🍳

👨‍🍳

👩‍🍳

каждый делает одну и ту же работу над своей порцией

→

🍽

REDUCE

собрал в один отчёт

Время = не «500 порций подряд», а «одна порция + сборка». Гора не растёт по времени — растёт только число станций.

⚡ Почему это так ускоряет (и где экономия реальна)

Давай честно про цифры, потому что тут легко обмануться. Главный выигрыш map-reduce — во времени, а не в деньгах. Если бы 500 отзывов размечались по одному, в очередь, ты ждал бы 500 «порций» подряд. А когда они раздаются по станциям и жарятся параллельно (и станций хватает на всю гору сразу), ты ждёшь, грубо, всего одну порцию — самую медленную из всех, что идут одновременно. Гора из 500 кусков по времени почти не дольше, чем гора из 50. Это и есть та самая магия банкета: добавь станций — и стена однотипной работы складывается за минуты.

А вот денег это не экономит — наоборот. И это важно понять сразу, чтобы не попасть. Каждый кусок — это отдельное обращение к модели, отдельный «вызов повара». 500 кусков — это 500 вызовов, за каждый платишь. Параллельность ничего тут не срезает: ты заплатишь за все 500 порций ровно столько же, сколько заплатил бы, делая их по одной. Просто получишь результат не через восемь часов, а через пару минут. map-reduce покупает скорость за деньги, а не вместо них. 50 порций стоят как 50 порций, хоть жарь подряд, хоть всей бригадой разом.

Поэтому деловой смысл приёма простой и считается на салфетке. Замени дорогой человеко-день на стопку дешёвых вызовов модели. Если разметить вручную 500 отзывов — это рабочий день специалиста, а прогнать их через map-reduce — это пара минут и условные несколько сотен рублей за вызовы, выбор очевиден. Но если кусков всего пять — садись и сделай руками, городить бригаду ради пяти стейков глупо.

🚫 Где это НЕ работает: когда куски держатся друг за друга

А теперь самое главное, ради чего стоит читать дальше, — где этот приём ломается. Потому что соблазн «раздать всё бригаде» велик, и об него спотыкаются.

Map-reduce работает только на независимых кусках. Как только куски начинают держаться друг за друга — приём рассыпается. Представь, что банкет не «50 одинаковых стейков», а «ужин из пяти блюд по порядку»: закуска, потом суп на бульоне от закуски, потом горячее на гарнире от супа. Тут не раздашь всё разом: повар горячего не может начать, пока не готов гарнир, а гарнир зависит от супа. Это цепочка, где результат одного шага — продукт для следующего. Раздать её бригаде параллельно физически нельзя — придётся ждать.

Вот тебе простой признак, рабочий фильтр на всю жизнь. Спроси про свои куски один вопрос: «чтобы сделать кусок № 2, мне нужен результат куска № 1?»

Нет, не нужен — куски независимые, это map-reduce. Разметить 500 отзывов: чтобы разметить семнадцатый, четвёртый знать не надо. Раздавай.
Да, нужен — куски связанные, это не map-reduce, а последовательная цепочка (мы её зовём конвейером — об этом отдельная тема). «Сначала найди в договоре сумму, потом по этой сумме рассчитай налог, потом по налогу составь письмо» — три шага, и каждый кормит следующий. Раздать бригаде нечего: пока первый не готов, второму не из чего работать.

И вторая ловушка, потоньше: даже если куски формально независимы, но каждый из них уникальный и требует своего подхода, — это тоже не map-reduce. Map-reduce — про одинаковую операцию над разными порциями. Если один документ надо суммировать, другой — перевести, третий — проверить на ошибки, то это не «раздать одно и то же 50 раз», а три разные задачи. Тут уже нужен экспедитор, который смотрит на каждый кусок и решает, на какую станцию его отправить (это маршрутизация, отдельный приём). Map-reduce же — это банкет из одинаковых порций. Одинаковых — ключевое.

🔁 Как это выглядит «на пальцах»

Ниже — та же логика на псевдокоде. Это не настоящий код, а логика на человеческом языке, можешь пролистать, если картинка с банкетом уже всё объяснила. Я оставляю это, чтобы было видно: внутри ровно два движения — «раздать» и «собрать».

Псевдокод (на пальцах) · раздать и собрать # это НЕ настоящий код, а логика на человеческом языке
гора = 500 отзывов с маркетплейса
задание = «прочитай отзыв и пометь: жалоба / похвала / вопрос / спам»

# MAP — раздать: КАЖДОМУ куску одно и то же задание, все идут РАЗОМ
для каждого отзыва из горы → запустить «повара» с этим заданием (параллельно, не в очередь)
результаты = собрать пометки от всех «поваров»

# REDUCE — собрать: свести 500 пометок в один итог
отчёт = посчитать, сколько вышло жалоб / похвал / вопросов / спама
выдать отчёт
# → время = одна порция + сборка, а не 500 порций подряд
# → работает, ПОТОМУ ЧТО отзыв № 17 не зависит от отзыва № 4

Заметь две вещи. Первое: задание у всех одно и то же — меняется только порция (отзыв), а инструкция «размечай вот так» одинаковая. Второе: шаг reduce — это отдельная, маленькая работа в конце. Иногда reduce — просто «сложить всё в таблицу». Иногда — «сделать общую сводку из пятисот кусочков». Чем сложнее сборка, тем больше она сама похожа на отдельную задачу, но суть та же: свести многое в одно.

🎮 Раздать бригаде — или нельзя?

Пять задач с работы. По каждой реши: ложится она на map-reduce (много независимых однотипных кусков — раздать и собрать) или нет (куски держатся друг за друга, либо каждый уникальный). Но прежде чем жать кнопку, проговори про себя тот самый признак: «чтобы сделать кусок № 2, мне нужен результат куска № 1 — и делаю ли я над всеми одно и то же?». Сначала сформулируй ответ, потом сверяйся — здесь ты тренируешь чутьё, а ошибиться не страшно.

📖 Ключевые понятия

Map-reduce (раздать и собрать): Приём для большого объёма однотипной работы: гору одинаковых независимых кусков раздают исполнителям (map — раздать), каждый делает свою порцию параллельно, потом результаты сводят в один итог (reduce — собрать). Банкет на 50 порций: раздал заготовки, все жарят разом, экспедитор собрал на раздаче.
Map (раздать): Первое движение: разложить одинаковое задание по разным порциям и запустить всех разом, а не в очередь. Каждый исполнитель делает одну и ту же операцию над своим куском. Именно здесь рождается выигрыш во времени.
Reduce (собрать): Второе движение: свести все полученные результаты в один — сложить в таблицу, посчитать итог, сделать общую сводку. Отдельный маленький шаг в конце, без которого гора результатов так и осталась бы грудой кусочков.
Независимые куски: Условие, без которого приём не работает. Кусок № 2 можно сделать, не зная результата куска № 1. Если зависят друг от друга — это уже цепочка (конвейер), и раздать её бригаде параллельно нельзя.

🛡️ Частые заблуждения

«Раздать бригаде — это дешевле, чем делать по одному»

Нет. Дешевле не станет — станет быстрее. Каждый кусок всё равно отдельный вызов модели, за который платишь: 500 кусков — это 500 вызовов хоть подряд, хоть разом. map-reduce экономит твоё время, а не деньги на вызовы. Он покупает скорость, и окупается там, где сэкономленный человеко-день дороже стопки дешёвых вызовов.

«Раз бригада быстрее — закину ей вообще любую большую задачу разом»

Только если куски независимы и однотипны. Если задача — цепочка, где результат одного шага нужен следующему (собрал выручку → посчитал премии → составил приказ), раздать её параллельно физически нельзя: бригада будет стоять и ждать первого. И если у каждого куска своя, отдельная задача — это тоже не map-reduce, а маршрутизация по станциям. Признак один: «нужен ли мне результат соседа, и делаю ли я над всеми одно и то же?».

«Чем больше станций раздам, тем быстрее — добавлю сто поваров и всё мгновенно»

До предела — да, но не бесконечно. Скорость упирается не только в число станций: у кухни есть потолок — больше определённого числа поваров одновременно она не вмещает (у модели стоит лимит на одновременные вызовы), да и сборка (reduce) сама становится узким местом, если результатов очень много. И сам по себе один кусок быстрее не сделаешь — соус не сварится вдвое быстрее от того, что рядом встал второй повар. Бригада ускоряет гору одинаковых порций, а не каждую порцию по отдельности.

🧠 AI-чутьё (AI Judgment)

Где map-reduce окупается, а где только мешает

Унеси с этой страницы один рабочий вопрос, который теперь стоит задавать каждый раз, когда видишь «надо обработать большой список»: «это много независимых однотипных кусков — или это связанные шаги, где одно кормит другое?». Если первое — у тебя на руках идеальный кандидат на map-reduce: классификация тысячи писем, разметка выгрузки отзывов, вытащить одно и то же поле из сотен документов, сделать короткое саммари каждого из сотни файлов. Гора однотипной независимой работы — это всегда сигнал «можно раздать и собрать».

Если второе — стоп. Связанные шаги (сначала это, на его основе то, потом следующее) на map-reduce не ложатся в принципе, и попытка их «распараллелить» либо ничего не ускорит, либо сломает логику. Туда нужен другой приём — последовательный конвейер, где шаги идут по очереди и передают результат дальше.

И держи деловую рамку, чтобы не попасть на цифрах. Map-reduce покупает скорость за деньги: ты платишь за все вызовы как обычно, но получаешь результат за минуты, а не за рабочий день. Поэтому он окупается ровно тогда, когда сэкономленное человеческое время дороже стопки вызовов модели, — а это почти всегда так на больших объёмах. Если же кусков мало (десяток-другой), бригаду городить незачем: иногда самое умное решение владельца — просто сделать руками и не усложнять.

🎯 Практика

Одно задание на пять минут — оно превращает «раздать и собрать» из красивой картинки в твой рабочий фильтр.

Вернись к той задаче, что держал в голове в начале, — где надо «прогнать одно и то же по большому списку». Запиши её в одну строку.
Прогони её через признак: можно ли сделать любой кусок, не зная результата соседнего? И над всеми кусками одна и та же операция? Два «да» — это map-reduce. Хоть одно «нет» — это цепочка или разнородные задачи, сюда не годится.
Если задача легла на map-reduce — прикинь экономику на салфетке: сколько живого времени человека она съедает сейчас (часы? день? день в месяц?) и сколько кусков в типичной горе. Это твой готовый аргумент «зачем» на следующем совещании: не «давайте внедрим AI», а «вот ручной день работы, который превращается в минуты, потому что куски независимые».

Помнишь те 500 отзывов с пятницей на горизонте? Теперь видно: это банкет из одинаковых независимых порций. Раздать бригаде (map), свести в один отчёт (reduce) — и восьмичасовая стена однообразной сортировки складывается в пару минут. Не потому что модель «умнее тебя», а потому что куски не держатся друг за друга.

🔗 Что дальше

Связанная тема (основа под этой):

8.4 — Бригада параллельно (Parallelization) — общий приём «делать независимые куски одновременно». Map-reduce — его частный случай, заточенный под объём: не три разных куска, а пятьдесят одинаковых. Там же про два других режима параллельной бригады — деление задачи на разные части (sectioning) и голосование нескольких поваров над одним блюдом (voting).

Соседи по модулю «Бригада агентов» (мультиагентность):

8.5 — Шеф формирует бригаду под заказ: Orchestrator-Workers — что делать, когда куски не известны заранее и шеф-экспедитор решает «на лету», на какие станции дробить заказ. Map-reduce дробит на одинаковое; здесь шеф дробит на разное.
8.3 — Метрдотель разруливает заказы: Routing (маршрутизация) — приём для второй ловушки из этой темы: когда у каждого куска своя задача, и экспедитор смотрит на кусок и шлёт его на нужную станцию (перевод / сжатие / проверка), а не раздаёт всем одно и то же.

Откуда мы сюда пришли:

5.4 — Producer-Critic: свежий взгляд лучше самопроверки — там появились первые две роли (исполнитель и критик) — зерно мультиагентности. Map-reduce — другая её грань: не «разные роли проверяют друг друга», а «одна и та же работа размножена на много исполнителей ради объёма».
5.1 — Цикл агента (ReAct): подумал — сделал — посмотрел — каждый «повар» в нашей бригаде внутри крутит этот же цикл над своей порцией.
3.5 — Структурированный вывод: блюдо по стандарту подачи — чтобы шаг «собрать» (reduce) прошёл гладко, каждый исполнитель должен отдавать результат в одном строгом формате, иначе пятьсот разнобойных ответов не сведёшь в таблицу.