Педагогика Bloom: Understand ⏱ 7 мин инструменты агента

Мультимодальность: текст, картинки, PDF, аудио

🧊 Won't Have 💧 Could Have ☀️ Should Have 🔥 Must Have
☀️ Should Have
Не фундамент, но снимает живучий миф «AI понимает только текст» — а на нём горят целые бизнес-кейсы. Стоит прочитать.

🤔 Зачем это читать

У тебя на столе стопка бумажных накладных от поставщика — мятые, со штампами, кое-где от руки дописана сумма. Бухгалтер вбивает их в систему вручную, по одной, неделю. Кто-то предлагает: «А давай AI это разберёт». И тут половина стола машет руками: «Да он же только текст читает, он скан накладной в глаза не видел». Спор закрыт, неделя ручного ввода продолжается. А зря — потому что возразившие отстали от реальности на пару лет.

Знакомо? Или обратная история. Знакомый восторженно рассказывает: «Я сфоткал витрину конкурента, и AI сам описал, что у них на полке и по каким ценам». Ты слушаешь и не понимаешь — это вообще как? Он же просто фотку загрузил, без всякого текста. Магия или развод? И стоит ли вам такое у себя.

Причина обоих случаев одна. У людей в голове живёт картинка из позапрошлого года: «AI — это окошко, куда печатаешь текст и получаешь текст». А современная модель давно принимает на вход не только буквы — ещё картинку, скан, PDF-файл, голос. Не понимаешь этого — либо упускаешь дешёвую автоматизацию (как со стопкой накладных), либо не можешь отличить реальную возможность от фокуса.

После этой темы ты будешь понимать, что́ модель умеет принять на вход кроме текста — и где это реально полезно бизнесу, а где упрётся в цену и ошибки. Этого достаточно, чтобы не зарубить хорошую идею фразой «он же только текст жуёт» и не купиться на ту, что красиво выглядит, но дорого встанет.

Задержись на 10 секунд. Вспомни, как сам в последний раз пользовался AI-чатом. Ты ведь почти наверняка печатал текст и читал текст в ответ, да? А теперь подумай: сколько у тебя на работе информации, которая не текст — фотографии, сканы, бумажные документы, голос по телефону? Подержи эту мысль. К концу страницы ты увидишь, что половина из этого модели уже по зубам.

👨‍🍳 Повар, который не только читает заказ

Помнишь повара из темы про инструменты? Там мы говорили, что у голого повара есть «руки» — инструменты, которые ему приделывают. Сейчас речь про другое: не про руки, а про органы чувств самого повара. Чем он может воспринять заказ.

Представь обычную кухню. Раньше повар принимал заказ только одним способом — ему приносили бумажку с текстом: «борщ, без сметаны». Прочитал — приготовил. Удобно, но узко: всё, что не уложилось в текст на бумажке, до него не доходило.

А теперь представь повара получше. Ему по-прежнему можно дать бумажку с текстом. Но ещё официант может сказать заказ вслух — и повар услышит. Гость может показать фотографию блюда, которое хочет повторить, — и повар разглядит. Можно сунуть повару мятую рукописную записку с пожеланиями — он разберёт. Один и тот же повар, одна голова — просто он воспринимает мир не только через текст, а через несколько чувств сразу.

Вот это «несколько чувств у одного повара» и называется красивым словом мультимодальность (работа с разными типами данных сразу: текстом, картинками, звуком). «Модальность» тут — это просто канал восприятия: текст — одна модальность, изображение — другая, звук — третья. «Мульти» — что их несколько и в одной голове.

Одна модель — несколько «чувств» на входе
📝 Текст — письмо, сообщение, документ
🖼 Картинка — фото витрины, скан накладной
📄 PDF — договор, прайс, отчёт
🔊 Звук — голос по телефону, аудиозапись
🧑‍🍳
Один повар
Принимает заказ любым из чувств — и отвечает текстом или голосом.
Раньше было только верхнее окошко — текст. Теперь к одной модели подведены все четыре входа сразу. Голова та же, чувств больше.

🗣 Голос почти как разговор

Отдельно стоит сказать про звук, потому что он изменился сильнее всего. Раньше, чтобы AI понял твою речь, работала цепочка из трёх отдельных программ: одна переводила голос в текст, вторая (модель) думала над текстом, третья превращала ответ обратно в голос. Каждая передача — задержка. Получалось как разговор через переводчика, который ещё и записывает за тобой: пока всё прошло по цепочке, повисала ощутимая пауза.

Сейчас лучшие голосовые модели работают иначе: звук на вход, звук на выход, одна голова, без пересадок. На момент весны 2026 такая модель отвечает голосом примерно за 300 — 600 миллисекунд — это треть-половина секунды, почти как живой собеседник, который не тупит в трубку. Для колл-центра это уже не игрушка, а рабочий разговор.

Сразу честная оговорка, чтобы ты не строил воздушных замков: эти цифры — про лучшие модели весны 2026 года, и они быстро меняются. Но порядок понятен: голос дошёл до «почти живого» темпа.

💼 Где это реально нужно бизнесу

Теперь не про чувства повара, а про твои деньги. Вот куда мультимодальность ложится на реальные задачи — без фантазий.

Заметь общее: во всех случаях ценность в том, что не нужен отдельный человек-переводчик, который сначала перепечатает бумагу в текст или опишет фото словами. Информация заходит в модель в своём родном виде.

Псевдокод (на пальцах) · как выглядит запрос «прочитай скан накладной» # это НЕ настоящий код, а логика на человеческом языке
дать_модели:
  картинка = скан_накладной.jpg # не текст, а само изображение
  текст = «Достань из накладной: номер, дату, поставщика, сумму»

# модель СМОТРИТ на картинку и ЧИТАЕТ задание — одновременно
модель отвечает: { номер: «…», дата: «…», поставщик: «…», сумма: «… ₽» }

# → раньше тут был бы человек, который сначала перепечатал бы скан в текст
# → но: если штамп смазан или сумма от руки — модель может ошибиться, см. ниже

⚠️ Где это спотыкается

Раз уж мы про мышление владельца, а не про рекламный буклет, — вот где красивая картинка трескается, и это важнее, чем список возможностей.

Распознавание сложного — всё ещё с ошибками. Чёткий печатный текст модель читает почти идеально. А вот мятую рукопись, смазанный штамп, сложную таблицу с объединёнными ячейками, плохое фото в полумраке — может прочитать неверно. И, как всегда, уверенным тоном: подставит правдоподобную сумму, а не ту, что в документе. Поэтому для финансовых и юридических бумаг результат обязательно проверяет человек — модель тут помощник, который делает черновик, а не последняя инстанция.

Голос и картинки — это дороже и медленнее текста. Обработать секунду звука или одно изображение стоит ощутимо больше, чем строчку текста, и занимает больше времени. На одном запросе разницы не заметишь. А вот когда таких запросов десятки тысяч в день — в колл-центре или при потоковой обработке фото — счёт и задержки складываются в реальные деньги и реальные секунды ожидания клиента. Это мы разберём подробнее чуть ниже, в блоке про чутьё.

Прежде чем жать кнопки — прикинь гипотезу. Ниже будут разные штуки, которые хочется отдать модели: текст, фото, скан, голос. Сделай ставку прямо сейчас: что из перечисленного современной модели можно отдать и довериться результату, а где либо это вообще не её работа, либо принять-то примет, но доверять без проверки человеком нельзя? Запомни свой ответ — и проверь на тренажёре.

🎮 Это можно отдать модели — или нет?

Шесть рабочих ситуаций. По каждой реши: можно ли отдать это модели и довериться результату (текст, картинка, скан/PDF, голос — её хлеб, и результату можно верить) или нет (либо это не тип данных для модели, либо принять-то примет, но без проверки человеком доверять нельзя)? Жми кнопку — сразу увидишь разбор. Это не экзамен, а проверка твоей гипотезы.

📖 Ключевые понятия

Мультимодальность (multimodality)
Способность одной модели работать с разными типами данных сразу: текстом, картинками, PDF, звуком, видео. Как повар, который воспринимает заказ не только с бумажки, но и на слух, и по фотографии. «Модальность» — это канал восприятия (текст, изображение, звук), «мульти» — что их несколько в одной голове.
Модальность на входе
Тип данных, который модель принимает, чтобы над ним работать. На момент весны 2026 штатный набор — текст, изображение (фото, скан), PDF-документ, звук. Носить предметы или нажимать настоящие кнопки в физическом мире модель при этом по-прежнему не умеет — это не модальность, а действие.
Голос «почти в реальном времени» (native audio — «родной звук», одна голова без переводчиков)
Модель, которая принимает звук и отвечает звуком одной головой, без цепочки «расшифровал → подумал → озвучил». На момент весны 2026 отвечает примерно за 300 — 600 миллисекунд — близко к живому разговору. Делает голосовые сценарии (колл-центр) рабочими, а не лабораторными.
Верификация (проверка человеком)
Обязательный шаг, когда модель распознаёт сложное: рукопись, смазанные штампы, хитрые таблицы. Модель делает черновик, а человек сверяет важные поля (особенно суммы и юридические данные), потому что ошибиться модель может уверенным тоном.

🛡️ Частые заблуждения

«AI понимает только текст — фото или скан ему бесполезно показывать»

Это картинка из позапрошлого года. Современная модель принимает на вход и картинку, и скан, и PDF, и звук — одна и та же модель, без отдельных «переводчиков». Именно на этом устаревшем убеждении компании теряют дешёвую автоматизацию вроде разбора стопки бумажных накладных.

«Раз модель видит картинку — значит, любую информацию с фото она достанет точно»

Не любую. Чёткий печатный текст — почти идеально. А мятую рукопись, смазанный штамп, сложную таблицу — может прочитать неверно, причём уверенно. На финансовых и юридических документах результат обязательно сверяет человек. Модель тут готовит черновик, а не выносит вердикт.

«Голосовой AI всё равно тормозит — с ним нормально не поговоришь»

Так было, пока работала цепочка из трёх отдельных программ. На момент весны 2026 лучшие голосовые модели отвечают примерно за 300 — 600 миллисекунд — это уже темп живого разговора. Другое дело, что на масштабе колл-центра голос ощутимо дороже текста — но это вопрос денег, а не «тормозит».

🧠 AI-чутьё (AI Judgment)

Мультимодальность открывает дверь — но за дверью считают цену и проверяют ошибки

Рамка, которую стоит унести: «модель это примет на вход» и «бизнесу это выгодно» — два разных вопроса, и второй важнее. То, что модель умеет слушать голос и смотреть на фото, ещё не делает кейс рентабельным. Дальше начинается работа владельца — посчитать.

Возьми два примера из этой темы. Колл-центр на голосе: один разговор стоит копейки, но разговоров — десятки тысяч в день, и обработка звука заметно дороже текста. Умножь — и получишь сумму, которую надо сравнить с зарплатой живых операторов. Иногда выгодно, иногда нет; решает арифметика на твоём объёме, а не восторг от того, что «оно говорит как человек». Контроль витрин по фото: сфотографировать тысячу точек в день красиво звучит, но каждая картинка — это деньги и секунды обработки. На масштабе латентность (задержка ответа) и цена за изображение — главные цифры в расчёте, а не сам факт «модель видит фото».

И второй слой чутья — про ошибки. Там, где модель распознаёт сложное (рукопись, штампы, таблицы), всегда спрашивай: что будет, если она прочитает неверно, и кто это заметит? Если речь о сумме в накладной или пункте договора — без проверки человеком нельзя, цена ошибки слишком высока. Если о черновом описании фото витрины — ошибка дешёвая, можно довериться. Мультимодальность даёт возможность; рентабельность и допустимость ошибки — твоё решение.

🎯 Практика

Одно задание на пять минут — оно сделает тему не книжной, а про твою работу.

  1. Открой любой привычный AI-чат, который умеет принимать файлы. Сфотографируй на телефон любой бумажный документ со своего стола — чек, накладную, объявление, рукописную записку — и загрузи фото в чат. Попроси: «Достань из этого изображения номер, дату и сумму» (или то, что там есть).
  2. Посмотри на результат и сверь с оригиналом. Что распозналось точно? Где промахнулось — на рукописном, на смазанном, на хитрой таблице? Это твой личный замер того, чему можно доверять, а что обязательно проверять.
  3. Теперь выпиши один реальный поток не-текстовой информации со своей работы: стопка сканов, входящие фото от сотрудников с полей, звонки в поддержку, аудиозаписи встреч. Прикинь грубо: сколько таких единиц в день, сколько времени человек тратит на каждую вручную — и стоит ли пробовать отдать это модели. Этот черновой расчёт — уже мышление владельца.

🔗 Что дальше

Связанная тема:

Мультимодальность — это про то, что модель воспринимает. Дальше в курсе ты увидишь, как из восприятия, рук и рассуждения собирается работающий агент: как он крутит цикл «подумал — сделал — посмотрел на результат», как ему дают доступ к твоим системам и как ставят защиту от ошибок. Но это уже следующие модули про агента — эти темы ждут тебя дальше в курсе.