Мультимодальность: текст, картинки, PDF, аудио
🤔 Зачем это читать
У тебя на столе стопка бумажных накладных от поставщика — мятые, со штампами, кое-где от руки дописана сумма. Бухгалтер вбивает их в систему вручную, по одной, неделю. Кто-то предлагает: «А давай AI это разберёт». И тут половина стола машет руками: «Да он же только текст читает, он скан накладной в глаза не видел». Спор закрыт, неделя ручного ввода продолжается. А зря — потому что возразившие отстали от реальности на пару лет.
Знакомо? Или обратная история. Знакомый восторженно рассказывает: «Я сфоткал витрину конкурента, и AI сам описал, что у них на полке и по каким ценам». Ты слушаешь и не понимаешь — это вообще как? Он же просто фотку загрузил, без всякого текста. Магия или развод? И стоит ли вам такое у себя.
Причина обоих случаев одна. У людей в голове живёт картинка из позапрошлого года: «AI — это окошко, куда печатаешь текст и получаешь текст». А современная модель давно принимает на вход не только буквы — ещё картинку, скан, PDF-файл, голос. Не понимаешь этого — либо упускаешь дешёвую автоматизацию (как со стопкой накладных), либо не можешь отличить реальную возможность от фокуса.
После этой темы ты будешь понимать, что́ модель умеет принять на вход кроме текста — и где это реально полезно бизнесу, а где упрётся в цену и ошибки. Этого достаточно, чтобы не зарубить хорошую идею фразой «он же только текст жуёт» и не купиться на ту, что красиво выглядит, но дорого встанет.
Задержись на 10 секунд. Вспомни, как сам в последний раз пользовался AI-чатом. Ты ведь почти наверняка печатал текст и читал текст в ответ, да? А теперь подумай: сколько у тебя на работе информации, которая не текст — фотографии, сканы, бумажные документы, голос по телефону? Подержи эту мысль. К концу страницы ты увидишь, что половина из этого модели уже по зубам.
👨🍳 Повар, который не только читает заказ
Помнишь повара из темы про инструменты? Там мы говорили, что у голого повара есть «руки» — инструменты, которые ему приделывают. Сейчас речь про другое: не про руки, а про органы чувств самого повара. Чем он может воспринять заказ.
Представь обычную кухню. Раньше повар принимал заказ только одним способом — ему приносили бумажку с текстом: «борщ, без сметаны». Прочитал — приготовил. Удобно, но узко: всё, что не уложилось в текст на бумажке, до него не доходило.
А теперь представь повара получше. Ему по-прежнему можно дать бумажку с текстом. Но ещё официант может сказать заказ вслух — и повар услышит. Гость может показать фотографию блюда, которое хочет повторить, — и повар разглядит. Можно сунуть повару мятую рукописную записку с пожеланиями — он разберёт. Один и тот же повар, одна голова — просто он воспринимает мир не только через текст, а через несколько чувств сразу.
Вот это «несколько чувств у одного повара» и называется красивым словом мультимодальность (работа с разными типами данных сразу: текстом, картинками, звуком). «Модальность» тут — это просто канал восприятия: текст — одна модальность, изображение — другая, звук — третья. «Мульти» — что их несколько и в одной голове.
🗣 Голос почти как разговор
Отдельно стоит сказать про звук, потому что он изменился сильнее всего. Раньше, чтобы AI понял твою речь, работала цепочка из трёх отдельных программ: одна переводила голос в текст, вторая (модель) думала над текстом, третья превращала ответ обратно в голос. Каждая передача — задержка. Получалось как разговор через переводчика, который ещё и записывает за тобой: пока всё прошло по цепочке, повисала ощутимая пауза.
Сейчас лучшие голосовые модели работают иначе: звук на вход, звук на выход, одна голова, без пересадок. На момент весны 2026 такая модель отвечает голосом примерно за 300 — 600 миллисекунд — это треть-половина секунды, почти как живой собеседник, который не тупит в трубку. Для колл-центра это уже не игрушка, а рабочий разговор.
Сразу честная оговорка, чтобы ты не строил воздушных замков: эти цифры — про лучшие модели весны 2026 года, и они быстро меняются. Но порядок понятен: голос дошёл до «почти живого» темпа.
💼 Где это реально нужно бизнесу
Теперь не про чувства повара, а про твои деньги. Вот куда мультимодальность ложится на реальные задачи — без фантазий.
- Бумаги и сканы. Стопка накладных, чеков, договоров, анкет от руки. Модель смотрит на картинку или PDF и достаёт оттуда нужные поля — номер, дату, сумму, контрагента. То, на что у человека уходит неделя ручного ввода.
- Фото с полей. Сфотографировали витрину, выкладку товара, состояние помещения, повреждённую посылку — модель описывает, что на снимке, и сверяет с тем, как должно быть. Контроль мерчандайзинга, приёмка, проверка стандартов.
- Голос в колл-центре. Клиент звонит и говорит вслух — модель слышит, понимает и отвечает голосом, почти без паузы. Первая линия поддержки, запись на приём, ответы на типовые вопросы.
- Смешанные запросы. Клиент в чате пишет «вот что мне пришло» и прикладывает фото бракованной детали. Модель читает текст и смотрит фото одновременно — как живой сотрудник, которому и рассказали, и показали.
Заметь общее: во всех случаях ценность в том, что не нужен отдельный человек-переводчик, который сначала перепечатает бумагу в текст или опишет фото словами. Информация заходит в модель в своём родном виде.
дать_модели:
картинка = скан_накладной.jpg # не текст, а само изображение
текст = «Достань из накладной: номер, дату, поставщика, сумму»
# модель СМОТРИТ на картинку и ЧИТАЕТ задание — одновременно
модель отвечает: { номер: «…», дата: «…», поставщик: «…», сумма: «… ₽» }
# → раньше тут был бы человек, который сначала перепечатал бы скан в текст
# → но: если штамп смазан или сумма от руки — модель может ошибиться, см. ниже
⚠️ Где это спотыкается
Раз уж мы про мышление владельца, а не про рекламный буклет, — вот где красивая картинка трескается, и это важнее, чем список возможностей.
Распознавание сложного — всё ещё с ошибками. Чёткий печатный текст модель читает почти идеально. А вот мятую рукопись, смазанный штамп, сложную таблицу с объединёнными ячейками, плохое фото в полумраке — может прочитать неверно. И, как всегда, уверенным тоном: подставит правдоподобную сумму, а не ту, что в документе. Поэтому для финансовых и юридических бумаг результат обязательно проверяет человек — модель тут помощник, который делает черновик, а не последняя инстанция.
Голос и картинки — это дороже и медленнее текста. Обработать секунду звука или одно изображение стоит ощутимо больше, чем строчку текста, и занимает больше времени. На одном запросе разницы не заметишь. А вот когда таких запросов десятки тысяч в день — в колл-центре или при потоковой обработке фото — счёт и задержки складываются в реальные деньги и реальные секунды ожидания клиента. Это мы разберём подробнее чуть ниже, в блоке про чутьё.
Прежде чем жать кнопки — прикинь гипотезу. Ниже будут разные штуки, которые хочется отдать модели: текст, фото, скан, голос. Сделай ставку прямо сейчас: что из перечисленного современной модели можно отдать и довериться результату, а где либо это вообще не её работа, либо принять-то примет, но доверять без проверки человеком нельзя? Запомни свой ответ — и проверь на тренажёре.
🎮 Это можно отдать модели — или нет?
Шесть рабочих ситуаций. По каждой реши: можно ли отдать это модели и довериться результату (текст, картинка, скан/PDF, голос — её хлеб, и результату можно верить) или нет (либо это не тип данных для модели, либо принять-то примет, но без проверки человеком доверять нельзя)? Жми кнопку — сразу увидишь разбор. Это не экзамен, а проверка твоей гипотезы.
📖 Ключевые понятия
- Мультимодальность (multimodality)
- Способность одной модели работать с разными типами данных сразу: текстом, картинками, PDF, звуком, видео. Как повар, который воспринимает заказ не только с бумажки, но и на слух, и по фотографии. «Модальность» — это канал восприятия (текст, изображение, звук), «мульти» — что их несколько в одной голове.
- Модальность на входе
- Тип данных, который модель принимает, чтобы над ним работать. На момент весны 2026 штатный набор — текст, изображение (фото, скан), PDF-документ, звук. Носить предметы или нажимать настоящие кнопки в физическом мире модель при этом по-прежнему не умеет — это не модальность, а действие.
- Голос «почти в реальном времени» (native audio — «родной звук», одна голова без переводчиков)
- Модель, которая принимает звук и отвечает звуком одной головой, без цепочки «расшифровал → подумал → озвучил». На момент весны 2026 отвечает примерно за 300 — 600 миллисекунд — близко к живому разговору. Делает голосовые сценарии (колл-центр) рабочими, а не лабораторными.
- Верификация (проверка человеком)
- Обязательный шаг, когда модель распознаёт сложное: рукопись, смазанные штампы, хитрые таблицы. Модель делает черновик, а человек сверяет важные поля (особенно суммы и юридические данные), потому что ошибиться модель может уверенным тоном.
🛡️ Частые заблуждения
«AI понимает только текст — фото или скан ему бесполезно показывать»
Это картинка из позапрошлого года. Современная модель принимает на вход и картинку, и скан, и PDF, и звук — одна и та же модель, без отдельных «переводчиков». Именно на этом устаревшем убеждении компании теряют дешёвую автоматизацию вроде разбора стопки бумажных накладных.
«Раз модель видит картинку — значит, любую информацию с фото она достанет точно»
Не любую. Чёткий печатный текст — почти идеально. А мятую рукопись, смазанный штамп, сложную таблицу — может прочитать неверно, причём уверенно. На финансовых и юридических документах результат обязательно сверяет человек. Модель тут готовит черновик, а не выносит вердикт.
«Голосовой AI всё равно тормозит — с ним нормально не поговоришь»
Так было, пока работала цепочка из трёх отдельных программ. На момент весны 2026 лучшие голосовые модели отвечают примерно за 300 — 600 миллисекунд — это уже темп живого разговора. Другое дело, что на масштабе колл-центра голос ощутимо дороже текста — но это вопрос денег, а не «тормозит».
🧠 AI-чутьё (AI Judgment)
Мультимодальность открывает дверь — но за дверью считают цену и проверяют ошибки
Рамка, которую стоит унести: «модель это примет на вход» и «бизнесу это выгодно» — два разных вопроса, и второй важнее. То, что модель умеет слушать голос и смотреть на фото, ещё не делает кейс рентабельным. Дальше начинается работа владельца — посчитать.
Возьми два примера из этой темы. Колл-центр на голосе: один разговор стоит копейки, но разговоров — десятки тысяч в день, и обработка звука заметно дороже текста. Умножь — и получишь сумму, которую надо сравнить с зарплатой живых операторов. Иногда выгодно, иногда нет; решает арифметика на твоём объёме, а не восторг от того, что «оно говорит как человек». Контроль витрин по фото: сфотографировать тысячу точек в день красиво звучит, но каждая картинка — это деньги и секунды обработки. На масштабе латентность (задержка ответа) и цена за изображение — главные цифры в расчёте, а не сам факт «модель видит фото».
И второй слой чутья — про ошибки. Там, где модель распознаёт сложное (рукопись, штампы, таблицы), всегда спрашивай: что будет, если она прочитает неверно, и кто это заметит? Если речь о сумме в накладной или пункте договора — без проверки человеком нельзя, цена ошибки слишком высока. Если о черновом описании фото витрины — ошибка дешёвая, можно довериться. Мультимодальность даёт возможность; рентабельность и допустимость ошибки — твоё решение.
🎯 Практика
Одно задание на пять минут — оно сделает тему не книжной, а про твою работу.
- Открой любой привычный AI-чат, который умеет принимать файлы. Сфотографируй на телефон любой бумажный документ со своего стола — чек, накладную, объявление, рукописную записку — и загрузи фото в чат. Попроси: «Достань из этого изображения номер, дату и сумму» (или то, что там есть).
- Посмотри на результат и сверь с оригиналом. Что распозналось точно? Где промахнулось — на рукописном, на смазанном, на хитрой таблице? Это твой личный замер того, чему можно доверять, а что обязательно проверять.
- Теперь выпиши один реальный поток не-текстовой информации со своей работы: стопка сканов, входящие фото от сотрудников с полей, звонки в поддержку, аудиозаписи встреч. Прикинь грубо: сколько таких единиц в день, сколько времени человек тратит на каждую вручную — и стоит ли пробовать отдать это модели. Этот черновой расчёт — уже мышление владельца.