Почему ваш AI-запрос иногда тормозит?

Вы набираете промпт, нажимаете отправить — и ответ приходит мгновенно. Гладко, быстро. Кажется, будто вы думаете вслух вместе с машиной. А на следующий день — та же модель, тот же промпт — и вы ждёте три, пять секунд. Курсор мигает, ничего не происходит. Потом ответ вываливается разом. Вы, вероятно, винили свой Wi-Fi. Дело не в Wi-Fi. Что на самом деле произошло за эти лишние секунды — история, которая начинается в здании, где вы никогда не были, проходит по кабелю на дне океана и заканчивается на GPU, который до вас был занят чьими-то вычислениями.

Путь одного API-вызова

Проследим за одним запросом от момента нажатия кнопки. Ваш промпт покидает устройство, путешествует пакетами данных через провайдера, попадает на подводный оптоволоконный кабель, пересекает океан, прибывает в дата-центр, маршрутизируется на нужный сервер, ждёт освобождения GPU, обрабатывается — и ответ возвращается тем же путём.

Весь этот круговой путь происходит за доли секунды. Но каждый шаг стоит времени. И некоторые шаги стоят дороже в зависимости от того, где на планете находитесь вы.

Что такое дата-центр на самом деле

Дата-центр — это здание размером с несколько футбольных полей, заполненное серверами. Серверы — это компьютеры без экранов, составленные в металлические стойки, тысячи их, работающие 24/7 без выключения. Каждый ваш API-вызов, каждое сообщение в WhatsApp, каждый поиск в Google, каждое видео на YouTube — всё это касается сервера в таком здании где-то в мире.

Зданию нужно три вещи: электричество, охлаждение и связь. Электричество питает серверы, охлаждение не даёт им расплавиться (серверы выделяют огромное тепло), а связь — это оптоволокно, соединяющее здание с остальным интернетом. В Нигерии 17 таких зданий. В США — более 5500. Этот разрыв важен, мы к нему вернёмся.

Задержка: проблема физики, о которой вас не предупреждали

Задержка (latency) — это время, за которое данные проходят от точки А до точки Б и обратно. Она ограничена физикой. Данные движутся по оптоволокну со скоростью примерно две трети скорости света. Вы не можете сделать их быстрее — только сократить расстояние. Лагос до Лондона — около 5000 километров. При двух третях скорости света минимальное время кругового пути — около 50 миллисекунд только из-за расстояния. Добавьте маршрутизацию, перегрузку, обработку — и получите 100-150 мс до того, как запрос вообще достигнет сервера. Потом модель должна подумать. Потом ответ возвращается.

Большинство разработчиков в Нигерии обращаются к LLM-серверам в us-east-1 (Виргиния) или eu-west (Ирландия, Франкфурт). Это не жалоба — просто там находятся серверы. Но каждый API-вызов несёт 100-200 мс задержки только из-за географии, до начала инференса. Для стримингового чат-бота вы это чувствуете: пауза перед первым токеном — не модель медленная, а скорость света, применённая к расстоянию.

Инференс: что на самом деле делает GPU

Когда ваш промпт прибывает на сервер, он обрабатывается не так, как вы представляете (поиск по ключевым словам). Модель прогоняет промпт через миллиарды математических операций, слой за слоем, чтобы предсказать наиболее вероятный следующий токен. Затем следующий, и так далее. Каждый токен генерируется последовательно, пока ответ не будет завершён. Это и есть инференс.

Токен — это примерно три четверти слова. «Привет» — один токен. «Инфраструктура» — два. Ответ, который вы сейчас читаете, — несколько сотен токенов. Почему это важно? Потому что каждый токен требует вычислений. Более длинный промпт — больше вычислений на входе. Более длинный ответ — больше на выходе. И все эти вычисления происходят на GPU внутри дата-центра, потребляя реальное электричество.

Почему именно GPU

В вашем ноутбуке есть CPU — центральный процессор. Он предназначен для общих задач: браузер, компиляция кода, работа ОС. Очень быстр для одной задачи за раз. GPU — графический процессор — изначально создавался для рендеринга видеоигр. Тысячи маленьких ядер, которые могут выполнять множество вычислений одновременно. Оказалось, эта параллельная архитектура идеально подходит для инференса LLM: выполнять одни и те же математические операции над миллиардами параметров одновременно.

Один высокопроизводительный GPU для инференса LLM — NVIDIA H100 — стоит около $30 000. В дата-центре, обслуживающем фронтальную модель, таких тысяч. Когда вы вызываете API LLM, ваш запрос направляется на один из этих GPU. Если он занят обработкой другого запроса, ваш ждёт. Это ожидание реально и проявляется как задержка на вашей стороне. Именно это ограничивают rate limits: физическую ёмкость оборудования.

Холодный старт: почему первый запрос медленнее

Вы замечали, что иногда первый вызов после перерыва занимает заметно больше времени? Это не иллюзия — это холодный старт. Модели большие. Фронтальная модель может быть сотнями гигабайт весов — чисел, кодирующих знания модели. Эти веса нужно загрузить в память GPU до начала инференса. Если запросов давно не было, система могла частично выгрузить модель, чтобы освободить память. Первый запрос ждёт загрузки модели обратно. Последующие попадают на уже разогретую модель и кажутся быстрее. Serverless-развёртывания LLM особенно подвержены этому: вы платите меньше при низкой нагрузке, но пользователи чувствуют первый запрос после затишья.

Почему Нигерия — особый случай

17 дата-центров Нигерии — 14 из них в Лагосе — работают почти полностью на дизельных генераторах. Национальная сеть даёт в среднем 4 часа электричества в день. Каждый дата-центр компенсирует разницу генераторами, работающими круглосуточно. Это дорого. И это причина, по которой локальная облачная инфраструктура не масштабировалась так, как на рынках со стабильным энергоснабжением.

Для вас как разработчика последствие: каждый вызов LLM API маршрутизируется на сервер не в Нигерии, не в Западной Африке, часто не на континенте. Вы платите за задержку расстояния на каждом запросе, для каждого пользователя. Это не программная проблема — это проблема географии и инфраструктуры. И она напрямую влияет на то, как ваши AI-продукты ощущаются пользователями.

Что это значит, когда вы строите

Три практических вещи:

Стримите ответ. Не ждите полного ответа, прежде чем показать что-то. Стриминг токенов по мере их появления делает опыт быстрее, даже если реально он не быстрее. Воспринимаемая задержка резко падает, потому что пользователь видит, что что-то происходит.
Кэшируйте агрессивно. Если вы вызываете один и тот же промпт или похожие, кэшируйте ответ. Инференс дорог, задержка дорога. Кэширование устраняет и то, и другое для повторяющихся запросов.
Выбирайте правильную модель для задачи. Модель на 70 миллиардов параметров медленнее и дороже, чем на 7 миллиардов. Для многих задач — классификация, извлечение, короткая генерация — меньшая модель достаточна и возвращает результаты значительно быстрее. Фронтальные модели — не всегда правильный инструмент.

Общая картина

Дата-центры существуют, потому что вычисления должны где-то физически размещаться. Они требуют электричества, воды, земли и связи для работы инфраструктуры, делающей AI «лёгким». Африка владеет менее 1% глобальной ёмкости дата-центров, при этом в ней живёт 18% населения мира. Разрыв между тем, что континент генерирует как цифровой спрос, и тем, чем владеет как инфраструктурой — вот откуда берётся задержка, зависимость, извлечение ценности.

Знание, что это проблема физики, а не кода, меняет то, куда вы смотрите. Знание, что Equinix, AWS и Microsoft владеют большей частью полезной ёмкости континента, меняет то, что вы об этом думаете. Скорее всего, дело не в вашем коде. А в здании, работающем на дизеле.

Практический вывод

Прямо сейчас: проверьте, где находятся серверы, к которым вы обращаетесь. Если они далеко, внедрите стриминг и кэширование. Выберите модель поменьше для простых задач. И помните: задержка — это физика, а не баг.

Почему AI-запросы тормозят: от дата-центра до вашего кода

Почему ваш AI-запрос иногда тормозит?

Путь одного API-вызова

Что такое дата-центр на самом деле

Задержка: проблема физики, о которой вас не предупреждали

Инференс: что на самом деле делает GPU

Почему именно GPU

Холодный старт: почему первый запрос медленнее

Почему Нигерия — особый случай

Что это значит, когда вы строите

Общая картина

Практический вывод

Читать также

Как я построил AI-коуча для собеседований с памятью и экономией

Confluence: интерактивная платформа для изучения ML

ИИ, эго и сожаление: бонусная глава о замене модели