Узнайте, почему AI-запросы могут быть медленными: от дата-центров до GPU. Разбираем физику задержек и даём советы по оптимизации.
Вы набираете промпт, нажимаете отправить — и ответ приходит мгновенно. Гладко, быстро. Кажется, будто вы думаете вслух вместе с машиной. А на следующий день — та же модель, тот же промпт — и вы ждёте три, пять секунд. Курсор мигает, ничего не происходит. Потом ответ вываливается разом. Вы, вероятно, винили свой Wi-Fi. Дело не в Wi-Fi. Что на самом деле произошло за эти лишние секунды — история, которая начинается в здании, где вы никогда не были, проходит по кабелю на дне океана и заканчивается на GPU, который до вас был занят чьими-то вычислениями.
Проследим за одним запросом от момента нажатия кнопки. Ваш промпт покидает устройство, путешествует пакетами данных через провайдера, попадает на подводный оптоволоконный кабель, пересекает океан, прибывает в дата-центр, маршрутизируется на нужный сервер, ждёт освобождения GPU, обрабатывается — и ответ возвращается тем же путём.
Весь этот круговой путь происходит за доли секунды. Но каждый шаг стоит времени. И некоторые шаги стоят дороже в зависимости от того, где на планете находитесь вы.
Дата-центр — это здание размером с несколько футбольных полей, заполненное серверами. Серверы — это компьютеры без экранов, составленные в металлические стойки, тысячи их, работающие 24/7 без выключения. Каждый ваш API-вызов, каждое сообщение в WhatsApp, каждый поиск в Google, каждое видео на YouTube — всё это касается сервера в таком здании где-то в мире.
Зданию нужно три вещи: электричество, охлаждение и связь. Электричество питает серверы, охлаждение не даёт им расплавиться (серверы выделяют огромное тепло), а связь — это оптоволокно, соединяющее здание с остальным интернетом. В Нигерии 17 таких зданий. В США — более 5500. Этот разрыв важен, мы к нему вернёмся.
Задержка (latency) — это время, за которое данные проходят от точки А до точки Б и обратно. Она ограничена физикой. Данные движутся по оптоволокну со скоростью примерно две трети скорости света. Вы не можете сделать их быстрее — только сократить расстояние. Лагос до Лондона — около 5000 километров. При двух третях скорости света минимальное время кругового пути — около 50 миллисекунд только из-за расстояния. Добавьте маршрутизацию, перегрузку, обработку — и получите 100-150 мс до того, как запрос вообще достигнет сервера. Потом модель должна подумать. Потом ответ возвращается.
Большинство разработчиков в Нигерии обращаются к LLM-серверам в us-east-1 (Виргиния) или eu-west (Ирландия, Франкфурт). Это не жалоба — просто там находятся серверы. Но каждый API-вызов несёт 100-200 мс задержки только из-за географии, до начала инференса. Для стримингового чат-бота вы это чувствуете: пауза перед первым токеном — не модель медленная, а скорость света, применённая к расстоянию.
Когда ваш промпт прибывает на сервер, он обрабатывается не так, как вы представляете (поиск по ключевым словам). Модель прогоняет промпт через миллиарды математических операций, слой за слоем, чтобы предсказать наиболее вероятный следующий токен. Затем следующий, и так далее. Каждый токен генерируется последовательно, пока ответ не будет завершён. Это и есть инференс.
Токен — это примерно три четверти слова. «Привет» — один токен. «Инфраструктура» — два. Ответ, который вы сейчас читаете, — несколько сотен токенов. Почему это важно? Потому что каждый токен требует вычислений. Более длинный промпт — больше вычислений на входе. Более длинный ответ — больше на выходе. И все эти вычисления происходят на GPU внутри дата-центра, потребляя реальное электричество.
В вашем ноутбуке есть CPU — центральный процессор. Он предназначен для общих задач: браузер, компиляция кода, работа ОС. Очень быстр для одной задачи за раз. GPU — графический процессор — изначально создавался для рендеринга видеоигр. Тысячи маленьких ядер, которые могут выполнять множество вычислений одновременно. Оказалось, эта параллельная архитектура идеально подходит для инференса LLM: выполнять одни и те же математические операции над миллиардами параметров одновременно.
Один высокопроизводительный GPU для инференса LLM — NVIDIA H100 — стоит около $30 000. В дата-центре, обслуживающем фронтальную модель, таких тысяч. Когда вы вызываете API LLM, ваш запрос направляется на один из этих GPU. Если он занят обработкой другого запроса, ваш ждёт. Это ожидание реально и проявляется как задержка на вашей стороне. Именно это ограничивают rate limits: физическую ёмкость оборудования.
Вы замечали, что иногда первый вызов после перерыва занимает заметно больше времени? Это не иллюзия — это холодный старт. Модели большие. Фронтальная модель может быть сотнями гигабайт весов — чисел, кодирующих знания модели. Эти веса нужно загрузить в память GPU до начала инференса. Если запросов давно не было, система могла частично выгрузить модель, чтобы освободить память. Первый запрос ждёт загрузки модели обратно. Последующие попадают на уже разогретую модель и кажутся быстрее. Serverless-развёртывания LLM особенно подвержены этому: вы платите меньше при низкой нагрузке, но пользователи чувствуют первый запрос после затишья.
17 дата-центров Нигерии — 14 из них в Лагосе — работают почти полностью на дизельных генераторах. Национальная сеть даёт в среднем 4 часа электричества в день. Каждый дата-центр компенсирует разницу генераторами, работающими круглосуточно. Это дорого. И это причина, по которой локальная облачная инфраструктура не масштабировалась так, как на рынках со стабильным энергоснабжением.
Для вас как разработчика последствие: каждый вызов LLM API маршрутизируется на сервер не в Нигерии, не в Западной Африке, часто не на континенте. Вы платите за задержку расстояния на каждом запросе, для каждого пользователя. Это не программная проблема — это проблема географии и инфраструктуры. И она напрямую влияет на то, как ваши AI-продукты ощущаются пользователями.
Три практических вещи:
Дата-центры существуют, потому что вычисления должны где-то физически размещаться. Они требуют электричества, воды, земли и связи для работы инфраструктуры, делающей AI «лёгким». Африка владеет менее 1% глобальной ёмкости дата-центров, при этом в ней живёт 18% населения мира. Разрыв между тем, что континент генерирует как цифровой спрос, и тем, чем владеет как инфраструктурой — вот откуда берётся задержка, зависимость, извлечение ценности.
Знание, что это проблема физики, а не кода, меняет то, куда вы смотрите. Знание, что Equinix, AWS и Microsoft владеют большей частью полезной ёмкости континента, меняет то, что вы об этом думаете. Скорее всего, дело не в вашем коде. А в здании, работающем на дизеле.
Прямо сейчас: проверьте, где находятся серверы, к которым вы обращаетесь. Если они далеко, внедрите стриминг и кэширование. Выберите модель поменьше для простых задач. И помните: задержка — это физика, а не баг.
Хочешь закрепить знания на практике?
Решай задачи на Algolit — интерактивная платформа для обучения
Начать бесплатно →