GPU без магии: как выбрать серверный ускоритель под реальные задачи
Когда команде нужен GPU для серверной нагрузки, запрос обычно выглядит так: «Нам нужен сервер с GPU под ML. Какую карту выбрать?». Дальше — пауза. Потому что GPU — это не просто «больше TFLOPS = лучше». Это целый класс ускорителей с разными архитектурами, форм-факторами, экосистемами и ограничениями, которые обнаруживаются только тогда, когда оборудование уже куплено.
Эта статья разбирает, как подойти к выбору GPU инженерно, а не маркетингово. За основу взят технический материал Евгения Зенухина, руководителя отдела развития и сопровождения физической инфраструктуры в Selectel, опубликованный 5 июня 2026 года. Статья не продвигает конкретные модели и не называет цены — они меняются. Задача — разобрать параметры, которые важны при выборе, и ошибки, которые встречаются чаще всего.
Что такое GPU и почему его выбор нетривиален
GPU — Graphics Processing Unit, графический процессор. Исторически он создавался для рендеринга: геометрия, текстуры, пиксели, кадры. Но архитектура GPU оказалась хорошо приспособленной к массово-параллельным вычислениям: когда нужно выполнить огромное количество однотипных операций над большими массивами данных одновременно.
Именно поэтому GPU сегодня используют в машинном обучении и инференсе, дообучении LLM, виртуальных рабочих столах (VDI), научных расчётах и инженерном моделировании, 3D-рендеринге и обработке видео.
Ключевая оговорка: GPU — не один универсальный ответ. Одни ускорители оптимизированы для обучения, другие — для инференса, третьи — для FP64-расчётов и HPC, четвёртые — для графики. Неверно воспринимать GPU только как «процессор для нейросетей» или «видеокарту для игр» — это слишком узко для принятия инфраструктурного решения.
Чем GPU отличается от CPU
Если объяснять коротко: CPU — универсальный процессор для сложной логики и низких задержек. GPU — специализированный ускоритель для массового параллелизма.
CPU хорош там, где нужны ветвления, управление ОС и приложениями, переключение между разнородными задачами. GPU устроен иначе: его сильная сторона — выполнять миллионы одинаковых операций параллельно, например перемножать матрицы или обрабатывать векторы данных.
Практический вывод: GPU ускоряет только то, что масштабируется параллельно. Если задача последовательная — GPU простаивает. Добавить ускоритель без понимания характера нагрузки означает потратить деньги впустую.
Типичные ошибки, которые обходятся дорого
Евгений Зенухин описывает паттерны, которые встречаются в реальных запросах на GPU-инфраструктуру:
Недостаточный объём VRAM. Для задач машинного обучения весь рабочий объём — параметры модели, активации, батч данных — должен помещаться в видеопамять GPU. Если VRAM не хватает, задача либо не запускается, либо требует сложной оркестрации с дополнительными потерями производительности.
Замена одного серверного GPU набором десктопных карт. Классический запрос из практики: «Можно вместо одной H100 взять 10 штук RTX 1080, ведь суммарный VRAM будет таким же?». Ответ — нет. Десктопные видеокарты не проектировались для серверных условий: другие ограничения по интерконнекту между картами, питанию, охлаждению, совместимости с серверными платформами и поддержке в профессиональных ML-стеках. То, что работает в игровом ПК, не масштабируется в стойку дата-центра.
Фокус только на TFLOPS при игнорировании пропускной способности памяти. Высокая вычислительная мощность бессмысленна, если GPU не успевает получать данные из памяти. Memory bandwidth — один из ключевых параметров для ML-нагрузок. Именно поэтому серверные GPU используют HBM-память (High Bandwidth Memory) с принципиально другой пропускной способностью по сравнению с обычной видеопамятью.
На что смотреть при выборе
VRAM (видеопамять)
Для ML — критичный параметр. Определяет, какого размера модель можно запустить и какой размер батча использовать при обучении. При работе с LLM объём видеопамяти становится первым ограничением.
Тензорные ядра (Tensor Cores)
Специализированные блоки для матричных операций — именно они обеспечивают высокую скорость в задачах нейросетей. У NVIDIA это Tensor Cores, у AMD — Matrix Core Technologies. Если задача — обучение или инференс нейросетей, наличие и количество тензорных ядер критичны.
Пропускная способность памяти
Скорость передачи данных между памятью и вычислительными ядрами. Для ML-нагрузок часто является узким местом: даже высокий TFLOPS не реализуется, если GPU «ждёт» данные. Серверные GPU вроде A100 и H100 используют HBM с несравнимо более высоким bandwidth по сравнению с GDDR-памятью десктопных карт.
Форм-факторы: SXM и PCIe
Серверные GPU поставляются в двух основных исполнениях:
- PCIe — стандартный слот PCI Express, используется в большинстве серверов. Более гибко и доступно, но ограниченная пропускная способность интерконнекта между картами.
- SXM — проприетарный интерфейс NVIDIA для высокопроизводительных серверных платформ. Более высокий bandwidth, поддержка NVLink для объединения нескольких GPU. Требует специализированной серверной платформы.
Выбор форм-фактора — не только вопрос производительности, но и вопрос совместимости с серверной платформой, которую вы используете или планируете арендовать.
Охлаждение и питание
Серверный GPU потребляет от 250 до 700 Вт в зависимости от класса. При планировании необходимо учитывать тепловыделение всей системы. Десктопные видеокарты не предназначены для непрерывной высокой нагрузки в серверных корпусах с другим воздушным потоком — это прямой путь к перегреву и отказу оборудования.
GPU — часть платформы, а не отдельная деталь
Главный тезис гайда Selectel: GPU нельзя выбирать в отрыве от остальной инфраструктуры. Важно учитывать:
- Совместимость с серверной платформой (поддерживает ли нужный форм-фактор)
- Систему охлаждения и бюджет по питанию стойки
- Интерконнект между GPU при использовании нескольких карт (NVLink, NVSwitch)
- Поддержку в используемом ML-стеке, драйверах, контейнерных средах
Для малых команд рациональный первый шаг — арендовать GPU-сервер на провайдере и замерить реальную нагрузку: сколько VRAM реально нужно под задачи, как утилизируются вычислительные ядра, нужна ли связка нескольких GPU. Только после этого имеет смысл принимать решение о покупке или долгосрочной аренде выделенного железа.
Чек-лист перед выбором GPU
- Определена задача: обучение, инференс, рендеринг, HPC, VDI — или другое?
- Известен требуемый VRAM: под какой объём параметров и данных?
- Оценена нагрузка: задача действительно масштабируется параллельно?
- Выбран форм-фактор: PCIe или SXM — с учётом серверной платформы?
- Учтены питание и охлаждение в условиях непрерывной нагрузки
- Проверена совместимость с ML- или HPC-стеком
- Рассмотрена аренда как первый шаг для замера реальной нагрузки
Источник: «GPU без магии: что важно знать инженеру перед выбором ускорителя» — Евгений Зенухин, Selectel, 5 июня 2026. Оригинал: selectel.ru/blog/how-to-choose-server-gpu-guide. Статья написана на основе материала провайдера и является независимым редакционным пересказом ключевых принципов выбора GPU.