Выбор ресурсов
Подберите конфигурацию пода исходя из требований вашей задачи.
Выбор правильной конфигурации — ключевой шаг для эффективной работы. Это руководство поможет оценить потребности вашего проекта и подобрать подходящие ресурсы.
Анализ задачи
Прежде чем выбирать под, определите, что именно вы будете запускать:
- Обучение моделей — требует мощного GPU с большим объёмом VRAM и высокой пропускной способностью памяти.
- Инференс (генерация) — менее ресурсоёмок, часто достаточно среднего GPU.
- Обработка данных — нагружает CPU и RAM больше, чем GPU.
- Рендеринг — нуждается как в мощном GPU, так и в быстром хранилище.
Для ML-моделей изучите документацию модели на Hugging Face или откройте файл config.json — там обычно указаны минимальные требования к памяти.
Инструменты для оценки ресурсов
- Hugging Face Model Memory Calculator — оценка памяти для трансформеров.
- Can it run LLM — проверка совместимости железа с конкретной языковой моделью.
- VRAM Estimator — приблизительный расчёт необходимого объёма VRAM.
Ключевые параметры
GPU
GPU — основа производительности для большинства ML-задач. На что обратить внимание:
- Архитектура — большинство ML-фреймворков (PyTorch, TensorFlow) работают только с NVIDIA CUDA. Более новые архитектуры (Ampere, Ada Lovelace, Hopper) быстрее на задачах с fp16/bf16 и имеют тензорные ядра.
- Количество CUDA-ядер и тензорных ядер — определяет скорость вычислений.
- Пропускная способность памяти — критична при работе с большими батчами.
Для инференса часто достаточно GPU среднего класса. Для обучения больших моделей нужны топовые варианты.
VRAM
VRAM — видеопамять GPU. Нехватка VRAM приводит к ошибке CUDA out of memory и полной остановке работы.
Правило для LLM: ~2 ГБ VRAM на каждый миллиард параметров dense-модели при загрузке в FP16/BF16 без квантования.
| Размер модели | Минимальный VRAM для FP16/BF16 |
|---|---|
| 7B параметров | ~14 ГБ |
| 13B параметров | ~26 ГБ |
| 34B параметров | ~68 ГБ |
| 70B параметров | ~140 ГБ (multi-GPU) |
Скорее всего, вам не нужно запускать LLM в FP16/BF16. Для инференса обычно выбирают оптимальное квантование: 4-bit GGUF для llama.cpp, AWQ/GPTQ для vLLM или 8-bit, если нужен больший запас качества и хватает VRAM. Это сильно снижает потребление памяти.
Примерные ориентиры для инференса:
| Размер модели | 8-bit | 4-bit / AWQ / GGUF |
|---|---|---|
| 7B параметров | ~7-9 ГБ | ~4-6 ГБ |
| 13B параметров | ~13-16 ГБ | ~7-10 ГБ |
| 27B-34B параметров | ~28-40 ГБ | ~16-24 ГБ |
| 70B параметров | ~70-90 ГБ | ~40-55 ГБ |
Это приблизительные значения: итоговая VRAM зависит от конкретной модели, формата кванта, длины контекста и размера KV-cache. MoE-модели могут занимать меньше памяти на генерации, чем плотные модели того же общего размера. Поэтому отдельные 27B-35B модели в 4-bit/AWQ/GGUF могут запускаться на GPU с 32 GB VRAM. Практические варианты запуска смотрите в разделе Запуск локальной LLM.
При обучении (fine-tuning) потребность в VRAM выше — дополнительно нужна память для градиентов и оптимизатора. Методы вроде LoRA или QLoRA позволяют существенно снизить требования.
CPU и RAM
Для большинства GPU-задач CPU и RAM не являются узким местом, но учитывайте:
- Предобработка данных и загрузка датасетов — CPU/RAM интенсивны.
- Рекомендуется минимум 2× объём VRAM в системной RAM для комфортной работы.
Хранилище
Учитывайте суммарный объём:
- исходные данные и датасеты
- веса моделей (LLM-модели могут весить десятки ГБ)
- промежуточные файлы и чекпоинты
- результаты и выгрузки
Важные рабочие данные храните в /workspace. Временные директории и случайные папки вне /workspace не рассчитаны на сохранность, а после окончания аренды данные нужно скачать или продлить аренду в течение доступного окна.
Баланс производительности и стоимости
-
Начинайте с меньшего — для разработки и тестирования достаточно бюджетного GPU. Переходите на более мощный только когда это реально нужно.
-
Оцените время работы — краткие задачи (генерация, инференс) выгоднее запускать на мощном GPU на короткое время, чем держать слабый под несколько часов.
-
Multi-GPU — если задача поддерживает параллелизм (DDP, tensor parallelism), несколько GPU могут сократить время обучения линейно.