Выбор ресурсов

Подберите конфигурацию пода исходя из требований вашей задачи.

Выбор правильной конфигурации — ключевой шаг для эффективной работы. Это руководство поможет оценить потребности вашего проекта и подобрать подходящие ресурсы.

Анализ задачи

Прежде чем выбирать под, определите, что именно вы будете запускать:

Обучение моделей — требует мощного GPU с большим объёмом VRAM и высокой пропускной способностью памяти.
Инференс (генерация) — менее ресурсоёмок, часто достаточно среднего GPU.
Обработка данных — нагружает CPU и RAM больше, чем GPU.
Рендеринг — нуждается как в мощном GPU, так и в быстром хранилище.

Для ML-моделей изучите документацию модели на Hugging Face или откройте файл config.json — там обычно указаны минимальные требования к памяти.

Инструменты для оценки ресурсов

Hugging Face Model Memory Calculator — оценка памяти для трансформеров.
Can it run LLM — проверка совместимости железа с конкретной языковой моделью.
VRAM Estimator — приблизительный расчёт необходимого объёма VRAM.

Ключевые параметры

GPU

GPU — основа производительности для большинства ML-задач. На что обратить внимание:

Архитектура — большинство ML-фреймворков (PyTorch, TensorFlow) работают только с NVIDIA CUDA. Более новые архитектуры (Ampere, Ada Lovelace, Hopper) быстрее на задачах с fp16/bf16 и имеют тензорные ядра.
Количество CUDA-ядер и тензорных ядер — определяет скорость вычислений.
Пропускная способность памяти — критична при работе с большими батчами.

Для инференса часто достаточно GPU среднего класса. Для обучения больших моделей нужны топовые варианты.

VRAM

VRAM — видеопамять GPU. Нехватка VRAM приводит к ошибке CUDA out of memory и полной остановке работы.

Правило для LLM: ~2 ГБ VRAM на каждый миллиард параметров dense-модели при загрузке в FP16/BF16 без квантования.

Размер модели	Минимальный VRAM для FP16/BF16
7B параметров	~14 ГБ
13B параметров	~26 ГБ
34B параметров	~68 ГБ
70B параметров	~140 ГБ (multi-GPU)

Скорее всего, вам не нужно запускать LLM в FP16/BF16. Для инференса обычно выбирают оптимальное квантование: 4-bit GGUF для llama.cpp, AWQ/GPTQ для vLLM или 8-bit, если нужен больший запас качества и хватает VRAM. Это сильно снижает потребление памяти.

Примерные ориентиры для инференса:

Размер модели	8-bit	4-bit / AWQ / GGUF
7B параметров	~7-9 ГБ	~4-6 ГБ
13B параметров	~13-16 ГБ	~7-10 ГБ
27B-34B параметров	~28-40 ГБ	~16-24 ГБ
70B параметров	~70-90 ГБ	~40-55 ГБ

Это приблизительные значения: итоговая VRAM зависит от конкретной модели, формата кванта, длины контекста и размера KV-cache. MoE-модели могут занимать меньше памяти на генерации, чем плотные модели того же общего размера. Поэтому отдельные 27B-35B модели в 4-bit/AWQ/GGUF могут запускаться на GPU с 32 GB VRAM. Практические варианты запуска смотрите в разделе Запуск локальной LLM.

При обучении (fine-tuning) потребность в VRAM выше — дополнительно нужна память для градиентов и оптимизатора. Методы вроде LoRA или QLoRA позволяют существенно снизить требования.

CPU и RAM

Для большинства GPU-задач CPU и RAM не являются узким местом, но учитывайте:

Предобработка данных и загрузка датасетов — CPU/RAM интенсивны.
Рекомендуется минимум 2× объём VRAM в системной RAM для комфортной работы.

Хранилище

Учитывайте суммарный объём:

исходные данные и датасеты
веса моделей (LLM-модели могут весить десятки ГБ)
промежуточные файлы и чекпоинты
результаты и выгрузки

Важные рабочие данные храните в /workspace. Временные директории и случайные папки вне /workspace не рассчитаны на сохранность, а после окончания аренды данные нужно скачать или продлить аренду в течение доступного окна.

Баланс производительности и стоимости

Начинайте с меньшего — для разработки и тестирования достаточно бюджетного GPU. Переходите на более мощный только когда это реально нужно.
Оцените время работы — краткие задачи (генерация, инференс) выгоднее запускать на мощном GPU на короткое время, чем держать слабый под несколько часов.
Multi-GPU — если задача поддерживает параллелизм (DDP, tensor parallelism), несколько GPU могут сократить время обучения линейно.

Следующие шаги

Быстрый старт Работа с файлами Запуск локальной LLM