Выбор ресурсов

Подберите конфигурацию пода исходя из требований вашей задачи.

Выбор правильной конфигурации — ключевой шаг для эффективной работы. Это руководство поможет оценить потребности вашего проекта и подобрать подходящие ресурсы.

Анализ задачи

Прежде чем выбирать под, определите, что именно вы будете запускать:

Обучение моделей — требует мощного GPU с большим объёмом VRAM и высокой пропускной способностью памяти.
Инференс (генерация) — менее ресурсоёмок, часто достаточно среднего GPU.
Обработка данных — нагружает CPU и RAM больше, чем GPU.
Рендеринг — нуждается как в мощном GPU, так и в быстром хранилище.

Для ML-моделей изучите документацию модели на Hugging Face или откройте файл config.json — там обычно указаны минимальные требования к памяти.

Инструменты для оценки ресурсов

Hugging Face Model Memory Calculator — оценка памяти для трансформеров.
Can it run LLM — проверка совместимости железа с конкретной языковой моделью.
VRAM Estimator — приблизительный расчёт необходимого объёма VRAM.

Ключевые параметры

GPU

GPU — основа производительности для большинства ML-задач. На что обратить внимание:

Архитектура — большинство ML-фреймворков (PyTorch, TensorFlow) работают только с NVIDIA CUDA. Более новые архитектуры (Ampere, Ada Lovelace, Hopper) быстрее на задачах с fp16/bf16 и имеют тензорные ядра.
Количество CUDA-ядер и тензорных ядер — определяет скорость вычислений.
Пропускная способность памяти — критична при работе с большими батчами.

Для инференса часто достаточно GPU среднего класса. Для обучения больших моделей нужны топовые варианты.

VRAM

VRAM — видеопамять GPU. Нехватка VRAM приводит к ошибке CUDA out of memory и полной остановке работы.

Правило для LLM: ~2 ГБ VRAM на каждый миллиард параметров модели при загрузке в fp16.

Размер модели	Минимальный VRAM
7B параметров	~14 ГБ
13B параметров	~26 ГБ
34B параметров	~68 ГБ
70B параметров	~140 ГБ (multi-GPU)

При обучении (fine-tuning) потребность в VRAM выше — дополнительно нужна память для градиентов и оптимизатора. Методы вроде LoRA или QLoRA позволяют существенно снизить требования.

CPU и RAM

Для большинства GPU-задач CPU и RAM не являются узким местом, но учитывайте:

Предобработка данных и загрузка датасетов — CPU/RAM интенсивны.
Рекомендуется минимум 2× объём VRAM в системной RAM для комфортной работы.

Хранилище

Учитывайте суммарный объём:

исходные данные и датасеты
веса моделей (LLM-модели могут весить десятки ГБ)
промежуточные файлы и чекпоинты
результаты и выгрузки

Данные во временном хранилище пода удаляются при его остановке.

Баланс производительности и стоимости

Начинайте с меньшего — для разработки и тестирования достаточно бюджетного GPU. Переходите на более мощный только когда это реально нужно.
Оцените время работы — краткие задачи (генерация, инференс) выгоднее запускать на мощном GPU на короткое время, чем держать слабый под несколько часов.
Multi-GPU — если задача поддерживает параллелизм (DDP, tensor parallelism), несколько GPU могут сократить время обучения линейно.

Следующие шаги

Быстрый старт Работа с файлами