DevOps для настройки кластера GPU-серверов (Proxmox, Vast.ai)

Алексей6 месяцев в сервисе

Данные заказчика будут вам доступны после подачи заявки

04.08.2025

Мы запускаем крупный проект по созданию облачной платформы для AI/ML вычислений и 3D-рендеринга (GPU-as-a-Service). В нашем распоряжении находится большой парк GPU-оборудования (тысячи единиц), который мы будем поэтапно вводить в эксплуатацию.

Ищем опытного DevOps-инженера или системного администратора Linux для настройки первой партии из 10 GPU-ферм (ригов), каждая из которых содержит 8-10 видеокарт.

Цель этого этапа:
Создать надежную, масштабируемую и безопасную конфигурацию для 10 пилотных серверов, подготовить их для сдачи в аренду на публичных площадках (Vast.ai, Runpod) и заложить фундамент для дальнейшего развертывания сотен таких же серверов.

Это не разовый проект. Мы ищем специалиста для долгосрочного сотрудничества и готовы хорошо оплачивать высокий уровень экспертизы.

Ключевые задачи и обязанности:

Консультация и выбор стека: Обсудить и утвердить оптимальный технологический стек (ОС, система виртуализации, сетевая архитектура).
Настройка "эталонного" хоста:
- Установка и настройка ОС Linux (предпочтительно Ubuntu Server 22.04 LTS).
- Установка и настройка гипервизора Proxmox VE.
- Ключевая задача: Настройка корректного проброса GPU (PCIe Passthrough / VFIO) в гостевые виртуальные машины (ВМ).
- Настройка сетевых мостов (bridges) и, возможно, VLAN для изоляции.
Создание и настройка гостевых ВМ:
- Создание шаблонов ВМ с Linux.
- Установка в ВМ драйверов NVIDIA, CUDA Toolkit, Docker.
Автоматизация развертывания:
- Создание скриптов (предпочтительно Ansible, но можно и Bash) для автоматизации настройки новых хостов и ВМ по образу "эталонного". Цель — минимизировать ручную работу при масштабировании.
Обеспечение безопасности: Проведение базовой "закалки" (hardening) хостовой и гостевой ОС (настройка фаервола ufw, отключение парольного доступа по SSH и т.д.).
Интеграция с платформами: Установка и настройка ПО от Vast.ai / Runpod на гостевых ВМ для их подключения к маркетплейсу.
Документация: Создание подробной и понятной документации по всей проделанной работе, включая шаги по развертыванию нового сервера с помощью созданных скриптов.

Требуемые навыки и опыт (обязательно):

Глубокие знания в администрировании Linux (Ubuntu/Debian).
Подтвержденный практический опыт работы с системой виртуализации Proxmox VE.
Успешный опыт настройки проброса нескольких GPU (GPU Passthrough) в виртуальные машины. Это самый критичный навык для проекта.
Опыт работы с экосистемой NVIDIA: установка драйверов, CUDA, работа с nvidia-smi.
Понимание принципов работы сетей: мосты, VLAN, маршрутизация.
Опыт работы с Docker.
Навыки написания скриптов для автоматизации (Bash/Python/Ansible).

Будет большим плюсом (желательно):

Опыт работы с ZFS.
Опыт развертывания и управления хостами на платформах Vast.ai, Runpod или аналогичных.
Опыт работы с высоконагруженными системами и оборудованием для майнинга/рендеринга.

Что мы ожидаем в результате:

10 физических серверов (ферм), полностью настроенных и работающих под управлением Proxmox.
Настроенные и готовые к работе виртуальные машины, подключенные к Vast.ai/Runpod.
Набор скриптов для автоматизации развертывания 11-го и последующих серверов.
Техническая документация, достаточная для того, чтобы ваш коллега мог понять архитектуру и продолжить работу.

При отклике на этот проект, пожалуйста, ответьте на несколько вопросов:

Опишите ваш самый релевантный опыт, связанный с настройкой GPU-серверов и виртуализацией. С какими сложностями при пробросе GPU вы сталкивались и как их решали?
Какой стек технологий (ОС, файловая система, инструменты автоматизации) вы бы предложили для решения этой задачи и почему?
Укажите вашу почасовую ставку и примерную оценку времени, которое потребуется на выполнение этого пилотного проекта (настройка 10 серверов + автоматизация).

Docker Linux Ubuntu Написание скриптов Настройка серверов

Заявки фрилансеров

Боря@code_boris

35 лет6 месяцев в сервисе

05.08.2025

Дмитрий@conroe

39 лет18 лет в сервисе23 отзыва

06.08.2025