Мы запускаем крупный проект по созданию облачной платформы для AI/ML вычислений и 3D-рендеринга (GPU-as-a-Service). В нашем распоряжении находится большой парк GPU-оборудования (тысячи единиц), который мы будем поэтапно вводить в эксплуатацию.

Ищем опытного DevOps-инженера или системного администратора Linux для настройки первой партии из 10 GPU-ферм (ригов), каждая из которых содержит 8-10 видеокарт.

Цель этого этапа:
Создать надежную, масштабируемую и безопасную конфигурацию для 10 пилотных серверов, подготовить их для сдачи в аренду на публичных площадках (Vast.ai, Runpod) и заложить фундамент для дальнейшего развертывания сотен таких же серверов.

Это не разовый проект. Мы ищем специалиста для долгосрочного сотрудничества и готовы хорошо оплачивать высокий уровень экспертизы.

Ключевые задачи и обязанности:

  1. Консультация и выбор стека: Обсудить и утвердить оптимальный технологический стек (ОС, система виртуализации, сетевая архитектура).

  2. Настройка "эталонного" хоста:

    • Установка и настройка ОС Linux (предпочтительно Ubuntu Server 22.04 LTS).

    • Установка и настройка гипервизора Proxmox VE.

    • Ключевая задача: Настройка корректного проброса GPU (PCIe Passthrough / VFIO) в гостевые виртуальные машины (ВМ).

    • Настройка сетевых мостов (bridges) и, возможно, VLAN для изоляции.

  3. Создание и настройка гостевых ВМ:

    • Создание шаблонов ВМ с Linux.

    • Установка в ВМ драйверов NVIDIA, CUDA Toolkit, Docker.

  4. Автоматизация развертывания:

    • Создание скриптов (предпочтительно Ansible, но можно и Bash) для автоматизации настройки новых хостов и ВМ по образу "эталонного". Цель — минимизировать ручную работу при масштабировании.

  5. Обеспечение безопасности: Проведение базовой "закалки" (hardening) хостовой и гостевой ОС (настройка фаервола ufw, отключение парольного доступа по SSH и т.д.).

  6. Интеграция с платформами: Установка и настройка ПО от Vast.ai / Runpod на гостевых ВМ для их подключения к маркетплейсу.

  7. Документация: Создание подробной и понятной документации по всей проделанной работе, включая шаги по развертыванию нового сервера с помощью созданных скриптов.

Требуемые навыки и опыт (обязательно):

  • Глубокие знания в администрировании Linux (Ubuntu/Debian).

  • Подтвержденный практический опыт работы с системой виртуализации Proxmox VE.

  • Успешный опыт настройки проброса нескольких GPU (GPU Passthrough) в виртуальные машины. Это самый критичный навык для проекта.

  • Опыт работы с экосистемой NVIDIA: установка драйверов, CUDA, работа с nvidia-smi.

  • Понимание принципов работы сетей: мосты, VLAN, маршрутизация.

  • Опыт работы с Docker.

  • Навыки написания скриптов для автоматизации (Bash/Python/Ansible).

Будет большим плюсом (желательно):

  • Опыт работы с ZFS.

  • Опыт развертывания и управления хостами на платформах Vast.ai, Runpod или аналогичных.

  • Опыт работы с высоконагруженными системами и оборудованием для майнинга/рендеринга.

Что мы ожидаем в результате:

  1. 10 физических серверов (ферм), полностью настроенных и работающих под управлением Proxmox.

  2. Настроенные и готовые к работе виртуальные машины, подключенные к Vast.ai/Runpod.

  3. Набор скриптов для автоматизации развертывания 11-го и последующих серверов.

  4. Техническая документация, достаточная для того, чтобы ваш коллега мог понять архитектуру и продолжить работу.

При отклике на этот проект, пожалуйста, ответьте на несколько вопросов:

  1. Опишите ваш самый релевантный опыт, связанный с настройкой GPU-серверов и виртуализацией. С какими сложностями при пробросе GPU вы сталкивались и как их решали?

  2. Какой стек технологий (ОС, файловая система, инструменты автоматизации) вы бы предложили для решения этой задачи и почему?

  3. Укажите вашу почасовую ставку и примерную оценку времени, которое потребуется на выполнение этого пилотного проекта (настройка 10 серверов + автоматизация).

5 часов назад
Алексей
25 дней в сервисе
Был
4 часа назад

Заявки фрилансеров

Нет заявок фрилансеров