Все кейсы
Cloud / Storage · 18 дней

Облачный файл-хостинг: 6 PB данных и 99.99% доступность

Крупный международный облачный файл-хостинг рос быстрее, чем его инфраструктура. Ручное управление серверами при 3M пользователях стало критическим риском. Мы перевели всё на IaC, автомасштабирование и CI/CD — за 18 дней.

TerraformPackerAWS S3Load BalancersAuto ScalingGitLab CIMySQLPrometheusGrafana
6 PB
Данных с 99.99% доступностью
3M
Активных пользователей
12K
Одновременных подключений
1.5 Gbps
Пиковый трафик
-75%
Время деплоя
-30%
Операционные затраты

Проблема

Сервис обслуживал 3 миллиона пользователей и хранил петабайты данных, но инфраструктура управлялась вручную. Каждый деплой занимал до 4 часов и требовал ручного вмешательства инженеров.

При пиковых нагрузках масштабирование занимало 2-3 часа. Риск человеческой ошибки при работе с production-данными был неприемлемо высок.

  • Ручное управление 50+ серверами
  • Нет автомасштабирования при пиках
  • Деплой 4 часа, риск даунтайма
  • Нет единого мониторинга

Решение

Мы перевели всю инфраструктуру на Terraform: каждый сервер, балансировщик, S3-бакет описан кодом. Packer-образы обеспечивают идентичность окружений. Auto Scaling Groups реагируют на нагрузку автоматически.

GitLab CI/CD обеспечивает zero-downtime деплои через rolling updates. Prometheus + Grafana дают полную видимость 12K+ одновременных соединений в реальном времени.

  • Terraform IaC для всей инфраструктуры
  • Auto Scaling Groups + Packer образы
  • GitLab CI/CD, деплой за 60 минут
  • Prometheus + Grafana мониторинг

Ход реализации

Фаза 1
3 дня

Аудит и проектирование

  • Аудит текущей инфраструктуры и узких мест
  • Проектирование целевой архитектуры IaC
  • Определение стратегии автомасштабирования
Фаза 2
7 дней

IaC и автомасштабирование

  • Terraform-модули для всей инфраструктуры
  • Packer-образы для auto-scaling групп
  • Настройка Load Balancers и health checks
Фаза 3
5 дней

CI/CD и хранилище

  • GitLab CI/CD пайплайны для zero-downtime деплоев
  • Интеграция AWS S3 и PDS для петабайтного хранилища
  • Оптимизация MySQL для высоконагруженных запросов
Фаза 4
3 дня

Мониторинг и оптимизация

  • Prometheus + Grafana дашборды для 12K+ соединений
  • Алерты на деградацию производительности
  • Оптимизация затрат: Reserved Instances + Spot

До и после

МетрикаДоПослеИзменение
Деплой новой версии~4 часа (вручную)~60 минут (CI/CD)-75%
Масштабирование при пикахРучное, 2-3 часаАвто, 5-10 минут-95%
Доступность сервиса99.5%99.99%+0.49%
Операционные затратыБазовый уровень-30% от базового-30%
Одновременные подключения~3K12K++4x

Ключевые архитектурные решения

🏗️

IaC-первый подход

100% инфраструктуры описано в Terraform. Любой сервер можно пересоздать за минуты. Нет ни одного ресурса, созданного вручную.

📦

Иммутабельные образы

Packer собирает готовые AMI-образы с предустановленным ПО. Auto Scaling Group запускает идентичные инстансы — никаких конфигурационных дрейфов.

🗄️

Многоуровневое хранилище

Горячие данные на SSD-инстансах, холодные — в S3. PDS для объектного хранилища. MySQL с read replicas для метаданных. Итог: 6 PB при минимальных затратах.

«Мы не верили, что за 18 дней можно перевести петабайтное хранилище на IaC без единого часа даунтайма. Теперь наш деплой занимает час вместо четырёх, а масштабирование происходит автоматически.»

— CTO, международный облачный файл-хостинг

Похожая задача?

Расскажите о вашей инфраструктуре — мы предложим конкретный план за 24 часа.