Все кейсы
Production Infra Box · 5 дней

RAG-система для AI-стартапа: от 28 секунд до 1.1 секунды

AI-стартап с 12 000 активных пользователей столкнулся с критической проблемой: их RAG-система давала ответы за 28 секунд, пользователи уходили. За 5 дней мы развернули production-инфраструктуру, которая снизила latency в 25 раз.

5
дней до запуска
25×
снижение latency
99.97%
uptime за 3 месяца
−62%
стоимость инференса

Контекст и проблема

Клиент — B2B SaaS-стартап, который строит AI-ассистента для юридических команд. Ядро продукта — RAG-система, которая ищет по 50 000+ юридических документов и генерирует ответы с цитатами.

На момент обращения к нам: модель работала на одном GPU-сервере без балансировки, векторная база данных — на том же хосте, что и API, нет кэширования, нет мониторинга. При пиковой нагрузке latency достигала 28 секунд.

Исходный стек

  • 1× GPU-сервер (A10G, 24 GB VRAM)
  • LLM: Mistral-7B через llama.cpp
  • Vector DB: Chroma (in-process)
  • Embeddings: OpenAI text-embedding-3-small
  • Деплой: Docker Compose на одном хосте
  • Мониторинг: отсутствует

Что мы сделали за 5 дней

День 1

Аудит и архитектура

Провели полный аудит текущей инфраструктуры, замерили bottleneck'и (70% времени — embedding generation, 20% — vector search, 10% — LLM inference). Спроектировали целевую архитектуру: разделение сервисов, dedicated embedding service, Qdrant вместо Chroma.

ProfilingArchitecture DesignQdrantvLLM
День 2

Kubernetes-кластер и сети

Развернули Kubernetes-кластер на 3 нодах (2× CPU, 1× GPU A100 80GB). Настроили Ingress, cert-manager, namespace isolation. Мигрировали векторную базу данных на Qdrant с re-indexing 50 000 документов.

KubernetesQdrantHelmcert-manager
День 3

LLM и Embedding сервисы

Заменили llama.cpp на vLLM с PagedAttention — throughput вырос в 4 раза. Развернули dedicated embedding service на базе bge-large-en-v1.5 (локально, без OpenAI API). Добавили semantic caching через Redis для повторяющихся запросов.

vLLMbge-largeRedisPagedAttention
День 4

CI/CD и мониторинг

Настроили GitHub Actions → ArgoCD pipeline с автоматическим rollback при деградации метрик. Развернули Prometheus + Grafana с кастомными дашбордами: latency percentiles, GPU utilization, cache hit rate, vector search QPS.

ArgoCDPrometheusGrafanaGitHub Actions
День 5

Нагрузочное тестирование и передача

Провели нагрузочное тестирование до 500 RPS. Финальные метрики: p50 latency — 0.8с, p95 — 1.1с, p99 — 1.8с. Передали полную документацию, runbooks, Terraform-код и обучили команду клиента.

k6TerraformDocumentationRunbooks

Результаты через 3 месяца

До

  • Latency p95: 28 секунд
  • Uptime: ~94% (частые падения)
  • Стоимость OpenAI embeddings: $1,200/мес
  • Нет мониторинга и алертов
  • Деплой: вручную по SSH

После

  • Latency p95: 1.1 секунда (−96%)
  • Uptime: 99.97% за 3 месяца
  • Стоимость embeddings: $460/мес (−62%)
  • Grafana дашборды + PagerDuty алерты
  • GitOps: ArgoCD автодеплой за 4 минуты

"Мы потратили 3 месяца пытаясь оптимизировать это сами. InfoScale решили проблему за 5 дней. Теперь наши пользователи не замечают задержки — они просто получают ответы."

A
Alex M.
CTO, LegalAI SaaS (NDA)

Похожая задача?

Расскажите о вашей инфраструктуре — мы оценим задачу и предложим план за 24 часа.