Production Infra Box · 5 дней

RAG-система для AI-стартапа: от 28 секунд до 1.1 секунды

AI-стартап с 12 000 активных пользователей столкнулся с критической проблемой: их RAG-система давала ответы за 28 секунд, пользователи уходили. За 5 дней мы развернули production-инфраструктуру, которая снизила latency в 25 раз.

дней до запуска

25×

снижение latency

99.97%

uptime за 3 месяца

−62%

стоимость инференса

Контекст и проблема

Клиент — B2B SaaS-стартап, который строит AI-ассистента для юридических команд. Ядро продукта — RAG-система, которая ищет по 50 000+ юридических документов и генерирует ответы с цитатами.

На момент обращения к нам: модель работала на одном GPU-сервере без балансировки, векторная база данных — на том же хосте, что и API, нет кэширования, нет мониторинга. При пиковой нагрузке latency достигала 28 секунд.

Исходный стек

✕1× GPU-сервер (A10G, 24 GB VRAM)
✕LLM: Mistral-7B через llama.cpp
✕Vector DB: Chroma (in-process)
✕Embeddings: OpenAI text-embedding-3-small
✕Деплой: Docker Compose на одном хосте
✕Мониторинг: отсутствует

Что мы сделали за 5 дней

День 1

Аудит и архитектура

Провели полный аудит текущей инфраструктуры, замерили bottleneck'и (70% времени — embedding generation, 20% — vector search, 10% — LLM inference). Спроектировали целевую архитектуру: разделение сервисов, dedicated embedding service, Qdrant вместо Chroma.

ProfilingArchitecture DesignQdrantvLLM

День 2

Kubernetes-кластер и сети

Развернули Kubernetes-кластер на 3 нодах (2× CPU, 1× GPU A100 80GB). Настроили Ingress, cert-manager, namespace isolation. Мигрировали векторную базу данных на Qdrant с re-indexing 50 000 документов.

KubernetesQdrantHelmcert-manager

День 3

LLM и Embedding сервисы

Заменили llama.cpp на vLLM с PagedAttention — throughput вырос в 4 раза. Развернули dedicated embedding service на базе bge-large-en-v1.5 (локально, без OpenAI API). Добавили semantic caching через Redis для повторяющихся запросов.

vLLMbge-largeRedisPagedAttention

День 4

CI/CD и мониторинг

Настроили GitHub Actions → ArgoCD pipeline с автоматическим rollback при деградации метрик. Развернули Prometheus + Grafana с кастомными дашбордами: latency percentiles, GPU utilization, cache hit rate, vector search QPS.

ArgoCDPrometheusGrafanaGitHub Actions

День 5

Нагрузочное тестирование и передача

Провели нагрузочное тестирование до 500 RPS. Финальные метрики: p50 latency — 0.8с, p95 — 1.1с, p99 — 1.8с. Передали полную документацию, runbooks, Terraform-код и обучили команду клиента.

k6TerraformDocumentationRunbooks

Результаты через 3 месяца

До

✕Latency p95: 28 секунд
✕Uptime: ~94% (частые падения)
✕Стоимость OpenAI embeddings: $1,200/мес
✕Нет мониторинга и алертов
✕Деплой: вручную по SSH

После

Latency p95: 1.1 секунда (−96%)
Uptime: 99.97% за 3 месяца
Стоимость embeddings: $460/мес (−62%)
Grafana дашборды + PagerDuty алерты
GitOps: ArgoCD автодеплой за 4 минуты

"Мы потратили 3 месяца пытаясь оптимизировать это сами. InfoScale решили проблему за 5 дней. Теперь наши пользователи не замечают задержки — они просто получают ответы."

Alex M.

CTO, LegalAI SaaS (NDA)

Похожая задача?

Расскажите о вашей инфраструктуре — мы оценим задачу и предложим план за 24 часа.

Обсудить проект Посмотреть Production Infra Box