AI-стартап с 12 000 активных пользователей столкнулся с критической проблемой: их RAG-система давала ответы за 28 секунд, пользователи уходили. За 5 дней мы развернули production-инфраструктуру, которая снизила latency в 25 раз.
Клиент — B2B SaaS-стартап, который строит AI-ассистента для юридических команд. Ядро продукта — RAG-система, которая ищет по 50 000+ юридических документов и генерирует ответы с цитатами.
На момент обращения к нам: модель работала на одном GPU-сервере без балансировки, векторная база данных — на том же хосте, что и API, нет кэширования, нет мониторинга. При пиковой нагрузке latency достигала 28 секунд.
Провели полный аудит текущей инфраструктуры, замерили bottleneck'и (70% времени — embedding generation, 20% — vector search, 10% — LLM inference). Спроектировали целевую архитектуру: разделение сервисов, dedicated embedding service, Qdrant вместо Chroma.
Развернули Kubernetes-кластер на 3 нодах (2× CPU, 1× GPU A100 80GB). Настроили Ingress, cert-manager, namespace isolation. Мигрировали векторную базу данных на Qdrant с re-indexing 50 000 документов.
Заменили llama.cpp на vLLM с PagedAttention — throughput вырос в 4 раза. Развернули dedicated embedding service на базе bge-large-en-v1.5 (локально, без OpenAI API). Добавили semantic caching через Redis для повторяющихся запросов.
Настроили GitHub Actions → ArgoCD pipeline с автоматическим rollback при деградации метрик. Развернули Prometheus + Grafana с кастомными дашбордами: latency percentiles, GPU utilization, cache hit rate, vector search QPS.
Провели нагрузочное тестирование до 500 RPS. Финальные метрики: p50 latency — 0.8с, p95 — 1.1с, p99 — 1.8с. Передали полную документацию, runbooks, Terraform-код и обучили команду клиента.
"Мы потратили 3 месяца пытаясь оптимизировать это сами. InfoScale решили проблему за 5 дней. Теперь наши пользователи не замечают задержки — они просто получают ответы."
Расскажите о вашей инфраструктуре — мы оценим задачу и предложим план за 24 часа.