Inference cost в 2026: сравнение 7 провайдеров на реальном workload

2025-10-10 · Мария Петрова

Inference cost в 2026

Раз в квартал мы пересчитываем экономику инференса на нашем workload. Делимся результатами последнего замера.

Методика

  • Трафик: 50k запросов из прода, случайная выборка за неделю
  • Средняя длина: 520 input / 140 output токенов
  • Метрика качества: LLM-as-judge score (Claude 3 Opus как судья) + human spot-check на 200 примерах
  • Latency: измерена с той же geo-зоны (Frankfurt)

Провайдеры в сравнении

  1. OpenAI GPT-4 Turbo
  2. OpenAI GPT-4o
  3. Anthropic Claude 3 Sonnet
  4. Anthropic Claude 3 Haiku
  5. Google Gemini 1.5 Pro
  6. Together AI (Llama-3-70B)
  7. Groq (Llama-3-70B)

Cost

Цены на октябрь 2025, $ per 1M запросов при нашем профиле:

Провайдер Input Output Total ($/1M req)
Claude 3 Haiku $0.25/Mtok $1.25/Mtok $310
Groq (Llama-3-70B) $0.59/Mtok $0.79/Mtok $420
Together (Llama-3-70B) $0.90/Mtok $0.90/Mtok $594
GPT-4o $2.50/Mtok $10.00/Mtok $2,700
Claude 3 Sonnet $3.00/Mtok $15.00/Mtok $3,660
Gemini 1.5 Pro $3.50/Mtok $10.50/Mtok $3,290
GPT-4 Turbo $10.00/Mtok $30.00/Mtok $9,400

Quality (judge score, шкала 1–5)

Провайдер Score
GPT-4 Turbo 4.42
Claude 3 Sonnet 4.39
GPT-4o 4.31
Gemini 1.5 Pro 4.18
Llama-3-70B (Groq) 3.92
Llama-3-70B (Together) 3.91
Claude 3 Haiku 3.78

Latency (p50 / p95, ms)

Провайдер p50 p95
Groq 180 320
Claude 3 Haiku 290 520
GPT-4o 450 890
Claude 3 Sonnet 420 780
Gemini 1.5 Pro 780 1400
GPT-4 Turbo 890 1640
Together 960 1800

Cost-to-quality frontier

Если откинуть Pareto-доминируемые варианты, остаётся: - Haiku — самая дешёвая «рабочая» опция для простых задач - Groq Llama-3 — лучшая latency при умеренной цене - Claude 3 Sonnet — лучший баланс quality/cost для среднего сегмента - GPT-4 Turbo — премиальное качество за деньги

GPT-4o и Gemini Pro в нашем workload оказались Pareto-доминируемыми Claude Sonnet — дороже или хуже по quality.

Выводы для практики

  1. Для production с 60%+ простых задач — Haiku или Groq на простые, Sonnet на сложные. Routing окупается.
  2. «Всегда самая дорогая» — почти гарантированная переплата 2–3x без заметного роста quality на большинстве workload'ов.
  3. Latency сильно разнится — если вы latency-sensitive (chat, voice), Groq стоит отдельного рассмотрения.
  4. Цены меняются быстро. Этот замер устареет через 2–3 месяца. Пересчитывайте.

Вывод

Разница между «дешёвым» и «дорогим» провайдером в нашем workload — 30x по стоимости при разнице в качестве ~15%. Правильный routing даёт почти всё преимущество цены без заметной деградации.


← Ко всем постам