Claude 3 vs GPT-4 для classification задач: наши бенчмарки

2026-03-05 · Мария Петрова

Claude 3 vs GPT-4 для classification задач

За последние 3 месяца мы мигрировали часть production workload с GPT-4 на Claude 3 Sonnet. Перед миграцией прогнали оба модели на нашем внутреннем бенчмарке — делимся результатами.

Задачи

Три classification задачи из разных доменов:

  1. Intent classification — 12 классов, customer support sample (5000 labeled examples)
  2. Content moderation — binary (safe / unsafe), синтетический dataset (3000 examples)
  3. Document routing — 8 классов legal documents (1200 examples)

Для каждой задачи использовали few-shot prompts с 5 примерами, temperature=0.

Accuracy

Задача Claude 3 Sonnet GPT-4 Turbo
Intent classification 91.2% 89.7%
Content moderation 94.8% 95.1%
Document routing 87.5% 88.3%

Claude выигрывает на intent classification, GPT-4 — на остальных. Разница небольшая (≤ 1.5%).

Latency (p50 / p95)

Модель p50 p95
Claude 3 Sonnet 420ms 780ms
GPT-4 Turbo 890ms 1640ms

Claude в 2x быстрее. Для classification с низкой латентностью — существенный плюс.

Cost

Посчитали на нашем реальном трафике (100k requests/день, avg ~500 input / 50 output tokens):

Модель $ / 1M requests
Claude 3 Sonnet $1,950
GPT-4 Turbo $3,250

Claude ~40% дешевле.

Вывод

Для classification задач, где нужна скорость и cost — Claude 3 Sonnet. Accuracy сопоставима, а latency и cost заметно лучше. Для edge cases (content moderation с высокой ценой ошибки) пока оставили GPT-4.

Полные результаты и evaluation prompts — в нашем GitHub repo.


← Ко всем постам