Claude 3 vs GPT-4 для classification задач: наши бенчмарки
2026-03-05 · Мария Петрова
Claude 3 vs GPT-4 для classification задач
За последние 3 месяца мы мигрировали часть production workload с GPT-4 на Claude 3 Sonnet. Перед миграцией прогнали оба модели на нашем внутреннем бенчмарке — делимся результатами.
Задачи
Три classification задачи из разных доменов:
- Intent classification — 12 классов, customer support sample (5000 labeled examples)
- Content moderation — binary (safe / unsafe), синтетический dataset (3000 examples)
- Document routing — 8 классов legal documents (1200 examples)
Для каждой задачи использовали few-shot prompts с 5 примерами, temperature=0.
Accuracy
| Задача | Claude 3 Sonnet | GPT-4 Turbo |
|---|---|---|
| Intent classification | 91.2% | 89.7% |
| Content moderation | 94.8% | 95.1% |
| Document routing | 87.5% | 88.3% |
Claude выигрывает на intent classification, GPT-4 — на остальных. Разница небольшая (≤ 1.5%).
Latency (p50 / p95)
| Модель | p50 | p95 |
|---|---|---|
| Claude 3 Sonnet | 420ms | 780ms |
| GPT-4 Turbo | 890ms | 1640ms |
Claude в 2x быстрее. Для classification с низкой латентностью — существенный плюс.
Cost
Посчитали на нашем реальном трафике (100k requests/день, avg ~500 input / 50 output tokens):
| Модель | $ / 1M requests |
|---|---|
| Claude 3 Sonnet | $1,950 |
| GPT-4 Turbo | $3,250 |
Claude ~40% дешевле.
Вывод
Для classification задач, где нужна скорость и cost — Claude 3 Sonnet. Accuracy сопоставима, а latency и cost заметно лучше. Для edge cases (content moderation с высокой ценой ошибки) пока оставили GPT-4.
Полные результаты и evaluation prompts — в нашем GitHub repo.
← Ко всем постам