Claude 3 vs GPT-4 для classification задач: наши бенчмарки

2026-03-05 · Мария Петрова

Claude 3 vs GPT-4 для classification задач

За последние 3 месяца мы мигрировали часть production workload с GPT-4 на Claude 3 Sonnet. Перед миграцией прогнали оба модели на нашем внутреннем бенчмарке — делимся результатами.

Задачи

Три classification задачи из разных доменов:

Intent classification — 12 классов, customer support sample (5000 labeled examples)
Content moderation — binary (safe / unsafe), синтетический dataset (3000 examples)
Document routing — 8 классов legal documents (1200 examples)

Для каждой задачи использовали few-shot prompts с 5 примерами, temperature=0.

Accuracy

Задача	Claude 3 Sonnet	GPT-4 Turbo
Intent classification	91.2%	89.7%
Content moderation	94.8%	95.1%
Document routing	87.5%	88.3%

Claude выигрывает на intent classification, GPT-4 — на остальных. Разница небольшая (≤ 1.5%).

Latency (p50 / p95)

Модель	p50	p95
Claude 3 Sonnet	420ms	780ms
GPT-4 Turbo	890ms	1640ms

Claude в 2x быстрее. Для classification с низкой латентностью — существенный плюс.

Cost

Посчитали на нашем реальном трафике (100k requests/день, avg ~500 input / 50 output tokens):

Модель	$ / 1M requests
Claude 3 Sonnet	$1,950
GPT-4 Turbo	$3,250

Claude ~40% дешевле.

Вывод

Для classification задач, где нужна скорость и cost — Claude 3 Sonnet. Accuracy сопоставима, а latency и cost заметно лучше. Для edge cases (content moderation с высокой ценой ошибки) пока оставили GPT-4.

Полные результаты и evaluation prompts — в нашем GitHub repo.

← Ко всем постам