OABench

Avaliamos modelos de IA nas 3 provas mais recentes da 1a fase da OAB para medir acurácia em múltiplas estratégias de resposta. Todos os modelos passariam no exame. Acesse o paper aqui.

Abril 2026 · Protocolo direto · 240 questões · 15 modelos

Modelos avaliados

de 5 provedores

96.7%

Melhor acurácia

Gemini 3 Flash

240

Questões por modelo

3 edições (43o, 44o, 45o)

Ranking por Acurácia

Última atualização: 26/04/2026

Gemini 3 Flash

96.7%

GPT 5.2reasoning: medium

95.4%

Gemini 3.1 Pro

94.6%

Claude Opus 4.6

91.7%

Gemini 3.1 Flash Lite

87.5%

Claude Sonnet 4.6

86.7%

Grok 4.1 Fast

85%

DeepSeek V4 Flash

82.1%

GPT 5.4 Mini

81.3%

DeepSeek V4 Proreasoning: native

78.8%

GPT-5 Mini

78.3%

Claude Haiku 4.5

76.3%

Gemini 2.5 Flash Lite

75.8%

DeepSeek V3.2

73.3%

GPT 5.4 Nano

59.2%

GoogleOpenAIAnthropicxAIDeepSeekLinha tracejada = 50% (nota de corte OAB)

Leaderboard Completo

Última atualização: 26/04/2026

#	Modelo	43o Exame	44o Exame	45o Exame	Total	Custo	Latência
1	Gemini 3 Flash	79/80	75/80	78/80	232/240 (96.7%)	$0.05	3.3s
2	GPT 5.2reasoning: medium	78/80	76/80	75/80	229/240 (95.4%)	$1.03	6.9s
3	Gemini 3.1 Pro	72/80	77/80	78/80	227/240 (94.6%)	$1.57	12.5s
4	Claude Opus 4.6	75/80	73/80	72/80	220/240 (91.7%)	$0.58	2.0s
5	Gemini 3.1 Flash Lite	68/80	70/80	72/80	210/240 (87.5%)	$0.02	2.2s
6	Claude Sonnet 4.6	75/80	67/80	66/80	208/240 (86.7%)	$0.35	1.4s
7	Grok 4.1 Fast	70/80	66/80	68/80	204/240 (85%)	$0.18	17.6s
8	DeepSeek V4 Flash	65/80	68/80	64/80	197/240 (82.1%)	$0.05	8.6s
9	GPT 5.4 Mini	71/80	63/80	61/80	195/240 (81.3%)	$0.07	0.8s
10	DeepSeek V4 Proreasoning: native	67/80	67/80	55/80	189/240 (78.8%)	$0.19	23.4s
11	GPT-5 Mini	63/80	61/80	64/80	188/240 (78.3%)	$0.44	17.0s
12	Claude Haiku 4.5	66/80	62/80	55/80	183/240 (76.3%)	$0.12	1.5s
13	Gemini 2.5 Flash Lite	63/80	59/80	60/80	182/240 (75.8%)	$0.01	1.0s
14	DeepSeek V3.2	63/80	52/80	61/80	176/240 (73.3%)	$0.05	9.8s
15	GPT 5.4 Nano	54/80	43/80	45/80	142/240 (59.2%)	$0.02	0.7s

Custo estimado via OpenRouter. Latência média por questão. Todos os modelos usaram protocolo direto (resposta = apenas a letra) com temperatura 0.

Metodologia

A metodologia completa pode ser encontrada em nosso paper.

Escopo

Questões objetivas das últimas 3 edições da 1a fase da OAB.

Métrica principal

Taxa de acerto = questões corretas / total de questões.

Como o benchmark é calculado

Rodamos cada modelo nas 3 provas, para cada combinação da matriz.
Extraímos a alternativa final (A, B, C ou D) por questão.
Comparamos com o gabarito oficial da OAB.
Agregamos os acertos por prova, cenário e modelo.

Detalhes operacionais completos em BENCHMARK_PIPELINE.md.