OABench

Avaliamos modelos de IA nas 3 provas mais recentes da 1a fase da OAB para medir acurácia em múltiplas estratégias de resposta. Todos os modelos passariam no exame. Acesse o paper aqui.

Março 2026 · Protocolo direto · 240 questões · 11 modelos

11

Modelos avaliados

de 5 provedores

97.9%

Melhor acurácia

Gemini 3 Flash

240

Questões por modelo

3 edições (43o, 44o, 45o)

Ranking por Acurácia

Última atualização: 04/03/2026

Gemini 3 Flash
97.9%
GPT 5.2reasoning: medium
95.4%
Gemini 3.1 Pro
94.6%
Claude Opus 4.6
91.7%
Gemini 3.1 Flash Lite
87.5%
Claude Sonnet 4.6
86.7%
Grok 4.1 Fast
85%
GPT-5 Mini
78.3%
Claude Haiku 4.5
76.3%
Gemini 2.5 Flash Lite
75.8%
DeepSeek V3.2
73.3%
GoogleOpenAIAnthropicxAIDeepSeekLinha tracejada = 50% (nota de corte OAB)

Leaderboard Completo

Última atualização: 04/03/2026

#Modelo43o Exame44o Exame45o ExameTotalCustoLatência
1Gemini 3 Flash79/8076/8080/80235/240 (97.9%)$0.052.2s
2GPT 5.2reasoning: medium78/8076/8075/80229/240 (95.4%)$1.036.9s
3Gemini 3.1 Pro72/8077/8078/80227/240 (94.6%)$1.5712.5s
4Claude Opus 4.675/8073/8072/80220/240 (91.7%)$0.582.0s
5Gemini 3.1 Flash Lite68/8070/8072/80210/240 (87.5%)$0.022.2s
6Claude Sonnet 4.675/8067/8066/80208/240 (86.7%)$0.351.4s
7Grok 4.1 Fast70/8066/8068/80204/240 (85%)$0.1817.6s
8GPT-5 Mini63/8061/8064/80188/240 (78.3%)$0.4417.0s
9Claude Haiku 4.566/8062/8055/80183/240 (76.3%)$0.121.5s
10Gemini 2.5 Flash Lite63/8059/8060/80182/240 (75.8%)$0.011.0s
11DeepSeek V3.263/8052/8061/80176/240 (73.3%)$0.059.8s

Custo estimado via OpenRouter. Latência média por questão. Todos os modelos usaram protocolo direto (resposta = apenas a letra) com temperatura 0.


Metodologia

A metodologia completa pode ser encontrada em nosso paper.

Escopo

Questões objetivas das últimas 3 edições da 1a fase da OAB.

Métrica principal

Taxa de acerto = questões corretas / total de questões.

Como o benchmark é calculado

  1. Rodamos cada modelo nas 3 provas, para cada combinação da matriz.
  2. Extraímos a alternativa final (A, B, C ou D) por questão.
  3. Comparamos com o gabarito oficial da OAB.
  4. Agregamos os acertos por prova, cenário e modelo.

Detalhes operacionais completos em BENCHMARK_PIPELINE.md.