Escopo
Questões objetivas das últimas 3 edições da 1a fase da OAB.
Avaliamos modelos de IA nas 3 provas mais recentes da 1a fase da OAB para medir acurácia em múltiplas estratégias de resposta. Todos os modelos passariam no exame. Acesse o paper aqui.
Março 2026 · Protocolo direto · 240 questões · 11 modelos
11
Modelos avaliados
de 5 provedores
97.9%
Melhor acurácia
Gemini 3 Flash
240
Questões por modelo
3 edições (43o, 44o, 45o)
Última atualização: 04/03/2026
Última atualização: 04/03/2026
| # | Modelo | 43o Exame | 44o Exame | 45o Exame | Total | Custo | Latência |
|---|---|---|---|---|---|---|---|
| 1 | Gemini 3 Flash | 79/80 | 76/80 | 80/80 | 235/240 (97.9%) | $0.05 | 2.2s |
| 2 | GPT 5.2reasoning: medium | 78/80 | 76/80 | 75/80 | 229/240 (95.4%) | $1.03 | 6.9s |
| 3 | Gemini 3.1 Pro | 72/80 | 77/80 | 78/80 | 227/240 (94.6%) | $1.57 | 12.5s |
| 4 | Claude Opus 4.6 | 75/80 | 73/80 | 72/80 | 220/240 (91.7%) | $0.58 | 2.0s |
| 5 | Gemini 3.1 Flash Lite | 68/80 | 70/80 | 72/80 | 210/240 (87.5%) | $0.02 | 2.2s |
| 6 | Claude Sonnet 4.6 | 75/80 | 67/80 | 66/80 | 208/240 (86.7%) | $0.35 | 1.4s |
| 7 | Grok 4.1 Fast | 70/80 | 66/80 | 68/80 | 204/240 (85%) | $0.18 | 17.6s |
| 8 | GPT-5 Mini | 63/80 | 61/80 | 64/80 | 188/240 (78.3%) | $0.44 | 17.0s |
| 9 | Claude Haiku 4.5 | 66/80 | 62/80 | 55/80 | 183/240 (76.3%) | $0.12 | 1.5s |
| 10 | Gemini 2.5 Flash Lite | 63/80 | 59/80 | 60/80 | 182/240 (75.8%) | $0.01 | 1.0s |
| 11 | DeepSeek V3.2 | 63/80 | 52/80 | 61/80 | 176/240 (73.3%) | $0.05 | 9.8s |
Custo estimado via OpenRouter. Latência média por questão. Todos os modelos usaram protocolo direto (resposta = apenas a letra) com temperatura 0.
A metodologia completa pode ser encontrada em nosso paper.
Questões objetivas das últimas 3 edições da 1a fase da OAB.
Taxa de acerto = questões corretas / total de questões.
Detalhes operacionais completos em BENCHMARK_PIPELINE.md.