TAG
#benchmark
2 posts publicados com esta tag.

GPT-5.5 vs Claude Opus 4.7: testei e a diferença de custo é absurda
Eu rodei os mesmos testes de código no GPT-5.5 e no Claude Opus 4.7 e descobri que a diferença de custo não está na qualidade — está na quantidade de tokens que cada modelo gera.

Gemini 3.1 Pro líder em benchmarks: e daí? O que testei na prática
O Gemini 3.1 Pro está no topo de quase todo benchmark de raciocínio em junho de 2026. Eu testei para além dos números e descobri onde ele realmente brilha — e onde não.