Benchmark Detail View

Parking Garage Management

HARD Challenge94 models testedTop Score: 67.1

Success Rate

43.2%

Quality Score

Tests Passed

Models Tested

Parking Garage Benchmark - Individual Model Results

Showing 94 of 94 models

	Family
1 Claude 3.7 Sonnet (Thinking) Anthropic • 08/2025 08/2025	Anthropic	08/2025	67.1	69.2%	48.0%
2 Claude 4.6 Sonnet Anthropic • 02/2026 02/2026	Anthropic	02/2026	66.3	69.2%	40.0%
3 DeepSeek V3.2 Exp DeepSeek • 12/2025 12/2025	DeepSeek	12/2025	66.3	69.2%	40.0%
4 Claude 4.6 Opus Anthropic • 02/2026 02/2026	Anthropic	02/2026	65.9	69.2%	36.0%
5 Grok 3 xAI • 08/2025 08/2025	xAI	08/2025	65.9	69.2%	36.0%
6 Claude 4.5 Opus Anthropic • 11/2025 11/2025	Anthropic	11/2025	64.3	69.2%	20.0%
7 Claude 4 Opus Anthropic • 08/2025 08/2025	Anthropic	08/2025	64.1	69.2%	18.0%
8 DeepSeek V3 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	64.1	64.1%	64.0%
9 Claude 3.5 Sonnet Anthropic • 08/2025 08/2025	Anthropic	08/2025	63.4	61.5%	80.0%
10 Claude 4 Sonnet Anthropic • 08/2025 08/2025	Anthropic	08/2025	63.2	66.7%	32.0%
11 Claude 4.1 Opus Anthropic • 08/2025 08/2025	Anthropic	08/2025	62.9	69.2%	6.0%
12 Claude 4.5 Sonnet Anthropic • 10/2025 10/2025	Anthropic	10/2025	62.8	66.7%	28.0%
13 GLM 5 Z.AI • 02/2026 02/2026	Z.AI	02/2026	62.3	69.2%	0.0%
14 Codestral 25.08 Mistral • 08/2025 08/2025	Mistral	08/2025	60.6	61.5%	52.0%
15 GLM 4.6 Z.AI • 10/2025 10/2025	Z.AI	10/2025	60.0	61.5%	46.0%
16 Qwen3 Coder Next Qwen • 02/2026 02/2026	Qwen	02/2026	59.1	64.1%	14.0%
17 DeepSeek V3.2 Exp DeepSeek • 10/2025 10/2025	DeepSeek	10/2025	58.1	59.0%	50.0%
18 GPT 4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	55.5	53.8%	70.0%
19 GPT 5.4 OpenAI • 03/2026 03/2026	OpenAI	03/2026	54.1	51.3%	80.0%
20 GPT 5.3 Codex OpenAI • 02/2026 02/2026	OpenAI	02/2026	53.4	51.3%	72.0%
21 Devstral 25.12 Mistral • 12/2025 12/2025	Mistral	12/2025	53.1	51.3%	70.0%
22 GPT 5.2 OpenAI • 12/2025 12/2025	OpenAI	12/2025	51.8	51.3%	56.0%
23 GPT 5 OpenAI • 08/2025 08/2025	OpenAI	08/2025	51.5	51.3%	54.0%
24 Gemini 3 Flash Preview Google • 12/2025 12/2025	Google	12/2025	50.4	51.3%	42.0%
25 Qwen3 Max Qwen • 10/2025 10/2025	Qwen	10/2025	50.3	53.8%	18.0%
26 GLM 4.7 Z.AI • 12/2025 12/2025	Z.AI	12/2025	50.1	51.3%	40.0%
27 Gemini 3.1 Pro Preview Google • 02/2026 02/2026	Google	02/2026	50.0	51.3%	38.0%
28 Claude 3.7 Sonnet Anthropic • 08/2025 08/2025	Anthropic	08/2025	49.1	51.3%	30.0%
29 GPT 5.1 OpenAI • 11/2025 11/2025	OpenAI	11/2025	48.6	48.7%	48.0%
30 GPT 5.3 Chat OpenAI • 03/2026 03/2026	OpenAI	03/2026	48.0	48.7%	42.0%
31 Kimi K2.5 Moonshot AI • 02/2026 02/2026	Moonshot AI	02/2026	48.0	51.3%	18.0%
32 Grok 4.1 Fast xAI • 02/2026 02/2026	xAI	02/2026	47.9	48.7%	40.0%
33 Kimi K2 (0905) Moonshot AI • 10/2025 10/2025	Moonshot AI	10/2025	47.6	48.7%	38.0%
34 Horizon Beta Other • 08/2025 08/2025	Other	08/2025	47.3	48.7%	34.0%
35 GPT 4.1 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	46.7	46.2%	52.0%
36 GPT 5 OpenAI • 09/2025 09/2025	OpenAI	09/2025	46.6	48.7%	28.0%
37 GPT 5.2 Codex OpenAI • 01/2026 01/2026	OpenAI	01/2026	46.5	51.3%	4.0%
38 GPT 4.1 OpenAI • 08/2025 08/2025	OpenAI	08/2025	46.3	48.7%	24.0%
39 GPT 5 OpenAI • 08/2025 08/2025	OpenAI	08/2025	45.5	48.7%	16.0%
40 DeepSeek R1 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	45.4	43.6%	62.0%
41 Llama 4 Scout Meta • 08/2025 08/2025	Meta	08/2025	45.0	43.6%	58.0%
42 Qwen3 Coder Plus Qwen • 10/2025 10/2025	Qwen	10/2025	44.9	46.2%	34.0%
43 Mistral Large 25.12 Mistral • 12/2025 12/2025	Mistral	12/2025	44.8	43.6%	56.0%
44 GPT 5.1 Codex OpenAI • 11/2025 11/2025	OpenAI	11/2025	44.7	41.0%	78.0%
45 GPT 4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	44.4	43.6%	52.0%
46 Claude 4.5 Haiku Anthropic • 10/2025 10/2025	Anthropic	10/2025	44.2	43.6%	50.0%
47 Kimi K2 Moonshot AI • 08/2025 08/2025	Moonshot AI	08/2025	44.2	43.6%	50.0%
48 MIMO V2 Flash Minimax • 12/2025 12/2025	Minimax	12/2025	43.5	46.2%	20.0%
49 Kimi K2 Thinking Moonshot AI • 12/2025 12/2025	Moonshot AI	12/2025	42.5	41.0%	56.0%
50 Llama 4 Maverick Meta • 08/2025 08/2025	Meta	08/2025	42.5	41.0%	56.0%
51 GPT 5.2 OpenAI • 12/2025 12/2025	OpenAI	12/2025	42.5	41.0%	56.0%
52 GPT 5.1 OpenAI • 11/2025 11/2025	OpenAI	11/2025	42.2	43.6%	30.0%
53 Mistral Medium 3 Mistral • 08/2025 08/2025	Mistral	08/2025	41.6	38.5%	70.0%
54 o3 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	40.7	41.0%	38.0%
55 MiniMax M2.5 Minimax • 02/2026 02/2026	Minimax	02/2026	40.5	41.0%	36.0%
56 GPT 4 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	40.4	38.5%	58.0%
57 Qwen3 Coder Qwen • 08/2025 08/2025	Qwen	08/2025	40.3	41.0%	34.0%
58 GPT 4 OpenAI • 08/2025 08/2025	OpenAI	08/2025	39.8	38.5%	52.0%
59 Gemini 2.0 Flash 001 Google • 08/2025 08/2025	Google	08/2025	39.6	43.6%	4.0%
60 DeepSeek V3.2 Speciale DeepSeek • 02/2026 02/2026	DeepSeek	02/2026	39.3	41.0%	24.0%
61 Sonoma Sky Alpha Other • 09/2025 09/2025	Other	09/2025	39.3	41.0%	24.0%
62 Grok 4 xAI • 08/2025 08/2025	xAI	08/2025	39.2	38.5%	46.0%
63 GPT 5 Codex OpenAI • 10/2025 10/2025	OpenAI	10/2025	38.9	41.0%	20.0%
64 Trinity Large Preview Arcee AI • 02/2026 02/2026	Arcee AI	02/2026	38.6	38.5%	40.0%
65 Grok 4 Fast xAI • 10/2025 10/2025	xAI	10/2025	38.3	41.0%	14.0%
66 Nova 2 Lite V1 Amazon • 02/2026 02/2026	Amazon	02/2026	38.0	38.5%	34.0%
67 o1 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	37.1	35.9%	48.0%
68 GPT 3.5 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	36.4	33.3%	64.0%
69 MiniMax M2.1 Minimax • 12/2025 12/2025	Minimax	12/2025	36.1	35.9%	38.0%
70 Claude 3 Haiku Anthropic • 08/2025 08/2025	Anthropic	08/2025	36.0	33.3%	60.0%
71 Qwen3 14B Qwen • 08/2025 08/2025	Qwen	08/2025	35.0	33.3%	50.0%
72 o4 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	32.9	30.8%	52.0%
73 GPT 5.1 Codex Mini OpenAI • 11/2025 11/2025	OpenAI	11/2025	32.8	28.2%	74.0%
74 Grok Code Fast 1 xAI • 09/2025 09/2025	xAI	09/2025	32.3	30.8%	46.0%
75 o3 mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	31.8	33.3%	18.0%
76 OSS 20B OpenAI • 08/2025 08/2025	OpenAI	08/2025	31.6	28.2%	62.0%
77 GPT 5 mini OpenAI • 09/2025 09/2025	OpenAI	09/2025	31.2	33.3%	12.0%
78 Gemini 3 Pro Preview Google • 11/2025 11/2025	Google	11/2025	30.1	30.8%	24.0%
79 Gemini 2.5 Flash Google • 08/2025 08/2025	Google	08/2025	29.7	30.8%	20.0%
80 GPT 5 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	29.0	28.2%	36.0%
81 GPT 5 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	28.9	30.8%	12.0%
82 o4 mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	27.9	25.6%	48.0%
83 Nova Micro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	27.0	23.1%	62.0%
84 Nova Lite V1 Amazon • 08/2025 08/2025	Amazon	08/2025	23.8	17.9%	76.0%
85 Gemini 2.5 Pro Google • 08/2025 08/2025	Google	08/2025	23.5	20.5%	50.0%
86 Grok 3 Mini xAI • 08/2025 08/2025	xAI	08/2025	23.4	23.1%	26.0%
87 GPT 5 nano OpenAI • 09/2025 09/2025	OpenAI	09/2025	22.7	20.5%	42.0%
88 OSS 120B OpenAI • 08/2025 08/2025	OpenAI	08/2025	20.4	17.9%	42.0%
89 Gemini 2.5 Flash Lite Google • 08/2025 08/2025	Google	08/2025	19.1	20.5%	6.0%
90 GPT 4o mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	19.0	15.4%	52.0%
91 Claude 3.5 Haiku Anthropic • 08/2025 08/2025	Anthropic	08/2025	16.9	12.8%	54.0%
92 Nova Pro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	14.6	10.3%	54.0%
93 GPT 4.1 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	11.9	12.8%	4.0%
94 Coder Large Other • 08/2025 08/2025	Other	08/2025	9.3	7.7%	24.0%

Top Performers

Parking Garage Champions

Anthropic

67.1

Claude 3.7 Sonnet (Thinking)

Success Rate

69.2%

Tests Passed

Quality

Issues

39 total tests

Anthropic

66.3

Claude 4.6 Sonnet

Success Rate

69.2%

Tests Passed

Quality

Issues

39 total tests

DeepSeek

66.3

DeepSeek V3.2 Exp

Success Rate

69.2%

Tests Passed

Quality

Issues

39 total tests

Explore More Benchmarks

See how models perform across different programming challenges and complexity levels.