Benchmark Detail View

School Library Management

MEDIUM Challenge82 models testedTop Score: 79.9

Success Rate

59.1%

Quality Score

Tests Passed

Models Tested

School Library Benchmark - Individual Model Results

Showing 82 of 82 models

	Family
1 Claude 3 Haiku Claude • 08/2025 08/2025	Claude	08/2025	79.9	78.6%	92.0%
2 Grok 4 xAI • 08/2025 08/2025	xAI	08/2025	79.5	78.6%	88.0%
3 Horizon Beta Other • 08/2025 08/2025	Other	08/2025	78.1	78.6%	74.0%
4 OpenAI GPT-5.2 Chat OpenAI • 12/2025 12/2025	OpenAI	12/2025	76.7	75.0%	92.0%
5 Claude 4.6 Opus Claude • 02/2026 02/2026	Claude	02/2026	76.5	75.0%	90.0%
6 OpenAI GPT-5.1 Chat OpenAI • 11/2025 11/2025	OpenAI	11/2025	76.3	75.0%	88.0%
7 OpenAI o4-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	76.1	75.0%	86.0%
8 Claude 4.5 Sonnet Claude • 10/2025 10/2025	Claude	10/2025	76.1	75.0%	86.0%
9 R1 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	76.1	75.0%	86.0%
10 Openai Oss 120b OpenAI • 08/2025 08/2025	OpenAI	08/2025	76.1	75.0%	86.0%
11 OpenAI o1-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	75.9	75.0%	84.0%
12 Grok 3 Mini xAI • 08/2025 08/2025	xAI	08/2025	75.7	75.0%	82.0%
13 OpenAI o3-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	75.5	75.0%	80.0%
14 OpenAI o3-mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	75.5	75.0%	80.0%
15 OpenAI GPT-4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	75.3	75.0%	78.0%
16 Glm 4 7 Other • 12/2025 12/2025	Other	12/2025	74.7	75.0%	72.0%
17 OpenAI o4-mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	74.5	75.0%	70.0%
18 OpenAI GPT-5 OpenAI • 09/2025 09/2025	OpenAI	09/2025	74.5	75.0%	70.0%
19 OpenAI GPT-4.1 OpenAI • 08/2025 08/2025	OpenAI	08/2025	74.3	75.0%	68.0%
20 Nova Pro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	73.3	71.4%	90.0%
21 Mistral Medium 3 Mistral • 08/2025 08/2025	Mistral	08/2025	73.1	71.4%	88.0%
22 OpenAI GPT-5 mini OpenAI • 09/2025 09/2025	OpenAI	09/2025	72.9	75.0%	54.0%
23 OpenAI 5.1 Codex OpenAI • 11/2025 11/2025	OpenAI	11/2025	72.7	71.4%	84.0%
24 Claude 4 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	72.7	71.4%	84.0%
25 Kimi K2 Moonshot • 12/2025 12/2025	Moonshot	12/2025	72.5	71.4%	82.0%
26 Mimo V2 Flash Free Other • 12/2025 12/2025	Other	12/2025	72.5	71.4%	82.0%
27 OpenAI GPT-4.1 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	71.9	71.4%	76.0%
28 Sonoma Sky Alpha Other • 09/2025 09/2025	Other	09/2025	71.3	71.4%	70.0%
29 Nova Lite V1 Amazon • 08/2025 08/2025	Amazon	08/2025	70.9	67.9%	98.0%
30 OpenAI GPT-4o mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	70.7	71.4%	64.0%
31 OpenAI 5.1 Codex Mini OpenAI • 11/2025 11/2025	OpenAI	11/2025	70.1	67.9%	90.0%
32 OpenAI GPT-5 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	69.3	71.4%	50.0%
33 Coder Large Other • 08/2025 08/2025	Other	08/2025	66.9	64.3%	90.0%
34 Grok Code Fast 1 xAI • 09/2025 09/2025	xAI	09/2025	66.5	64.3%	86.0%
35 Nova Micro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	66.3	64.3%	84.0%
36 Gemini 3 Flash Google • 12/2025 12/2025	Google	12/2025	64.2	60.7%	96.0%
37 Gemini 3 Pro Preview Google • 11/2025 11/2025	Google	11/2025	64.0	60.7%	94.0%
38 Minimax M2 1 Other • 12/2025 12/2025	Other	12/2025	63.6	60.7%	90.0%
39 OpenAI GPT-5.2 OpenAI • 12/2025 12/2025	OpenAI	12/2025	63.4	60.7%	88.0%
40 Gemini 2.5 Flash Lite Google • 08/2025 08/2025	Google	08/2025	62.2	60.7%	76.0%
41 Openai Oss 20b OpenAI • 08/2025 08/2025	OpenAI	08/2025	62.2	60.7%	76.0%
42 Grok 3 xAI • 08/2025 08/2025	xAI	08/2025	60.8	57.1%	94.0%
43 Claude 4.5 Opus Claude • 11/2025 11/2025	Claude	11/2025	59.8	57.1%	84.0%
44 OpenAI 5 Codex OpenAI • 10/2025 10/2025	OpenAI	10/2025	59.2	57.1%	78.0%
45 DeepSeek V3 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	57.8	53.6%	96.0%
46 OpenAI 5.2 Codex OpenAI • 01/2026 01/2026	OpenAI	01/2026	57.4	53.6%	92.0%
47 DeepSeek V3 DeepSeek • 12/2025 12/2025	DeepSeek	12/2025	57.4	53.6%	92.0%
48 Mistral Large 2512 Mistral • 12/2025 12/2025	Mistral	12/2025	57.2	53.6%	90.0%
49 Llama 4 Scout Meta • 08/2025 08/2025	Meta	08/2025	56.8	53.6%	86.0%
50 Claude 4.1 Opus Claude • 08/2025 08/2025	Claude	08/2025	56.6	53.6%	84.0%
51 Gemini 2.5 Flash Google • 08/2025 08/2025	Google	08/2025	56.6	53.6%	84.0%
52 Qwen 3 Coder Alibaba • 10/2025 10/2025	Alibaba	10/2025	56.6	53.6%	84.0%
53 Gemini 2.0 Flash-001 Google • 08/2025 08/2025	Google	08/2025	56.2	53.6%	80.0%
54 OpenAI GPT-4 OpenAI • 08/2025 08/2025	OpenAI	08/2025	55.8	53.6%	76.0%
55 Qwen3 14b Alibaba • 08/2025 08/2025	Alibaba	08/2025	55.8	53.6%	76.0%
56 Gemini 2.5 Pro Google • 08/2025 08/2025	Google	08/2025	53.8	50.0%	88.0%
57 Kimi K2 Moonshot • 08/2025 08/2025	Moonshot	08/2025	53.8	50.0%	88.0%
58 Qwen 3 Coder Alibaba • 08/2025 08/2025	Alibaba	08/2025	53.2	50.0%	82.0%
59 Claude 4 Opus Claude • 08/2025 08/2025	Claude	08/2025	53.0	50.0%	80.0%
60 DeepSeek V3 DeepSeek • 10/2025 10/2025	DeepSeek	10/2025	52.6	50.0%	76.0%
61 Claude 3.7 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	51.2	46.4%	94.0%
62 Claude 3.7 Sonnet (Thinking) Claude • 08/2025 08/2025	Claude	08/2025	51.2	46.4%	94.0%
63 Claude 3.5 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	51.0	46.4%	92.0%
64 Qwen3 Max Alibaba • 10/2025 10/2025	Alibaba	10/2025	50.8	46.4%	90.0%
65 OpenAI GPT-4 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	50.6	46.4%	88.0%
66 Glm 4 5 Other • 08/2025 08/2025	Other	08/2025	50.6	46.4%	88.0%
67 Kimi K2 Moonshot • 10/2025 10/2025	Moonshot	10/2025	50.2	46.4%	84.0%
68 Claude 3.5 Haiku Claude • 08/2025 08/2025	Claude	08/2025	50.0	46.4%	82.0%
69 Glm 4 6 Other • 10/2025 10/2025	Other	10/2025	49.6	46.4%	78.0%
70 Claude 4.5 Haiku Claude • 10/2025 10/2025	Claude	10/2025	49.2	46.4%	74.0%
71 Grok 4 xAI • 10/2025 10/2025	xAI	10/2025	49.0	46.4%	72.0%
72 OpenAI GPT-4.1 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	48.2	46.4%	64.0%
73 Llama 4 Maverick Meta • 08/2025 08/2025	Meta	08/2025	47.8	42.9%	92.0%
74 Codestral 25.08 Mistral • 08/2025 08/2025	Mistral	08/2025	47.2	42.9%	86.0%
75 OpenAI GPT-5 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	46.0	42.9%	74.0%
76 OpenAI GPT-4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	44.6	39.3%	92.0%
77 OpenAI GPT-5 Chat OpenAI • 08/2025 08/2025	OpenAI	08/2025	44.4	39.3%	90.0%
78 Devstral 2512 Other • 12/2025 12/2025	Other	12/2025	44.0	39.3%	86.0%
79 OpenAI GPT-3.5 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	41.5	35.7%	94.0%
80 OpenAI GPT-5 OpenAI • 08/2025 08/2025	OpenAI	08/2025	41.4	39.3%	60.0%
81 OpenAI GPT-5.1 OpenAI • 11/2025 11/2025	OpenAI	11/2025	31.5	32.1%	26.0%
82 Command A Cohere • 08/2025 08/2025	Cohere	08/2025	13.0	3.6%	98.0%

Top Performers

School Library Champions

Claude

79.9

Claude 3 Haiku

Success Rate

78.6%

Tests Passed

Quality

Issues

28 total tests

xAI

79.5

Grok 4

Success Rate

78.6%

Tests Passed

Quality

Issues

28 total tests

Other

78.1

Horizon Beta

Success Rate

78.6%

Tests Passed

Quality

Issues

28 total tests

Explore More Benchmarks

See how models perform across different programming challenges and complexity levels.