Ruby LLM benchmarks - AI Model Performance Dashboard

Ruby LLM benchmarksAI Model Performance Dashboard

Comprehensive performance analysis of LLM models across all program fixing benchmarks - testing Ruby code generation capabilities through real programming challenges validated against test suites and RuboCop quality standards

4 Benchmarks

85 AI Models

59.7% Avg Success

Overall Performance Rankings - All Benchmarks Combined

Showing 85 of 85 models

	Family
1 Claude 4.6 Opus Claude • 02/2026 02/2026	Claude	02/2026	76.1	77.2%	66.5%
2 Claude 4 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	72.6	73.7%	62.5%
3 Claude 4.5 Sonnet Claude • 10/2025 10/2025	Claude	10/2025	72.3	73.2%	63.5%
4 OpenAI GPT-5.2 Chat OpenAI • 12/2025 12/2025	OpenAI	12/2025	72.1	71.6%	77.0%
5 Claude 4.5 Opus Claude • 11/2025 11/2025	Claude	11/2025	71.6	72.7%	61.5%
6 Claude 4.1 Opus Claude • 08/2025 08/2025	Claude	08/2025	71.3	73.2%	55.0%
7 Claude 4 Opus Claude • 08/2025 08/2025	Claude	08/2025	70.8	72.3%	58.0%
8 OpenAI GPT-4.1 OpenAI • 08/2025 08/2025	OpenAI	08/2025	70.8	73.1%	49.5%
9 Horizon Beta Other • 08/2025 08/2025	Other	08/2025	69.8	70.7%	61.5%
10 OpenAI GPT-5.1 Chat OpenAI • 11/2025 11/2025	OpenAI	11/2025	69.8	69.8%	69.0%
11 OpenAI 5.1 Codex OpenAI • 11/2025 11/2025	OpenAI	11/2025	69.4	68.1%	80.5%
12 Kimi K2 Moonshot • 12/2025 12/2025	Moonshot	12/2025	69.2	69.2%	69.5%
13 OpenAI GPT-5 OpenAI • 09/2025 09/2025	OpenAI	09/2025	68.8	69.8%	59.0%
14 OpenAI GPT-4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	68.7	68.6%	70.0%
15 Claude 3.7 Sonnet (Thinking) Claude • 08/2025 08/2025	Claude	08/2025	68.6	68.9%	65.5%
16 DeepSeek V3 DeepSeek • 12/2025 12/2025	DeepSeek	12/2025	68.6	68.5%	69.0%
17 OpenAI o3-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	68.5	69.0%	63.5%
18 OpenAI o1-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	68.3	68.8%	64.0%
19 Claude 3.5 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	68.0	67.0%	76.5%
20 R1 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	67.9	67.5%	71.5%
21 OpenAI o4-mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	67.7	67.5%	69.0%
22 Grok 3 xAI • 08/2025 08/2025	xAI	08/2025	67.3	67.3%	67.5%
23 Codestral 25.08 Mistral • 08/2025 08/2025	Mistral	08/2025	67.1	66.4%	73.5%
24 Glm 4 6 Other • 10/2025 10/2025	Other	10/2025	67.1	67.0%	67.5%
25 OpenAI GPT-5.2 OpenAI • 12/2025 12/2025	OpenAI	12/2025	66.9	65.4%	80.0%
26 Gemini 3 Flash Google • 12/2025 12/2025	Google	12/2025	66.9	66.9%	66.5%
27 Openai Oss 120b OpenAI • 08/2025 08/2025	OpenAI	08/2025	66.7	66.5%	68.5%
28 OpenAI 5.1 Codex Mini OpenAI • 11/2025 11/2025	OpenAI	11/2025	66.6	65.1%	80.5%
29 DeepSeek V3 DeepSeek • 10/2025 10/2025	DeepSeek	10/2025	66.2	66.2%	67.0%
30 OpenAI o3-mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	66.1	67.1%	57.0%
31 OpenAI o4-mini (High) OpenAI • 08/2025 08/2025	OpenAI	08/2025	65.2	65.2%	65.0%
32 OpenAI 5.2 Codex OpenAI • 01/2026 01/2026	OpenAI	01/2026	65.0	66.2%	54.0%
33 OpenAI 5 Codex OpenAI • 10/2025 10/2025	OpenAI	10/2025	64.6	64.5%	65.5%
34 Sonoma Sky Alpha Other • 09/2025 09/2025	Other	09/2025	64.4	66.2%	48.0%
35 Qwen3 Max Alibaba • 10/2025 10/2025	Alibaba	10/2025	64.1	65.1%	55.5%
36 OpenAI GPT-4 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	63.9	63.4%	68.0%
37 OpenAI GPT-4 OpenAI • 08/2025 08/2025	OpenAI	08/2025	63.8	63.0%	70.5%
38 Llama 4 Scout Meta • 08/2025 08/2025	Meta	08/2025	63.3	62.1%	73.5%
39 OpenAI GPT-5 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	63.3	65.6%	42.5%
40 Glm 4 7 Other • 12/2025 12/2025	Other	12/2025	63.2	63.8%	57.5%
41 OpenAI GPT-4.1 mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	63.0	63.2%	62.0%
42 Llama 4 Maverick Meta • 08/2025 08/2025	Meta	08/2025	63.0	62.1%	71.0%
43 OpenAI GPT-5 Chat OpenAI • 08/2025 08/2025	OpenAI	08/2025	62.5	61.6%	71.0%
44 Grok 4 xAI • 08/2025 08/2025	xAI	08/2025	62.2	61.5%	69.0%
45 Gemini 2.5 Flash Google • 08/2025 08/2025	Google	08/2025	62.2	62.2%	62.5%
46 OpenAI GPT-5 mini OpenAI • 09/2025 09/2025	OpenAI	09/2025	61.7	63.8%	42.5%
47 OpenAI GPT-4.1 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	61.6	62.2%	56.5%
48 OpenAI GPT-5 nano OpenAI • 09/2025 09/2025	OpenAI	09/2025	60.7	61.6%	52.7%
49 Qwen 3 Coder Alibaba • 10/2025 10/2025	Alibaba	10/2025	60.7	60.6%	61.5%
50 Claude 3.7 Sonnet Claude • 08/2025 08/2025	Claude	08/2025	60.3	60.1%	62.5%
51 Kimi K2 Moonshot • 10/2025 10/2025	Moonshot	10/2025	60.2	59.4%	66.5%
52 OpenAI GPT-5 nano OpenAI • 08/2025 08/2025	OpenAI	08/2025	60.1	59.9%	61.5%
53 Gemini 2.5 Pro Google • 08/2025 08/2025	Google	08/2025	60.0	58.7%	72.0%
54 OpenAI GPT-5 OpenAI • 08/2025 08/2025	OpenAI	08/2025	59.7	60.9%	48.5%
55 DeepSeek V3 DeepSeek • 08/2025 08/2025	DeepSeek	08/2025	59.6	57.6%	77.5%
56 Grok 4 xAI • 10/2025 10/2025	xAI	10/2025	59.3	60.8%	45.5%
57 Gemini 2.5 Flash Lite Google • 08/2025 08/2025	Google	08/2025	58.5	58.4%	59.5%
58 OpenAI GPT-5.1 OpenAI • 11/2025 11/2025	OpenAI	11/2025	57.4	57.9%	53.0%
59 Gemini 2.0 Flash-001 Google • 08/2025 08/2025	Google	08/2025	57.3	57.6%	55.0%
60 Claude 3.5 Haiku Claude • 08/2025 08/2025	Claude	08/2025	57.3	55.9%	70.0%
61 Claude 4.5 Haiku Claude • 10/2025 10/2025	Claude	10/2025	56.8	56.1%	63.5%
62 Mimo V2 Flash Free Other • 12/2025 12/2025	Other	12/2025	56.7	57.3%	52.0%
63 Grok Code Fast 1 xAI • 09/2025 09/2025	xAI	09/2025	56.2	54.9%	67.5%
64 OpenAI GPT-4o OpenAI • 08/2025 08/2025	OpenAI	08/2025	55.8	54.4%	68.5%
65 Mistral Medium 3 Mistral • 08/2025 08/2025	Mistral	08/2025	55.5	53.2%	76.5%
66 Grok 3 Mini xAI • 08/2025 08/2025	xAI	08/2025	55.0	54.6%	58.5%
67 Mistral Large 2512 Mistral • 12/2025 12/2025	Mistral	12/2025	54.3	52.2%	73.0%
68 Claude 3 Haiku Claude • 08/2025 08/2025	Claude	08/2025	53.9	50.7%	82.5%
69 Gemini 3 Pro Preview Google • 11/2025 11/2025	Google	11/2025	53.2	51.8%	65.0%
70 Devstral 2512 Other • 12/2025 12/2025	Other	12/2025	52.1	49.4%	76.5%
71 Kimi K2 Moonshot • 08/2025 08/2025	Moonshot	08/2025	52.1	50.2%	69.5%
72 Nova Pro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	51.9	49.4%	74.5%
73 OpenAI GPT-4o mini OpenAI • 08/2025 08/2025	OpenAI	08/2025	51.7	49.9%	68.0%
74 Coder Large Other • 08/2025 08/2025	Other	08/2025	50.6	49.1%	63.5%
75 Qwen 3 Coder Alibaba • 08/2025 08/2025	Alibaba	08/2025	49.7	48.5%	60.5%
76 Minimax M2 1 Other • 12/2025 12/2025	Other	12/2025	48.8	46.2%	72.0%
77 Openai Oss 20b OpenAI • 08/2025 08/2025	OpenAI	08/2025	48.2	45.8%	70.0%
78 Glm 4 5 Other • 08/2025 08/2025	Other	08/2025	48.0	44.2%	82.0%
79 Nova Lite V1 Amazon • 08/2025 08/2025	Amazon	08/2025	47.5	43.1%	87.0%
80 OpenAI GPT-3.5 Turbo OpenAI • 08/2025 08/2025	OpenAI	08/2025	45.3	41.1%	83.5%
81 Qwen3 14b Alibaba • 08/2025 08/2025	Alibaba	08/2025	44.8	41.9%	70.7%
82 Magnum V4 72B NousResearch • 08/2025 08/2025	NousResearch	08/2025	43.6	38.7%	88.0%
83 Nova Micro V1 Amazon • 08/2025 08/2025	Amazon	08/2025	38.3	34.3%	75.0%
84 Gemma 3 4B IT Google • 08/2025 08/2025	Google	08/2025	29.7	25.9%	64.0%
85 Command A Cohere • 08/2025 08/2025	Cohere	08/2025	10.6	2.3%	86.0%

How Scoring Works

90%

Test Success Rate

Percentage of test cases that pass. This measures whether the AI-generated code actually works correctly.

10%

Code Quality

Based on RuboCop static analysis. Quality score decreases linearly from 100 to 0 as offenses increase from 0 to 50.

RuboCop uses strict default settings and may not reflect real-world code quality preferences. The quality score should be interpreted as adherence to Ruby style guidelines rather than overall code quality.

📐