ipbr · live llm coding scoreboard

Models drift. Agents battle. Math decides.

live · refreshed 2026-05-17T05:27:58.480414792Z · 14 sources · 32 models

claude-opus-4.788.2
claude-opus-4.683.8
kimi-k2.682.8

leaders now

[ idea ]

1claude-opus-4.795.9 up 1.0 since last refresh
2claude-opus-4.694.0 down 0.2 since last refresh
3gemini-3.1-pro-preview88.4 down 6.3 since last refresh

[ plan ]

1gemini-3.1-pro-preview86.4 down 3.9 since last refresh
2claude-opus-4.784.8 up 0.1 since last refresh
3gpt-5.584.1 up 0.1 since last refresh

[ build ]

1claude-opus-4.786.3 up 2.1 since last refresh
2claude-opus-4.686.3
3kimi-k2.681.1 down 0.7 since last refresh

[ review ]

1kimi-k2.686.5 down 0.3 since last refresh
2claude-opus-4.786.0 up 0.5 since last refresh
3deepseek-v4-pro83.6 down 0.2 since last refresh

how scoring works

Each model gets four role scores from public benchmarks. Idea measures open-ended creativity. Plan measures structured reasoning, function-calling, and multi-step decomposition. Build measures implementation skill — SWE-bench, LiveCodeBench, terminal tasks. Review measures preference judgment.

scoring

Each role score is the benchmark composite for that role, normalized to 0-100 and combined via weighted average of group scores. See the about page for the full math.

missing data

If a model is missing some metrics within a group, the group score blends from shrink-to-50 to trusting the present metrics across 60-80% group coverage. At 80% coverage and above, the present-weight mean is trusted directly.

Full math, role definitions, and source list →


claude-opus-4.7	anthropic	95.9 up 1.0 since last refresh	84.8 up 0.1 since last refresh	86.3 up 2.1 since last refresh	86.0 up 0.5 since last refresh	▸
group breakdown A_B86.84 / 32A_I95.91 / 32A_P74.12 / 32A_R82.311 / 32BUILD88.21 / 32CRE97.74 / 32GEN98.02 / 32LM_ARENA_REVIEW_PROXY100.01 / 32OPS_long77.223 / 32OPS_precision73.124 / 32OPS_review76.024 / 32PLAN81.55 / 32 metrics AI_code95.23 / 32AI_complexity96.63 / 32AI_context_awareness11.99 / 32AI_correctness100.03 / 32AI_edge_cases100.03 / 32AI_efficiency98.53 / 32AI_hallucination_resistance0.032 / 32AI_memory_retention11.114 / 32AI_parameter_accuracy52.926 / 32AI_plan_coherence66.19 / 32AI_recovery100.04 / 32AI_refusal100.03 / 32AI_spec100.03 / 32AI_stability98.29 / 32AI_task_completion75.78 / 32AI_tool_selection81.26 / 32ARC_AGI_293.53 / 25ArtificialAnalysisCoding94.33 / 32ArtificialAnalysisIntelligence100.01 / 32ArtificialAnalysisReasoning97.43 / 32BlendedCost49.628 / 31ContextWindow99.211 / 30CopilotArenaOrLMArenaCode100.02 / 32GDPval95.01 / 32GPQA_HLE_Reasoning97.43 / 32GSO100.01 / 16IFBench44.720 / 32LMArenaCreativeOrOpenEnded97.74 / 32LMArenaSearchDocument100.01 / 30LMArenaText97.74 / 32LongContextRecall86.49 / 32MCPAtlas100.01 / 28OutputSpeed78.618 / 32SWEBenchMultilingual95.03 / 27SWEBenchPro95.02 / 29SWEBenchVerified95.04 / 31SWEComposite91.16 / 32SWERebench85.310 / 31SciCode95.23 / 32SonarBugDensity65.512 / 20SonarComposite56.315 / 32SonarFunctionalSkill93.92 / 20SonarIssueDensity8.117 / 20SonarVulnerabilityDensity24.217 / 20TTFT70.725 / 32Tau2Bench79.616 / 32TerminalBench78.24 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarmissing none
claude-opus-4.6	anthropic	94.0 down 0.2 since last refresh	78.7 up 0.1 since last refresh	86.3	76.2 up 0.1 since last refresh	▸
group breakdown A_B92.61 / 32A_I90.33 / 32A_P69.54 / 32A_R99.91 / 32BUILD87.82 / 32CRE100.01 / 32GEN89.93 / 32LM_ARENA_REVIEW_PROXY32.520 / 32OPS_long75.724 / 32OPS_precision72.825 / 32OPS_review75.425 / 32PLAN75.511 / 32 metrics AI_canary_health59.14 / 5AI_code99.12 / 32AI_complexity72.96 / 32AI_context_awareness3.620 / 32AI_correctness100.02 / 32AI_edge_cases100.02 / 32AI_efficiency84.88 / 32AI_hallucination_resistance100.01 / 32AI_memory_retention17.912 / 32AI_parameter_accuracy63.025 / 32AI_plan_coherence42.513 / 32AI_recovery100.03 / 32AI_refusal100.02 / 32AI_spec100.02 / 32AI_stability100.03 / 32AI_task_completion65.013 / 32AI_tool_selection100.01 / 32ARC_AGI_291.84 / 25ArtificialAnalysisCoding79.15 / 32ArtificialAnalysisIntelligence84.36 / 32ArtificialAnalysisReasoning87.56 / 32BlendedCost49.627 / 31ContextWindow99.210 / 30CopilotArenaOrLMArenaCode100.01 / 32GDPval84.47 / 32GPQA_HLE_Reasoning87.56 / 32GSO75.33 / 16IFBench29.527 / 32LMArenaCreativeOrOpenEnded100.01 / 32LMArenaSearchDocument32.518 / 30LMArenaText100.01 / 32LongContextRecall88.06 / 32MCPAtlas93.52 / 28OutputSpeed75.225 / 32SWEBenchMultilingual91.914 / 27SWEBenchPro100.01 / 29SWEBenchVerified99.43 / 31SWEComposite95.72 / 32SWERebench91.68 / 31SciCode80.96 / 32SonarBugDensity72.09 / 20SonarComposite74.55 / 32SonarFunctionalSkill92.24 / 20SonarIssueDensity54.87 / 20SonarVulnerabilityDensity63.69 / 20TTFT72.623 / 32Tau2Bench87.512 / 32TerminalBench64.212 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebenchswebench_proswerebenchterminal_benchmissing none
kimi-k2.6	moonshot	81.9 down 0.1 since last refresh	81.9	81.1 down 0.7 since last refresh	86.5 down 0.3 since last refresh	▸
group breakdown A_B65.614 / 32A_I80.010 / 32A_P56.817 / 32A_R85.110 / 32BUILD83.54 / 32CRE80.88 / 32GEN86.25 / 32LM_ARENA_REVIEW_PROXY95.62 / 32OPS_long79.318 / 32OPS_precision84.315 / 32OPS_review82.618 / 32PLAN86.73 / 32 metrics AI_code21.823 / 32AI_complexity37.322 / 32AI_context_awareness0.025 / 32AI_correctness100.08 / 32AI_edge_cases100.07 / 32AI_efficiency57.116 / 32AI_hallucination_resistance61.115 / 32AI_memory_retention0.032 / 32AI_parameter_accuracy77.812 / 32AI_plan_coherence3.729 / 32AI_recovery100.010 / 32AI_refusal100.09 / 32AI_spec100.09 / 32AI_stability95.610 / 32AI_task_completion62.515 / 32AI_tool_selection48.126 / 32ArtificialAnalysisCoding75.78 / 32ArtificialAnalysisIntelligence88.24 / 32ArtificialAnalysisReasoning89.05 / 32BlendedCost88.114 / 31ContextWindow78.119 / 30CopilotArenaOrLMArenaCode93.35 / 32GDPval69.313 / 32GPQA_HLE_Reasoning89.05 / 32IFBench92.77 / 32LMArenaCreativeOrOpenEnded80.88 / 32LMArenaSearchDocument95.62 / 30LMArenaText80.88 / 32LongContextRecall83.010 / 32MCPAtlas81.78 / 28OutputSpeed72.328 / 32SWEBenchMultilingual95.07 / 27SWEBenchPro95.08 / 29SWEBenchVerified95.08 / 31SWEComposite94.04 / 32SWERebench92.57 / 31SciCode89.74 / 32SonarComposite50.022 / 32TTFT94.98 / 32Tau2Bench96.06 / 32TerminalBench74.56 / 32 sources aistupidlevelartificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOGEN/ARC_AGI_2SonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
gpt-5.5	openai	67.9 up 0.2 since last refresh	84.1 up 0.1 since last refresh	80.6 down 0.5 since last refresh	75.1 up 0.3 since last refresh	▸
group breakdown A_B56.726 / 32A_I78.712 / 32A_P67.55 / 32A_R70.526 / 32BUILD85.73 / 32CRE53.622 / 32GEN87.64 / 32LM_ARENA_REVIEW_PROXY28.621 / 32OPS_long78.222 / 32OPS_precision74.123 / 32OPS_review76.223 / 32PLAN88.92 / 32 metrics AI_code17.324 / 32AI_complexity16.327 / 32AI_context_awareness0.028 / 32AI_correctness93.813 / 32AI_edge_cases84.525 / 32AI_efficiency58.615 / 32AI_hallucination_resistance7.830 / 32AI_memory_retention47.310 / 32AI_parameter_accuracy91.55 / 32AI_plan_coherence64.910 / 32AI_recovery98.715 / 32AI_refusal100.012 / 32AI_spec100.012 / 32AI_stability77.726 / 32AI_task_completion56.326 / 32AI_tool_selection34.127 / 32ARC_AGI_297.72 / 25ArtificialAnalysisCoding100.02 / 32ArtificialAnalysisIntelligence98.93 / 32ArtificialAnalysisReasoning100.02 / 32BlendedCost38.130 / 31ContextWindow100.02 / 30CopilotArenaOrLMArenaCode66.114 / 32GDPval95.02 / 32GPQA_HLE_Reasoning100.02 / 32GSO94.02 / 16IFBench78.812 / 32LMArenaCreativeOrOpenEnded53.622 / 32LMArenaSearchDocument28.619 / 30LMArenaText53.622 / 32LongContextRecall96.54 / 32MCPAtlas59.712 / 28OutputSpeed79.216 / 32SWEBenchPro95.010 / 29SWEBenchVerified95.010 / 31SWEComposite89.98 / 32SWERebench83.512 / 31SciCode89.75 / 32SonarBugDensity96.22 / 20SonarComposite67.06 / 32SonarFunctionalSkill46.515 / 20SonarIssueDensity59.85 / 20SonarVulnerabilityDensity94.82 / 20TTFT79.117 / 32Tau2Bench86.813 / 32TerminalBench100.01 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarterminal_benchmissing SWEComposite/SWEBenchMultilingual
deepseek-v4-pro	deepseek	77.3	78.6	79.0 down 0.5 since last refresh	83.6 down 0.2 since last refresh	▸
group breakdown A_B68.513 / 32A_I77.313 / 32A_P60.013 / 32A_R85.29 / 32BUILD80.46 / 32CRE77.011 / 32GEN79.56 / 32LM_ARENA_REVIEW_PROXY88.87 / 32OPS_long72.126 / 32OPS_precision83.416 / 32OPS_review83.914 / 32PLAN83.34 / 32 metrics AI_code29.913 / 32AI_complexity39.211 / 32AI_context_awareness7.511 / 32AI_correctness92.515 / 32AI_edge_cases92.514 / 32AI_efficiency84.09 / 32AI_hallucination_resistance92.513 / 32AI_memory_retention7.518 / 32AI_parameter_accuracy79.910 / 32AI_plan_coherence17.316 / 32AI_recovery92.516 / 32AI_refusal92.516 / 32AI_spec92.516 / 32AI_stability81.825 / 32AI_task_completion71.312 / 32AI_tool_selection67.410 / 32ArtificialAnalysisCoding77.07 / 32ArtificialAnalysisIntelligence78.98 / 32ArtificialAnalysisReasoning84.17 / 32BlendedCost98.14 / 31ContextWindow100.03 / 30CopilotArenaOrLMArenaCode72.511 / 32GDPval68.216 / 32GPQA_HLE_Reasoning84.17 / 32IFBench94.05 / 32LMArenaCreativeOrOpenEnded77.011 / 32LMArenaSearchDocument88.87 / 30LMArenaText77.011 / 32LongContextRecall66.214 / 32MCPAtlas81.76 / 28OutputSpeed51.431 / 32SWEBenchMultilingual95.05 / 27SWEBenchPro95.04 / 29SWEBenchVerified95.06 / 31SWEComposite94.03 / 32SWERebench92.55 / 31SciCode70.49 / 32SonarComposite50.017 / 32TTFT95.37 / 32Tau2Bench96.74 / 32TerminalBench69.910 / 32 sources artificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOGEN/ARC_AGI_2SonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
glm-5.1	zai	84.9 down 0.1 since last refresh	76.0	78.1 down 0.6 since last refresh	81.3 down 0.2 since last refresh	▸
group breakdown A_B63.322 / 32A_I75.521 / 32A_P55.826 / 32A_R79.923 / 32BUILD80.27 / 32CRE90.95 / 32GEN78.97 / 32LM_ARENA_REVIEW_PROXY88.811 / 32OPS_long82.415 / 32OPS_precision86.611 / 32OPS_review84.113 / 32PLAN78.78 / 32 metrics AI_code26.122 / 32AI_complexity39.219 / 32AI_context_awareness7.519 / 32AI_correctness92.523 / 32AI_edge_cases92.522 / 32AI_efficiency56.124 / 32AI_hallucination_resistance59.423 / 32AI_memory_retention7.526 / 32AI_parameter_accuracy73.620 / 32AI_plan_coherence10.627 / 32AI_recovery92.524 / 32AI_refusal92.524 / 32AI_spec92.524 / 32AI_stability88.819 / 32AI_task_completion60.623 / 32AI_tool_selection48.425 / 32ArtificialAnalysisCoding62.913 / 32ArtificialAnalysisIntelligence78.59 / 32ArtificialAnalysisReasoning63.215 / 32BlendedCost87.516 / 31ContextWindow74.025 / 30CopilotArenaOrLMArenaCode98.03 / 32GDPval74.710 / 32GPQA_HLE_Reasoning63.215 / 32IFBench93.46 / 32LMArenaCreativeOrOpenEnded90.95 / 32LMArenaSearchDocument88.811 / 30LMArenaText90.95 / 32LongContextRecall46.026 / 32MCPAtlas87.33 / 28OutputSpeed77.619 / 32SWEBenchMultilingual92.513 / 27SWEBenchPro95.014 / 29SWEBenchVerified92.516 / 31SWEComposite96.41 / 32SWERebench100.02 / 31SciCode36.321 / 32SonarComposite50.027 / 32TTFT99.33 / 32Tau2Bench100.03 / 32TerminalBench73.29 / 32 sources artificial_analysislmarenamcp_atlasopenrouteroverridesswerebenchmissing BUILD/GSOGEN/ARC_AGI_2SonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
claude-opus-4.5	anthropic	75.5 up 9.0 since last refresh	68.5 up 5.2 since last refresh	76.0 up 8.9 since last refresh	63.9 up 8.7 since last refresh	▸
group breakdown A_B73.79 / 32A_I82.88 / 32A_P66.57 / 32A_R81.214 / 32BUILD78.38 / 32CRE74.913 / 32GEN73.210 / 32LM_ARENA_REVIEW_PROXY11.029 / 32OPS_long73.025 / 32OPS_precision69.526 / 32OPS_review69.626 / 32PLAN65.714 / 32 metrics AI_canary_health88.51 / 5AI_code63.88 / 32AI_complexity42.910 / 32AI_context_awareness13.08 / 32AI_correctness100.01 / 32AI_edge_cases100.01 / 32AI_efficiency81.510 / 32AI_hallucination_resistance10.629 / 32AI_memory_retention0.029 / 32AI_parameter_accuracy100.01 / 32AI_plan_coherence0.032 / 32AI_recovery100.02 / 32AI_refusal100.01 / 32AI_spec100.01 / 32AI_stability100.02 / 32AI_task_completion100.01 / 32AI_tool_selection99.82 / 32ARC_AGI_285.55 / 25ArtificialAnalysisCoding78.16 / 32ArtificialAnalysisIntelligence72.011 / 32ArtificialAnalysisReasoning63.614 / 32BlendedCost49.626 / 31ContextWindow73.827 / 30CopilotArenaOrLMArenaCode75.59 / 32GDPval82.59 / 32GPQA_HLE_Reasoning63.614 / 32GSO59.35 / 16IFBench42.822 / 32LMArenaCreativeOrOpenEnded74.913 / 32LMArenaSearchDocument11.027 / 30LMArenaText74.913 / 32LongContextRecall100.01 / 32MCPAtlas57.315 / 28OutputSpeed77.320 / 32SWEBenchMultilingual95.02 / 27SWEBenchPro88.419 / 29SWEBenchVerified92.017 / 31SWEComposite84.714 / 32SWERebench76.314 / 31SciCode67.710 / 32SonarBugDensity81.85 / 20SonarComposite89.01 / 32SonarFunctionalSkill100.01 / 20SonarIssueDensity80.63 / 20SonarVulnerabilityDensity83.34 / 20TTFT72.424 / 32Tau2Bench81.515 / 32TerminalBench54.718 / 32 sources aistupidlevelartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebench_proswerebenchterminal_benchmissing none
qwen3.6-plus	alibaba	69.4 down 0.1 since last refresh	70.7	75.8 down 0.6 since last refresh	80.8 down 0.2 since last refresh	▸
group breakdown A_B63.318 / 32A_I75.517 / 32A_P55.822 / 32A_R79.919 / 32BUILD76.79 / 32CRE69.415 / 32GEN60.915 / 32LM_ARENA_REVIEW_PROXY88.89 / 32OPS_long84.213 / 32OPS_precision88.48 / 32OPS_review89.34 / 32PLAN79.27 / 32 metrics AI_code26.118 / 32AI_complexity39.215 / 32AI_context_awareness7.515 / 32AI_correctness92.519 / 32AI_edge_cases92.518 / 32AI_efficiency56.120 / 32AI_hallucination_resistance59.419 / 32AI_memory_retention7.522 / 32AI_parameter_accuracy73.616 / 32AI_plan_coherence10.623 / 32AI_recovery92.520 / 32AI_refusal92.520 / 32AI_spec92.520 / 32AI_stability88.815 / 32AI_task_completion60.619 / 32AI_tool_selection48.421 / 32ARC_AGI_211.916 / 25ArtificialAnalysisCoding61.214 / 32ArtificialAnalysisIntelligence73.210 / 32ArtificialAnalysisReasoning61.317 / 32BlendedCost95.05 / 31ContextWindow99.215 / 30CopilotArenaOrLMArenaCode73.210 / 32GDPval73.311 / 32GPQA_HLE_Reasoning61.317 / 32IFBench90.49 / 32LMArenaCreativeOrOpenEnded69.415 / 32LMArenaSearchDocument88.89 / 30LMArenaText69.415 / 32LongContextRecall83.011 / 32MCPAtlas76.59 / 28OutputSpeed75.823 / 32SWEBenchMultilingual92.510 / 27SWEBenchPro95.011 / 29SWEBenchVerified95.011 / 31SWEComposite85.913 / 32SWERebench72.818 / 31SciCode19.326 / 32SonarBugDensity92.53 / 20SonarComposite80.14 / 32SonarFunctionalSkill66.814 / 20SonarIssueDensity92.52 / 20SonarVulnerabilityDensity78.37 / 20TTFT90.912 / 32Tau2Bench100.01 / 32TerminalBench67.611 / 32 sources artificial_analysislmarenaopenrouteroverridesmissing BUILD/GSO
deepseek-v4-flash	deepseek	67.6	72.6	75.8 down 0.6 since last refresh	81.6 down 0.2 since last refresh	▸
group breakdown A_B71.711 / 32A_I82.19 / 32A_P61.811 / 32A_R91.45 / 32BUILD74.611 / 32CRE62.018 / 32GEN64.113 / 32LM_ARENA_REVIEW_PROXY88.86 / 32OPS_long88.36 / 32OPS_precision91.14 / 32OPS_review88.48 / 32PLAN78.69 / 32 metrics AI_canary_health84.32 / 5AI_code26.414 / 32AI_complexity37.320 / 32AI_context_awareness0.023 / 32AI_correctness100.06 / 32AI_edge_cases100.06 / 32AI_efficiency90.05 / 32AI_hallucination_resistance100.03 / 32AI_memory_retention0.031 / 32AI_parameter_accuracy85.28 / 32AI_plan_coherence11.519 / 32AI_recovery100.08 / 32AI_refusal100.06 / 32AI_spec100.06 / 32AI_stability87.520 / 32AI_task_completion75.09 / 32AI_tool_selection70.58 / 32ArtificialAnalysisCoding46.720 / 32ArtificialAnalysisIntelligence59.719 / 32ArtificialAnalysisReasoning77.39 / 32BlendedCost99.82 / 31ContextWindow70.628 / 30CopilotArenaOrLMArenaCode86.86 / 32GDPval68.215 / 32GPQA_HLE_Reasoning77.39 / 32IFBench100.01 / 32LMArenaCreativeOrOpenEnded62.018 / 32LMArenaSearchDocument88.86 / 30LMArenaText62.018 / 32LongContextRecall49.324 / 32MCPAtlas81.75 / 28OutputSpeed87.410 / 32SWEBenchMultilingual59.115 / 27SWEBenchPro95.03 / 29SWEBenchVerified95.05 / 31SWEComposite90.47 / 32SWERebench92.54 / 31SciCode42.418 / 32SonarComposite50.016 / 32TTFT98.05 / 32Tau2Bench94.110 / 32TerminalBench60.915 / 32 sources aistupidlevelartificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOGEN/ARC_AGI_2SonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
claude-sonnet-4.6	anthropic	76.6 up 8.0 since last refresh	61.0 up 4.4 since last refresh	75.0 up 8.8 since last refresh	64.1 up 7.0 since last refresh	▸
group breakdown A_B90.72 / 32A_I89.15 / 32A_P65.29 / 32A_R98.22 / 32BUILD75.910 / 32CRE79.010 / 32GEN67.211 / 32LM_ARENA_REVIEW_PROXY22.422 / 32OPS_long66.727 / 32OPS_precision53.830 / 32OPS_review63.727 / 32PLAN56.720 / 32 metrics AI_code91.45 / 32AI_complexity81.44 / 32AI_context_awareness0.022 / 32AI_correctness100.05 / 32AI_edge_cases100.05 / 32AI_efficiency86.16 / 32AI_hallucination_resistance94.312 / 32AI_memory_retention0.030 / 32AI_parameter_accuracy100.02 / 32AI_plan_coherence20.915 / 32AI_recovery100.07 / 32AI_refusal100.05 / 32AI_spec100.05 / 32AI_stability100.05 / 32AI_task_completion71.511 / 32AI_tool_selection80.77 / 32ARC_AGI_210.617 / 25ArtificialAnalysisCoding88.84 / 32ArtificialAnalysisIntelligence79.77 / 32ArtificialAnalysisReasoning68.911 / 32BlendedCost73.125 / 31ContextWindow99.214 / 30CopilotArenaOrLMArenaCode95.14 / 32GDPval88.86 / 32GPQA_HLE_Reasoning68.911 / 32GSO30.711 / 16IFBench39.124 / 32LMArenaCreativeOrOpenEnded79.010 / 32LMArenaSearchDocument22.420 / 30LMArenaText79.010 / 32LongContextRecall88.07 / 32MCPAtlas55.716 / 28OutputSpeed80.915 / 32SWEBenchMultilingual95.04 / 27SWEBenchPro76.524 / 29SWEBenchVerified90.020 / 31SWEComposite88.111 / 32SWERebench95.83 / 31SciCode52.814 / 32SonarBugDensity76.47 / 20SonarComposite60.710 / 32SonarFunctionalSkill84.55 / 20SonarIssueDensity34.011 / 20SonarVulnerabilityDensity20.918 / 20TTFT0.032 / 32Tau2Bench50.622 / 32TerminalBench47.321 / 32 sources aistupidlevelarc_agiartificial_analysislmarenamcp_atlasopenrouteroverridessonarswerebenchmissing none
gemini-3.1-pro-preview	google	88.4 down 6.3 since last refresh	86.4 down 3.9 since last refresh	72.7 down 7.3 since last refresh	76.7 down 5.4 since last refresh	▸
group breakdown A_B22.331 / 32A_I30.530 / 32A_P48.330 / 32A_R18.931 / 32BUILD81.05 / 32CRE100.02 / 32GEN100.01 / 32LM_ARENA_REVIEW_PROXY92.24 / 32OPS_long84.911 / 32OPS_precision78.422 / 32OPS_review82.519 / 32PLAN91.11 / 32 metrics AI_code7.528 / 32AI_complexity7.530 / 32AI_context_awareness15.37 / 32AI_correctness7.530 / 32AI_edge_cases7.530 / 32AI_efficiency50.628 / 32AI_hallucination_resistance28.227 / 32AI_memory_retention92.58 / 32AI_parameter_accuracy65.924 / 32AI_plan_coherence76.88 / 32AI_recovery7.530 / 32AI_refusal7.531 / 32AI_spec7.530 / 32AI_stability86.523 / 32AI_task_completion92.55 / 32AI_tool_selection67.113 / 32ARC_AGI_2100.01 / 25ArtificialAnalysisCoding100.01 / 32ArtificialAnalysisIntelligence100.02 / 32ArtificialAnalysisReasoning100.01 / 32BlendedCost76.120 / 31ContextWindow100.07 / 30CopilotArenaOrLMArenaCode69.412 / 32GDPval49.323 / 32GPQA_HLE_Reasoning100.01 / 32GSO51.39 / 16IFBench95.94 / 32LMArenaCreativeOrOpenEnded100.02 / 32LMArenaSearchDocument92.24 / 30LMArenaText100.02 / 32LongContextRecall98.13 / 32MCPAtlas58.414 / 28OutputSpeed91.76 / 32SWEBenchMultilingual36.018 / 27SWEBenchPro89.118 / 29SWEBenchVerified95.07 / 31SWEComposite89.09 / 32SWERebench100.01 / 31SciCode100.02 / 32SonarBugDensity65.016 / 20SonarComposite59.314 / 32SonarFunctionalSkill78.910 / 20SonarIssueDensity25.215 / 20SonarVulnerabilityDensity56.014 / 20TTFT59.028 / 32Tau2Bench95.48 / 32TerminalBench89.53 / 32 sources arc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebench_proswerebenchterminal_benchmissing none
mimo-v2.5-pro	xiaomi	79.8 down 0.1 since last refresh	75.1	72.5 down 0.6 since last refresh	78.9 down 0.2 since last refresh	▸
group breakdown A_B63.320 / 32A_I75.519 / 32A_P55.824 / 32A_R79.921 / 32BUILD72.213 / 32CRE83.37 / 32GEN74.29 / 32LM_ARENA_REVIEW_PROXY84.316 / 32OPS_long83.414 / 32OPS_precision86.312 / 32OPS_review87.59 / 32PLAN80.06 / 32 metrics AI_code26.120 / 32AI_complexity39.217 / 32AI_context_awareness7.517 / 32AI_correctness92.521 / 32AI_edge_cases92.520 / 32AI_efficiency56.122 / 32AI_hallucination_resistance59.421 / 32AI_memory_retention7.524 / 32AI_parameter_accuracy73.618 / 32AI_plan_coherence10.625 / 32AI_recovery92.522 / 32AI_refusal92.522 / 32AI_spec92.522 / 32AI_stability88.817 / 32AI_task_completion60.621 / 32AI_tool_selection48.423 / 32ARC_AGI_220.313 / 25ArtificialAnalysisCoding70.111 / 32ArtificialAnalysisIntelligence87.85 / 32ArtificialAnalysisReasoning75.010 / 32BlendedCost87.615 / 31ContextWindow100.09 / 30CopilotArenaOrLMArenaCode77.48 / 32GDPval68.221 / 32GPQA_HLE_Reasoning75.010 / 32IFBench100.02 / 32LMArenaCreativeOrOpenEnded83.37 / 32LMArenaSearchDocument84.316 / 30LMArenaText83.37 / 32LongContextRecall100.02 / 32MCPAtlas32.421 / 28OutputSpeed76.522 / 32SWEBenchMultilingual92.512 / 27SWEBenchPro95.013 / 29SWEBenchVerified95.012 / 31SWEComposite82.115 / 32SWERebench63.523 / 31SciCode71.58 / 32SonarComposite50.026 / 32TTFT88.214 / 32Tau2Bench92.111 / 32TerminalBench76.85 / 32 sources artificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
gpt-5.3-codex	openai	67.7 up 2.7 since last refresh	47.8 up 1.5 since last refresh	69.9 up 1.5 since last refresh	67.8 up 1.8 since last refresh	▸
group breakdown A_B56.725 / 32A_I65.026 / 32A_P48.727 / 32A_R78.824 / 32BUILD74.212 / 32CRE75.312 / 32GEN48.121 / 32LM_ARENA_REVIEW_PROXY92.53 / 32OPS_long84.512 / 32OPS_precision81.119 / 32OPS_review82.020 / 32PLAN41.524 / 32 metrics AI_code6.929 / 32AI_complexity29.924 / 32AI_context_awareness0.027 / 32AI_correctness91.924 / 32AI_edge_cases89.923 / 32AI_efficiency65.213 / 32AI_hallucination_resistance100.06 / 32AI_memory_retention11.913 / 32AI_parameter_accuracy87.37 / 32AI_plan_coherence2.530 / 32AI_recovery100.012 / 32AI_refusal42.826 / 32AI_spec69.926 / 32AI_stability51.129 / 32AI_task_completion53.827 / 32AI_tool_selection54.916 / 32ARC_AGI_272.58 / 25ArtificialAnalysisCoding43.622 / 32ArtificialAnalysisIntelligence29.426 / 32ArtificialAnalysisReasoning33.525 / 32BlendedCost75.421 / 31ContextWindow84.717 / 30CopilotArenaOrLMArenaCode42.728 / 32GDPval68.814 / 32GPQA_HLE_Reasoning33.525 / 32GSO53.48 / 16IFBench59.919 / 32LMArenaCreativeOrOpenEnded75.312 / 32LMArenaSearchDocument92.53 / 30LMArenaText75.312 / 32LongContextRecall42.327 / 32OutputSpeed89.38 / 32SWEBenchPro95.09 / 29SWEBenchVerified92.514 / 31SWEComposite92.15 / 32SWERebench89.49 / 31SciCode40.320 / 32SonarBugDensity84.44 / 20SonarComposite61.68 / 32SonarFunctionalSkill72.311 / 20SonarIssueDensity7.518 / 20SonarVulnerabilityDensity92.53 / 20TTFT75.721 / 32Tau2Bench7.529 / 32TerminalBench74.37 / 32 sources aistupidlevelartificial_analysislmarenaopenrouteroverridessonarswerebenchterminal_benchmissing BUILD/MCPAtlasPLAN/MCPAtlasSWEComposite/SWEBenchMultilingual
minimax-m2.7	minimax	50.1 down 0.1 since last refresh	62.3	69.4 down 0.6 since last refresh	73.4 down 0.2 since last refresh	▸
group breakdown A_B63.316 / 32A_I75.515 / 32A_P55.820 / 32A_R79.917 / 32BUILD68.915 / 32CRE36.726 / 32GEN52.719 / 32LM_ARENA_REVIEW_PROXY84.314 / 32OPS_long82.016 / 32OPS_precision86.910 / 32OPS_review84.912 / 32PLAN66.712 / 32 metrics AI_code26.116 / 32AI_complexity39.213 / 32AI_context_awareness7.513 / 32AI_correctness92.517 / 32AI_edge_cases92.516 / 32AI_efficiency56.118 / 32AI_hallucination_resistance59.417 / 32AI_memory_retention7.520 / 32AI_parameter_accuracy73.614 / 32AI_plan_coherence10.621 / 32AI_recovery92.518 / 32AI_refusal92.518 / 32AI_spec92.518 / 32AI_stability88.813 / 32AI_task_completion60.617 / 32AI_tool_selection48.419 / 32ARC_AGI_211.915 / 25ArtificialAnalysisCoding57.717 / 32ArtificialAnalysisIntelligence71.612 / 32ArtificialAnalysisReasoning64.713 / 32BlendedCost98.83 / 31ContextWindow74.221 / 30CopilotArenaOrLMArenaCode54.821 / 32GDPval68.218 / 32GPQA_HLE_Reasoning64.713 / 32IFBench91.98 / 32LMArenaCreativeOrOpenEnded36.726 / 32LMArenaSearchDocument84.314 / 30LMArenaText36.726 / 32LongContextRecall77.912 / 32MCPAtlas32.419 / 28OutputSpeed76.521 / 32SWEBenchMultilingual95.06 / 27SWEBenchPro95.06 / 29SWEBenchVerified92.513 / 31SWEComposite86.012 / 32SWERebench73.317 / 31SciCode53.913 / 32SonarComposite50.019 / 32TTFT94.59 / 32Tau2Bench71.019 / 32TerminalBench61.413 / 32 sources artificial_analysislmarenaopenrouteroverridesswerebenchmissing BUILD/GSOSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
glm-5	zai	69.9 down 0.1 since last refresh	62.8	69.2 down 0.6 since last refresh	74.0 down 0.2 since last refresh	▸
group breakdown A_B63.321 / 32A_I75.520 / 32A_P55.825 / 32A_R79.922 / 32BUILD68.417 / 32CRE73.214 / 32GEN54.217 / 32LM_ARENA_REVIEW_PROXY88.810 / 32OPS_long86.89 / 32OPS_precision89.96 / 32OPS_review87.310 / 32PLAN66.213 / 32 metrics AI_code26.121 / 32AI_complexity39.218 / 32AI_context_awareness7.518 / 32AI_correctness92.522 / 32AI_edge_cases92.521 / 32AI_efficiency56.123 / 32AI_hallucination_resistance59.422 / 32AI_memory_retention7.525 / 32AI_parameter_accuracy73.619 / 32AI_plan_coherence10.626 / 32AI_recovery92.523 / 32AI_refusal92.523 / 32AI_spec92.523 / 32AI_stability88.818 / 32AI_task_completion60.622 / 32AI_tool_selection48.424 / 32ARC_AGI_25.219 / 25ArtificialAnalysisCoding40.124 / 32ArtificialAnalysisIntelligence60.817 / 32ArtificialAnalysisReasoning53.222 / 32BlendedCost92.511 / 31ContextWindow74.024 / 30CopilotArenaOrLMArenaCode64.518 / 32GDPval73.312 / 32GPQA_HLE_Reasoning53.222 / 32IFBench85.010 / 32LMArenaCreativeOrOpenEnded73.214 / 32LMArenaSearchDocument88.810 / 30LMArenaText73.214 / 32LongContextRecall37.528 / 32MCPAtlas47.217 / 28OutputSpeed84.413 / 32SWEBenchMultilingual51.216 / 27SWEBenchPro92.517 / 29SWEBenchVerified91.019 / 31SWEComposite81.916 / 32SWERebench76.913 / 31SciCode35.222 / 32SonarBugDensity100.01 / 20SonarComposite85.42 / 32SonarFunctionalSkill69.812 / 20SonarIssueDensity100.01 / 20SonarVulnerabilityDensity83.35 / 20TTFT100.01 / 32Tau2Bench100.02 / 32TerminalBench55.817 / 32 sources arc_agiartificial_analysislmarenaopenrouteroverridessonarswebenchswerebenchterminal_benchmissing BUILD/GSO
gpt-5.4	openai	72.0 up 7.4 since last refresh	48.8 up 4.6 since last refresh	68.8 up 6.9 since last refresh	56.8 up 7.2 since last refresh	▸
group breakdown A_B72.810 / 32A_I79.811 / 32A_P61.112 / 32A_R92.04 / 32BUILD68.616 / 32CRE79.89 / 32GEN45.122 / 32LM_ARENA_REVIEW_PROXY16.126 / 32OPS_long90.63 / 32OPS_precision87.39 / 32OPS_review88.95 / 32PLAN40.525 / 32 metrics AI_code38.010 / 32AI_complexity29.625 / 32AI_context_awareness1.921 / 32AI_correctness100.010 / 32AI_edge_cases100.09 / 32AI_efficiency72.212 / 32AI_hallucination_resistance97.611 / 32AI_memory_retention10.715 / 32AI_parameter_accuracy85.29 / 32AI_plan_coherence0.231 / 32AI_recovery92.025 / 32AI_refusal100.011 / 32AI_spec100.011 / 32AI_stability100.06 / 32AI_task_completion73.610 / 32AI_tool_selection83.65 / 32ARC_AGI_276.57 / 25ArtificialAnalysisCoding33.926 / 32ArtificialAnalysisIntelligence27.427 / 32ArtificialAnalysisReasoning12.429 / 32BlendedCost73.822 / 31ContextWindow100.01 / 30CopilotArenaOrLMArenaCode48.223 / 32GDPval90.74 / 32GPQA_HLE_Reasoning12.429 / 32GSO54.07 / 16IFBench60.718 / 32LMArenaCreativeOrOpenEnded79.89 / 32LMArenaSearchDocument16.124 / 30LMArenaText79.89 / 32LongContextRecall20.729 / 32MCPAtlas59.711 / 28OutputSpeed93.43 / 32SWEBenchPro92.516 / 29SWEBenchVerified95.09 / 31SWEComposite88.910 / 32SWERebench83.511 / 31SciCode6.729 / 32SonarBugDensity0.020 / 20SonarComposite30.029 / 32SonarFunctionalSkill37.516 / 20SonarIssueDensity0.020 / 20SonarVulnerabilityDensity100.01 / 20TTFT84.515 / 32Tau2Bench0.032 / 32TerminalBench100.02 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebench_proterminal_benchmissing SWEComposite/SWEBenchMultilingual
mimo-v2.5	xiaomi	60.7 down 0.1 since last refresh	61.9	67.4 down 0.6 since last refresh	72.0 down 0.2 since last refresh	▸
group breakdown A_B63.319 / 32A_I75.518 / 32A_P55.823 / 32A_R79.920 / 32BUILD65.919 / 32CRE54.521 / 32GEN55.416 / 32LM_ARENA_REVIEW_PROXY84.315 / 32OPS_long89.84 / 32OPS_precision91.43 / 32OPS_review92.33 / 32PLAN63.117 / 32 metrics AI_code26.119 / 32AI_complexity39.216 / 32AI_context_awareness7.516 / 32AI_correctness92.520 / 32AI_edge_cases92.519 / 32AI_efficiency56.121 / 32AI_hallucination_resistance59.420 / 32AI_memory_retention7.523 / 32AI_parameter_accuracy73.617 / 32AI_plan_coherence10.624 / 32AI_recovery92.521 / 32AI_refusal92.521 / 32AI_spec92.521 / 32AI_stability88.816 / 32AI_task_completion60.620 / 32AI_tool_selection48.422 / 32ARC_AGI_220.312 / 25ArtificialAnalysisCoding58.416 / 32ArtificialAnalysisIntelligence69.313 / 32ArtificialAnalysisReasoning53.221 / 32BlendedCost94.19 / 31ContextWindow100.08 / 30CopilotArenaOrLMArenaCode65.915 / 32GDPval68.220 / 32GPQA_HLE_Reasoning53.221 / 32IFBench68.216 / 32LMArenaCreativeOrOpenEnded54.521 / 32LMArenaSearchDocument84.315 / 30LMArenaText54.521 / 32LongContextRecall47.625 / 32MCPAtlas32.420 / 28OutputSpeed85.812 / 32SWEBenchMultilingual92.511 / 27SWEBenchPro95.012 / 29SWEBenchVerified92.515 / 31SWEComposite81.817 / 32SWERebench63.522 / 31SciCode32.523 / 32SonarComposite50.025 / 32TTFT91.111 / 32Tau2Bench84.214 / 32TerminalBench73.38 / 32 sources artificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
claude-opus-4.1	anthropic	59.5 up 2.0 since last refresh	62.0 up 1.1 since last refresh	66.5 up 0.9 since last refresh	57.2 up 1.4 since last refresh	▸
group breakdown A_B58.923 / 32A_I74.722 / 32A_P62.910 / 32A_R82.213 / 32BUILD71.014 / 32CRE53.023 / 32GEN65.712 / 32LM_ARENA_REVIEW_PROXY0.431 / 32OPS_long65.129 / 32OPS_precision57.227 / 32OPS_review57.728 / 32PLAN62.118 / 32 metrics AI_canary_health53.65 / 5AI_code4.830 / 32AI_complexity36.523 / 32AI_context_awareness72.93 / 32AI_correctness86.626 / 32AI_edge_cases97.211 / 32AI_efficiency47.629 / 32AI_hallucination_resistance84.214 / 32AI_memory_retention4.627 / 32AI_parameter_accuracy52.127 / 32AI_plan_coherence15.217 / 32AI_recovery100.01 / 32AI_refusal62.025 / 32AI_spec80.025 / 32AI_stability100.01 / 32AI_task_completion59.625 / 32AI_tool_selection88.34 / 32ARC_AGI_283.56 / 25ArtificialAnalysisCoding73.99 / 32ArtificialAnalysisIntelligence68.714 / 32ArtificialAnalysisReasoning61.616 / 32BlendedCost0.031 / 31ContextWindow73.826 / 30CopilotArenaOrLMArenaCode47.226 / 32GDPval82.58 / 32GPQA_HLE_Reasoning61.616 / 32GSO57.96 / 16IFBench43.921 / 32LMArenaCreativeOrOpenEnded53.023 / 32LMArenaSearchDocument0.429 / 30LMArenaText53.023 / 32LongContextRecall92.55 / 32MCPAtlas86.94 / 28OutputSpeed73.227 / 32SWEBenchMultilingual92.58 / 27SWEBenchPro82.620 / 29SWEBenchVerified91.518 / 31SWEComposite72.522 / 32SWERebench51.526 / 31SciCode65.011 / 32SonarBugDensity77.06 / 20SonarComposite83.23 / 32SonarFunctionalSkill92.53 / 20SonarIssueDensity76.04 / 20SonarVulnerabilityDensity78.36 / 20TTFT69.027 / 32Tau2Bench76.817 / 32TerminalBench29.326 / 32 sources aistupidlevellmarenaopenrouteroverridesswerebenchterminal_benchmissing none
kimi-k2.5	moonshot	60.0 down 0.1 since last refresh	61.8	63.0 down 0.6 since last refresh	71.0 down 0.2 since last refresh	▸
group breakdown A_B63.317 / 32A_I75.516 / 32A_P55.821 / 32A_R79.918 / 32BUILD60.320 / 32CRE55.519 / 32GEN54.018 / 32LM_ARENA_REVIEW_PROXY90.35 / 32OPS_long79.119 / 32OPS_precision84.914 / 32OPS_review83.316 / 32PLAN64.915 / 32 metrics AI_code26.117 / 32AI_complexity39.214 / 32AI_context_awareness7.514 / 32AI_correctness92.518 / 32AI_edge_cases92.517 / 32AI_efficiency56.119 / 32AI_hallucination_resistance59.418 / 32AI_memory_retention7.521 / 32AI_parameter_accuracy73.615 / 32AI_plan_coherence10.622 / 32AI_recovery92.519 / 32AI_refusal92.519 / 32AI_spec92.519 / 32AI_stability88.814 / 32AI_task_completion60.618 / 32AI_tool_selection48.420 / 32ARC_AGI_215.014 / 25ArtificialAnalysisCoding49.819 / 32ArtificialAnalysisIntelligence60.816 / 32ArtificialAnalysisReasoning68.512 / 32BlendedCost94.48 / 31ContextWindow78.118 / 30CopilotArenaOrLMArenaCode55.020 / 32GDPval68.219 / 32GPQA_HLE_Reasoning68.512 / 32IFBench76.714 / 32LMArenaCreativeOrOpenEnded55.519 / 32LMArenaSearchDocument90.35 / 30LMArenaText55.519 / 32LongContextRecall61.119 / 32MCPAtlas29.322 / 28OutputSpeed71.130 / 32SWEBenchMultilingual8.822 / 27SWEBenchPro95.07 / 29SWEBenchVerified85.022 / 31SWEComposite73.221 / 32SWERebench65.821 / 31SciCode64.912 / 32SonarComposite50.021 / 32TTFT94.010 / 32Tau2Bench96.05 / 32TerminalBench41.923 / 32 sources arc_agiartificial_analysislmarenamcp_atlasopenrouteroverridesswebenchswerebenchterminal_benchmissing BUILD/GSOSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
minimax-m2.5	minimax	32.6 down 0.1 since last refresh	52.0	62.4 down 0.6 since last refresh	68.5 down 0.2 since last refresh	▸
group breakdown A_B63.315 / 32A_I75.514 / 32A_P55.819 / 32A_R79.916 / 32BUILD59.322 / 32CRE13.529 / 32GEN29.026 / 32LM_ARENA_REVIEW_PROXY84.313 / 32OPS_long88.17 / 32OPS_precision91.05 / 32OPS_review88.77 / 32PLAN59.419 / 32 metrics AI_code26.115 / 32AI_complexity39.212 / 32AI_context_awareness7.512 / 32AI_correctness92.516 / 32AI_edge_cases92.515 / 32AI_efficiency56.117 / 32AI_hallucination_resistance59.416 / 32AI_memory_retention7.519 / 32AI_parameter_accuracy73.613 / 32AI_plan_coherence10.620 / 32AI_recovery92.517 / 32AI_refusal92.517 / 32AI_spec92.517 / 32AI_stability88.812 / 32AI_task_completion60.616 / 32AI_tool_selection48.418 / 32ARC_AGI_25.218 / 25ArtificialAnalysisCoding42.223 / 32ArtificialAnalysisIntelligence42.023 / 32ArtificialAnalysisReasoning40.124 / 32BlendedCost100.01 / 31ContextWindow74.220 / 30CopilotArenaOrLMArenaCode46.127 / 32GDPval68.217 / 32GPQA_HLE_Reasoning40.124 / 32IFBench80.611 / 32LMArenaCreativeOrOpenEnded13.529 / 32LMArenaSearchDocument84.313 / 30LMArenaText13.529 / 32LongContextRecall64.517 / 32MCPAtlas32.418 / 28OutputSpeed86.511 / 32SWEBenchMultilingual26.520 / 27SWEBenchPro95.05 / 29SWEBenchVerified100.02 / 31SWEComposite75.919 / 32SWERebench62.424 / 31SciCode29.725 / 32SonarComposite50.018 / 32TTFT96.86 / 32Tau2Bench94.79 / 32TerminalBench40.424 / 32 sources arc_agiartificial_analysislmarenaopenrouteroverridesswebenchswerebenchterminal_benchmissing BUILD/GSOSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
gemini-3-pro	google	79.3 down 7.4 since last refresh	69.9 down 4.6 since last refresh	60.0 down 8.6 since last refresh	53.7 down 6.4 since last refresh	▸
group breakdown A_B17.432 / 32A_I27.131 / 32A_P48.031 / 32A_R13.432 / 32BUILD68.118 / 32CRE98.43 / 32GEN75.58 / 32LM_ARENA_REVIEW_PROXY19.224 / 32OPS_long65.328 / 32OPS_precision55.229 / 32OPS_review51.629 / 32PLAN75.910 / 32 metrics AI_code0.032 / 32AI_complexity0.032 / 32AI_context_awareness9.210 / 32AI_correctness0.032 / 32AI_edge_cases0.032 / 32AI_efficiency50.825 / 32AI_hallucination_resistance24.428 / 32AI_memory_retention100.01 / 32AI_parameter_accuracy68.821 / 32AI_plan_coherence81.55 / 32AI_recovery0.032 / 32AI_refusal0.032 / 32AI_spec0.032 / 32AI_stability92.911 / 32AI_task_completion100.02 / 32AI_tool_selection70.19 / 32ARC_AGI_242.29 / 25ArtificialAnalysisCoding73.610 / 32ArtificialAnalysisIntelligence67.015 / 32ArtificialAnalysisReasoning91.14 / 32BlendedCost76.119 / 31ContextWindow0.030 / 30CopilotArenaOrLMArenaCode65.616 / 32GDPval34.927 / 32GPQA_HLE_Reasoning91.14 / 32GSO40.710 / 16IFBench77.313 / 32LMArenaCreativeOrOpenEnded98.43 / 32LMArenaSearchDocument19.222 / 30LMArenaText98.43 / 32LongContextRecall88.08 / 32MCPAtlas59.810 / 28OutputSpeed92.14 / 32SWEBenchMultilingual33.519 / 27SWEBenchPro80.322 / 29SWEBenchVerified81.425 / 31SWEComposite71.723 / 32SWERebench70.220 / 31SciCode100.01 / 32SonarBugDensity67.610 / 20SonarComposite60.99 / 32SonarFunctionalSkill84.16 / 20SonarIssueDensity20.816 / 20SonarVulnerabilityDensity57.010 / 20TTFT35.229 / 32Tau2Bench76.318 / 32TerminalBench61.214 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebenchswebench_proswerebenchterminal_benchmissing none
gpt-5.2	openai	69.0 up 2.1 since last refresh	56.6 up 0.7 since last refresh	59.8 up 4.1 since last refresh	55.8 up 1.6 since last refresh	▸
group breakdown A_B90.23 / 32A_I87.17 / 32A_P57.216 / 32A_R88.96 / 32BUILD51.325 / 32CRE69.316 / 32GEN52.620 / 32LM_ARENA_REVIEW_PROXY19.723 / 32OPS_long84.910 / 32OPS_precision81.818 / 32OPS_review82.717 / 32PLAN54.821 / 32 metrics AI_code100.01 / 32AI_complexity100.01 / 32AI_context_awareness0.026 / 32AI_correctness100.09 / 32AI_edge_cases100.08 / 32AI_efficiency99.02 / 32AI_hallucination_resistance49.624 / 32AI_memory_retention8.017 / 32AI_parameter_accuracy22.528 / 32AI_plan_coherence12.818 / 32AI_recovery100.011 / 32AI_refusal100.010 / 32AI_spec100.010 / 32AI_stability74.427 / 32AI_task_completion60.424 / 32AI_tool_selection59.515 / 32ARC_AGI_20.025 / 25ArtificialAnalysisCoding65.612 / 32ArtificialAnalysisIntelligence60.118 / 32ArtificialAnalysisReasoning55.819 / 32BlendedCost78.918 / 31ContextWindow84.716 / 30CopilotArenaOrLMArenaCode29.530 / 32GDPval66.922 / 32GPQA_HLE_Reasoning55.819 / 32GSO64.74 / 16IFBench63.017 / 32LMArenaCreativeOrOpenEnded69.316 / 32LMArenaSearchDocument19.721 / 30LMArenaText69.316 / 32LongContextRecall51.023 / 32OutputSpeed89.37 / 32SWEBenchMultilingual0.027 / 27SWEBenchPro38.228 / 29SWEBenchVerified79.626 / 31SWEComposite45.328 / 32SciCode49.515 / 32SonarBugDensity75.38 / 20SonarComposite63.87 / 32SonarFunctionalSkill67.213 / 20SonarIssueDensity45.49 / 20SonarVulnerabilityDensity70.28 / 20TTFT75.720 / 32Tau2Bench47.325 / 32TerminalBench58.216 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebenchswebench_proterminal_benchmissing BUILD/MCPAtlasPLAN/MCPAtlasSWEComposite/SWERebench
gemini-3-flash	google	74.1 down 6.3 since last refresh	63.4 down 3.9 since last refresh	57.1 down 7.3 since last refresh	51.5 down 5.4 since last refresh	▸
group breakdown A_B22.330 / 32A_I30.529 / 32A_P48.329 / 32A_R18.930 / 32BUILD60.021 / 32CRE88.96 / 32GEN62.714 / 32LM_ARENA_REVIEW_PROXY18.425 / 32OPS_long95.41 / 32OPS_precision91.71 / 32OPS_review93.61 / 32PLAN63.916 / 32 metrics AI_code7.527 / 32AI_complexity7.529 / 32AI_context_awareness15.36 / 32AI_correctness7.529 / 32AI_edge_cases7.529 / 32AI_efficiency50.627 / 32AI_hallucination_resistance28.226 / 32AI_memory_retention92.57 / 32AI_parameter_accuracy65.923 / 32AI_plan_coherence76.87 / 32AI_recovery7.529 / 32AI_refusal7.530 / 32AI_spec7.529 / 32AI_stability86.522 / 32AI_task_completion92.54 / 32AI_tool_selection67.112 / 32ARC_AGI_23.122 / 25ArtificialAnalysisCoding60.115 / 32ArtificialAnalysisIntelligence59.320 / 32ArtificialAnalysisReasoning83.78 / 32BlendedCost90.613 / 31ContextWindow100.06 / 30CopilotArenaOrLMArenaCode65.117 / 32GDPval37.125 / 32GPQA_HLE_Reasoning83.78 / 32GSO14.014 / 16IFBench98.13 / 32LMArenaCreativeOrOpenEnded88.96 / 32LMArenaSearchDocument18.423 / 30LMArenaText88.96 / 32LongContextRecall66.215 / 32MCPAtlas16.924 / 28OutputSpeed100.01 / 32SWEBenchMultilingual100.01 / 27SWEBenchPro53.026 / 29SWEBenchVerified100.01 / 31SWEComposite74.020 / 32SWERebench76.015 / 31SciCode73.77 / 32SonarBugDensity65.015 / 20SonarComposite59.313 / 32SonarFunctionalSkill78.99 / 20SonarIssueDensity25.214 / 20SonarVulnerabilityDensity56.013 / 20TTFT81.816 / 32Tau2Bench61.120 / 32TerminalBench48.219 / 32 sources arc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebenchswebench_proswerebenchterminal_benchmissing none
claude-sonnet-4	anthropic	23.8	34.8	54.0 down 0.1 since last refresh	55.0	▸
group breakdown A_B85.96 / 32A_I94.02 / 32A_P76.51 / 32A_R82.312 / 32BUILD46.926 / 32CRE0.031 / 32GEN13.430 / 32LM_ARENA_REVIEW_PROXY87.812 / 32OPS_long78.920 / 32OPS_precision78.920 / 32OPS_review81.221 / 32PLAN28.028 / 32 metrics AI_code91.54 / 32AI_complexity98.92 / 32AI_context_awareness35.84 / 32AI_correctness100.04 / 32AI_edge_cases100.04 / 32AI_efficiency93.14 / 32AI_hallucination_resistance0.931 / 32AI_memory_retention10.316 / 32AI_parameter_accuracy99.14 / 32AI_plan_coherence46.812 / 32AI_recovery100.05 / 32AI_refusal100.04 / 32AI_spec100.04 / 32AI_stability100.04 / 32AI_task_completion85.86 / 32AI_tool_selection93.73 / 32ARC_AGI_20.224 / 25ArtificialAnalysisCoding30.827 / 32ArtificialAnalysisIntelligence29.725 / 32ArtificialAnalysisReasoning5.030 / 32BlendedCost73.123 / 31ContextWindow99.212 / 30CopilotArenaOrLMArenaCode47.824 / 32GDPval88.85 / 32GPQA_HLE_Reasoning5.030 / 32GSO6.015 / 16IFBench33.825 / 32LMArenaCreativeOrOpenEnded0.031 / 32LMArenaSearchDocument87.812 / 30LMArenaText0.031 / 32LiveCodeBench0.02 / 2LongContextRecall57.720 / 32MCPAtlas10.925 / 28OutputSpeed75.224 / 32SWEBenchMultilingual10.421 / 27SWEBenchPro78.423 / 29SWEBenchVerified67.429 / 31SWEComposite60.326 / 32SWERebench54.425 / 31SciCode15.428 / 32SonarBugDensity28.418 / 20SonarComposite27.630 / 32SonarFunctionalSkill26.417 / 20SonarIssueDensity45.58 / 20SonarVulnerabilityDensity0.020 / 20TTFT76.618 / 32Tau2Bench25.528 / 32TerminalBench47.320 / 32 sources aistupidlevelarc_agiartificial_analysisgsolivecodebenchlmarenaopenroutersonarswebenchswebench_proswerebenchmissing none
claude-sonnet-4.5	anthropic	59.3 down 5.5 since last refresh	46.6 down 2.7 since last refresh	52.9 down 7.4 since last refresh	45.5 down 4.4 since last refresh	▸
group breakdown A_B46.027 / 32A_I53.827 / 32A_P59.814 / 32A_R68.627 / 32BUILD52.824 / 32CRE66.017 / 32GEN42.524 / 32LM_ARENA_REVIEW_PROXY1.530 / 32OPS_long78.921 / 32OPS_precision78.921 / 32OPS_review81.122 / 32PLAN39.626 / 32 metrics AI_canary_health81.83 / 5AI_code3.531 / 32AI_complexity1.431 / 32AI_context_awareness94.12 / 32AI_correctness86.725 / 32AI_edge_cases86.024 / 32AI_efficiency63.514 / 32AI_hallucination_resistance100.02 / 32AI_memory_retention45.011 / 32AI_parameter_accuracy91.06 / 32AI_plan_coherence40.914 / 32AI_recovery100.06 / 32AI_refusal36.027 / 32AI_spec5.731 / 32AI_stability56.328 / 32AI_task_completion76.27 / 32AI_tool_selection52.117 / 32ARC_AGI_23.720 / 25ArtificialAnalysisCoding46.321 / 32ArtificialAnalysisIntelligence46.221 / 32ArtificialAnalysisReasoning33.326 / 32BlendedCost73.124 / 31ContextWindow99.213 / 30CopilotArenaOrLMArenaCode47.425 / 32GDPval91.13 / 32GPQA_HLE_Reasoning33.326 / 32GSO27.312 / 16IFBench41.023 / 32LMArenaCreativeOrOpenEnded66.017 / 32LMArenaSearchDocument1.528 / 30LMArenaText66.017 / 32LongContextRecall62.818 / 32MCPAtlas4.027 / 28OutputSpeed75.226 / 32SWEBenchMultilingual3.526 / 27SWEBenchPro81.221 / 29SWEBenchVerified84.423 / 31SWEComposite71.324 / 32SWERebench74.616 / 31SciCode41.319 / 32SonarBugDensity32.817 / 20SonarComposite24.231 / 32SonarFunctionalSkill17.218 / 20SonarIssueDensity40.610 / 20SonarVulnerabilityDensity4.419 / 20TTFT76.619 / 32Tau2Bench55.821 / 32TerminalBench37.225 / 32 sources aistupidlevelarc_agiartificial_analysisgsolmarenamcp_atlasopenrouteroverridessonarswebenchswebench_proswerebenchterminal_benchmissing none
kimi-k2-0905	moonshot	21.1 down 0.1 since last refresh	24.3	52.3 down 0.6 since last refresh	49.4 down 0.2 since last refresh	▸
group breakdown A_B30.928 / 32A_I22.732 / 32A_P28.932 / 32A_R34.428 / 32BUILD58.823 / 32CRE25.227 / 32GEN7.432 / 32LM_ARENA_REVIEW_PROXY88.88 / 32OPS_long33.632 / 32OPS_precision56.228 / 32OPS_review51.530 / 32PLAN28.727 / 32 metrics AI_code31.012 / 32AI_complexity37.321 / 32AI_context_awareness0.024 / 32AI_correctness0.131 / 32AI_edge_cases0.731 / 32AI_efficiency1.431 / 32AI_hallucination_resistance100.05 / 32AI_memory_retention3.228 / 32AI_parameter_accuracy79.811 / 32AI_plan_coherence6.328 / 32AI_recovery1.331 / 32AI_refusal100.08 / 32AI_spec100.08 / 32AI_stability0.032 / 32AI_task_completion62.514 / 32AI_tool_selection67.114 / 32ArtificialAnalysisCoding2.530 / 32ArtificialAnalysisIntelligence0.031 / 32ArtificialAnalysisReasoning0.031 / 32BlendedCost91.812 / 31ContextWindow43.029 / 30CopilotArenaOrLMArenaCode86.87 / 32GDPval5.031 / 32GPQA_HLE_Reasoning0.031 / 32IFBench0.031 / 32LMArenaCreativeOrOpenEnded25.227 / 32LMArenaSearchDocument88.88 / 30LMArenaText25.227 / 32LongContextRecall0.031 / 32MCPAtlas81.77 / 28OutputSpeed0.032 / 32SWEBenchMultilingual5.023 / 27SWEBenchPro92.515 / 29SWEBenchVerified77.228 / 31SWEComposite81.518 / 32SWERebench92.56 / 31SciCode0.031 / 32SonarComposite50.020 / 32TTFT89.713 / 32Tau2Bench45.326 / 32TerminalBench44.522 / 32 sources aistupidlevelartificial_analysislmarenaopenrouteroverridesmissing BUILD/GSOGEN/ARC_AGI_2SonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
glm-4.7	zai	29.7 down 0.3 since last refresh	51.3 down 0.2 since last refresh	51.2 down 0.9 since last refresh	56.2 down 0.2 since last refresh	▸
group breakdown A_B58.024 / 32A_I70.525 / 32A_P56.018 / 32A_R72.525 / 32BUILD44.927 / 32CRE6.430 / 32GEN34.725 / 32LM_ARENA_REVIEW_PROXY50.019 / 32OPS_long89.15 / 32OPS_precision91.52 / 32OPS_review88.96 / 32PLAN53.922 / 32 metrics AI_code12.525 / 32AI_complexity18.226 / 32AI_context_awareness0.032 / 32AI_correctness78.227 / 32AI_edge_cases92.713 / 32AI_efficiency75.611 / 32AI_hallucination_resistance100.010 / 32AI_memory_retention98.85 / 32AI_parameter_accuracy0.032 / 32AI_plan_coherence100.04 / 32AI_recovery68.926 / 32AI_refusal16.728 / 32AI_spec51.727 / 32AI_stability84.624 / 32AI_task_completion0.032 / 32AI_tool_selection0.032 / 32ArtificialAnalysisCoding38.425 / 32ArtificialAnalysisIntelligence42.822 / 32ArtificialAnalysisReasoning55.120 / 32BlendedCost94.96 / 31ContextWindow74.023 / 30CopilotArenaOrLMArenaCode66.213 / 32GDPval34.528 / 32GPQA_HLE_Reasoning55.120 / 32IFBench70.315 / 32LMArenaCreativeOrOpenEnded6.430 / 32LMArenaText6.430 / 32LongContextRecall54.422 / 32MCPAtlas0.028 / 28OutputSpeed88.29 / 32SWEBenchMultilingual5.025 / 27SWEBenchVerified89.621 / 31SWEComposite60.525 / 32SWERebench70.519 / 31SciCode43.517 / 32SonarBugDensity66.611 / 20SonarComposite32.028 / 32SonarFunctionalSkill0.020 / 20SonarIssueDensity58.26 / 20SonarVulnerabilityDensity27.416 / 20TTFT99.72 / 32Tau2Bench96.07 / 32TerminalBench27.027 / 32 sources aistupidlevelartificial_analysislmarenamcp_atlasopenrouteroverridessonarswerebenchterminal_benchmissing BUILD/GSOGEN/ARC_AGI_2LM_ARENA_REVIEW_PROXY/LMArenaSearchDocumentSWEComposite/SWEBenchPro
grok-4-latest	xai	56.0 up 0.8 since last refresh	45.8 up 0.1 since last refresh	48.0 up 0.7 since last refresh	45.2 up 1.1 since last refresh	▸
group breakdown A_B75.87 / 32A_I73.923 / 32A_P59.415 / 32A_R85.98 / 32BUILD42.728 / 32CRE55.420 / 32GEN44.123 / 32LM_ARENA_REVIEW_PROXY13.228 / 32OPS_long63.430 / 32OPS_precision46.432 / 32OPS_review50.332 / 32PLAN42.323 / 32 metrics AI_code79.56 / 32AI_complexity73.15 / 32AI_context_awareness0.029 / 32AI_correctness100.011 / 32AI_edge_cases70.326 / 32AI_efficiency0.032 / 32AI_hallucination_resistance100.07 / 32AI_memory_retention98.82 / 32AI_parameter_accuracy0.029 / 32AI_plan_coherence100.01 / 32AI_recovery100.013 / 32AI_refusal100.013 / 32AI_spec100.013 / 32AI_stability18.430 / 32AI_task_completion0.029 / 32AI_tool_selection0.029 / 32ARC_AGI_220.911 / 25ArtificialAnalysisCoding52.918 / 32ArtificialAnalysisIntelligence40.424 / 32ArtificialAnalysisReasoning56.418 / 32BlendedCost40.329 / 31CopilotArenaOrLMArenaCode48.322 / 32GDPval11.230 / 32GPQA_HLE_Reasoning56.418 / 32IFBench31.026 / 32LMArenaCreativeOrOpenEnded55.420 / 32LMArenaSearchDocument13.226 / 30LMArenaText55.420 / 32LongContextRecall74.613 / 32OutputSpeed84.214 / 32SWEComposite45.229 / 32SWERebench38.127 / 31SciCode46.816 / 32SonarComposite50.023 / 32TTFT17.531 / 32Tau2Bench48.624 / 32TerminalBench11.729 / 32 sources aistupidlevelarc_agiartificial_analysislmarenaoverridesswerebenchterminal_benchmissing BUILD/GSOBUILD/MCPAtlasOPS_long/ContextWindowOPS_precision/ContextWindowOPS_review/ContextWindowPLAN/MCPAtlasSWEComposite/SWEBenchMultilingualSWEComposite/SWEBenchProSWEComposite/SWEBenchVerifiedSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
gemini-2.5-flash	google	45.6 down 2.5 since last refresh	29.5 down 0.7 since last refresh	39.3 down 3.5 since last refresh	45.0 down 2.3 since last refresh	▸
group breakdown A_B71.012 / 32A_I73.124 / 32A_P72.03 / 32A_R80.815 / 32BUILD29.131 / 32CRE45.325 / 32GEN14.328 / 32LM_ARENA_REVIEW_PROXY79.317 / 32OPS_long94.32 / 32OPS_precision89.97 / 32OPS_review92.42 / 32PLAN15.331 / 32 metrics AI_code47.59 / 32AI_complexity46.59 / 32AI_context_awareness100.01 / 32AI_correctness100.07 / 32AI_edge_cases64.627 / 32AI_efficiency100.01 / 32AI_hallucination_resistance100.04 / 32AI_memory_retention54.99 / 32AI_parameter_accuracy100.03 / 32AI_plan_coherence62.511 / 32AI_recovery100.09 / 32AI_refusal100.07 / 32AI_spec100.07 / 32AI_stability6.231 / 32AI_task_completion33.528 / 32AI_tool_selection27.228 / 32ARC_AGI_20.723 / 25ArtificialAnalysisCoding0.031 / 32ArtificialAnalysisIntelligence0.430 / 32ArtificialAnalysisReasoning14.927 / 32BlendedCost93.510 / 31ContextWindow100.04 / 30CopilotArenaOrLMArenaCode62.819 / 32GDPval37.824 / 32GPQA_HLE_Reasoning14.927 / 32GSO19.413 / 16IFBench27.228 / 32LMArenaCreativeOrOpenEnded45.325 / 32LMArenaSearchDocument79.317 / 30LMArenaText45.325 / 32LiveCodeBench100.01 / 2LongContextRecall56.121 / 32MCPAtlas21.923 / 28OutputSpeed99.92 / 32SWEBenchMultilingual92.59 / 27SWEBenchPro52.527 / 29SWEBenchVerified0.031 / 31SWEComposite27.631 / 32SWERebench0.030 / 31SciCode18.227 / 32SonarBugDensity65.013 / 20SonarComposite59.311 / 32SonarFunctionalSkill78.97 / 20SonarIssueDensity25.212 / 20SonarVulnerabilityDensity56.011 / 20TTFT74.822 / 32Tau2Bench0.031 / 32TerminalBench0.131 / 32 sources aistupidlevelarc_agiartificial_analysislivecodebenchlmarenaopenrouterswebenchswerebenchterminal_benchmissing none
gemini-2.5-pro	google	15.1 down 6.3 since last refresh	30.3 down 3.9 since last refresh	36.6 down 7.3 since last refresh	28.7 down 5.4 since last refresh	▸
group breakdown A_B22.329 / 32A_I30.528 / 32A_P48.328 / 32A_R18.929 / 32BUILD35.429 / 32CRE0.032 / 32GEN14.229 / 32LM_ARENA_REVIEW_PROXY0.032 / 32OPS_long87.68 / 32OPS_precision83.017 / 32OPS_review86.011 / 32PLAN26.229 / 32 metrics AI_code7.526 / 32AI_complexity7.528 / 32AI_context_awareness15.35 / 32AI_correctness7.528 / 32AI_edge_cases7.528 / 32AI_efficiency50.626 / 32AI_hallucination_resistance28.225 / 32AI_memory_retention92.56 / 32AI_parameter_accuracy65.922 / 32AI_plan_coherence76.86 / 32AI_recovery7.528 / 32AI_refusal7.529 / 32AI_spec7.528 / 32AI_stability86.521 / 32AI_task_completion92.53 / 32AI_tool_selection67.111 / 32ARC_AGI_23.721 / 25ArtificialAnalysisCoding23.528 / 32ArtificialAnalysisIntelligence13.928 / 32ArtificialAnalysisReasoning43.523 / 32BlendedCost78.917 / 31ContextWindow100.05 / 30CopilotArenaOrLMArenaCode0.031 / 32GDPval35.726 / 32GPQA_HLE_Reasoning43.523 / 32GSO0.016 / 16IFBench17.329 / 32LMArenaCreativeOrOpenEnded0.032 / 32LMArenaSearchDocument0.030 / 30LMArenaText0.032 / 32LongContextRecall64.516 / 32MCPAtlas58.413 / 28OutputSpeed91.95 / 32SWEBenchMultilingual36.017 / 27SWEBenchPro75.725 / 29SWEBenchVerified33.530 / 31SWEComposite35.130 / 32SWERebench0.031 / 31SciCode30.824 / 32SonarBugDensity65.014 / 20SonarComposite59.312 / 32SonarFunctionalSkill78.98 / 20SonarIssueDensity25.213 / 20SonarVulnerabilityDensity56.012 / 20TTFT70.526 / 32Tau2Bench1.830 / 32TerminalBench1.630 / 32 sources arc_agiartificial_analysisgsolmarenaopenrouterswebenchswerebenchterminal_benchmissing none
grok-code-fast-1	xai	47.3	24.6	36.5 down 0.5 since last refresh	33.2 down 0.2 since last refresh	▸
group breakdown A_B75.38 / 32A_I90.14 / 32A_P67.16 / 32A_R93.33 / 32BUILD29.230 / 32CRE47.824 / 32GEN15.727 / 32LM_ARENA_REVIEW_PROXY15.027 / 32OPS_long62.831 / 32OPS_precision48.331 / 32OPS_review51.331 / 32PLAN12.632 / 32 metrics AI_code33.211 / 32AI_complexity58.38 / 32AI_context_awareness0.030 / 32AI_correctness100.012 / 32AI_edge_cases100.010 / 32AI_efficiency28.230 / 32AI_hallucination_resistance100.08 / 32AI_memory_retention98.83 / 32AI_parameter_accuracy0.030 / 32AI_plan_coherence100.02 / 32AI_recovery100.014 / 32AI_refusal100.014 / 32AI_spec100.014 / 32AI_stability100.07 / 32AI_task_completion0.030 / 32AI_tool_selection0.030 / 32ARC_AGI_225.310 / 25ArtificialAnalysisCoding0.032 / 32ArtificialAnalysisIntelligence0.032 / 32ArtificialAnalysisReasoning0.032 / 32CopilotArenaOrLMArenaCode0.032 / 32GDPval5.032 / 32GPQA_HLE_Reasoning0.032 / 32IFBench0.032 / 32LMArenaCreativeOrOpenEnded47.824 / 32LMArenaSearchDocument15.025 / 30LMArenaText47.824 / 32LongContextRecall0.032 / 32OutputSpeed78.817 / 32SWEBenchVerified81.524 / 31SWEComposite45.427 / 32SWERebench26.729 / 31SciCode0.032 / 32SonarComposite50.024 / 32TTFT20.930 / 32Tau2Bench50.623 / 32TerminalBench0.032 / 32 sources aistupidlevelartificial_analysislmarenaoverridesswerebenchterminal_benchmissing BUILD/GSOBUILD/MCPAtlasOPS_long/BlendedCostOPS_long/ContextWindowOPS_precision/BlendedCostOPS_precision/ContextWindowOPS_review/BlendedCostOPS_review/ContextWindowPLAN/MCPAtlasSWEComposite/SWEBenchMultilingualSWEComposite/SWEBenchProSonarComposite/SonarBugDensitySonarComposite/SonarFunctionalSkillSonarComposite/SonarIssueDensitySonarComposite/SonarVulnerabilityDensity
glm-4.6	zai	34.2 up 0.4 since last refresh	27.9 up 0.1 since last refresh	34.6 up 0.2 since last refresh	38.3 up 0.5 since last refresh	▸
group breakdown A_B86.25 / 32A_I89.06 / 32A_P65.88 / 32A_R87.37 / 32BUILD19.532 / 32CRE22.028 / 32GEN12.231 / 32LM_ARENA_REVIEW_PROXY50.018 / 32OPS_long79.717 / 32OPS_precision86.013 / 32OPS_review83.615 / 32PLAN16.130 / 32 metrics AI_code74.27 / 32AI_complexity71.97 / 32AI_context_awareness0.031 / 32AI_correctness93.614 / 32AI_edge_cases93.212 / 32AI_efficiency85.67 / 32AI_hallucination_resistance100.09 / 32AI_memory_retention98.84 / 32AI_parameter_accuracy0.031 / 32AI_plan_coherence100.03 / 32AI_recovery55.127 / 32AI_refusal100.015 / 32AI_spec100.015 / 32AI_stability100.08 / 32AI_task_completion0.031 / 32AI_tool_selection0.031 / 32ArtificialAnalysisCoding14.929 / 32ArtificialAnalysisIntelligence5.829 / 32ArtificialAnalysisReasoning13.528 / 32BlendedCost94.77 / 31ContextWindow74.022 / 30CopilotArenaOrLMArenaCode36.729 / 32GDPval16.629 / 32GPQA_HLE_Reasoning13.528 / 32IFBench2.630 / 32LMArenaCreativeOrOpenEnded22.028 / 32LMArenaText22.028 / 32LongContextRecall5.630 / 32MCPAtlas7.526 / 28OutputSpeed71.829 / 32SWEBenchMultilingual5.024 / 27SWEBenchPro0.029 / 29SWEBenchVerified77.227 / 31SWEComposite27.032 / 32SWERebench37.328 / 31SciCode6.730 / 32SonarBugDensity19.619 / 20SonarComposite13.032 / 32SonarFunctionalSkill7.519 / 20SonarIssueDensity7.519 / 20SonarVulnerabilityDensity28.015 / 20TTFT98.34 / 32Tau2Bench38.727 / 32TerminalBench13.828 / 32 sources aistupidlevelartificial_analysislmarenaopenrouteroverridesswebenchswebench_proswerebenchterminal_benchmissing BUILD/GSOGEN/ARC_AGI_2LM_ARENA_REVIEW_PROXY/LMArenaSearchDocument

leaders now

scoring

missing data

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics

group breakdown

metrics