VOL. 2026ISSUE 04محدّث حتى 2026-04-29pulseagent.io / leaderboards

لوحة المتصدرين الشهرية لنماذج LLM

Name: LLM Monthly Leaderboard — 2026-04
Creator: PulseAgent
Published: 2026-04-29T10:00:00Z
License: https://creativecommons.org/licenses/by/4.0/

أبريل 2026

ثماني فئات. أربعة وعشرون نموذجًا رائدًا. تحديث شهري. مع اقتباسات صديقة للذكاء الاصطناعي.

توليد النص والاستدلال

يدخل 2026 عصر الثلاثة الكبار — لا نموذج مهيمن واحد، الاختيار الأفضل يعتمد على المهمة المطروحة.

Previously: GPT-5.4

المتصدر الحالي

GPT-5.5

OpenAI

Released April 23, the first fully retrained foundation model since GPT-5.

الدرجة

01Terminal-Bench 2.0: 82.7%
02OSWorld-Verified: 78.7%
03GDPval: 84.9%
04ARC-AGI-2: 85.0%
051M-token context

Runners-up

№2

Claude Opus 4.7

Anthropic

Released April 16, strongest at long-context and code review.

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
Most reliable multi-step reasoning
Most thorough code-logic review
1M-token context

№3

Gemini 3.1 Pro

Google

In preview, strongest at math and algorithmic competition.

LiveCodeBench Elo: 2887
1M-token context
Lowest API price ($2/$12)
Leading video understanding
Best price-to-performance

~85

Tags1M-token contextAgentic workflowsMultimodal understanding

Text-to-Image

تحويل النص إلى صورة

يستحوذ GPT Image-2 على العرش بدقة عرض نص 99.2%، بينما يحتفظ Nano Banana 2 بميزة في التوليد الفوري.

Previously: Nano Banana 2

المتصدر الحالي

GPT Image-2

OpenAI

Highest text-rendering accuracy.

الدرجة

99.2%

01Text-rendering accuracy 99.2%
02Chinese / Arabic support
03Spatial logic & anatomical correctness
04Character consistency
05Thinking-mode reasoning engine

Runners-up

№2

Nano Banana 2

Google

Ultra-fast 4K generation with live web search.

Flash architecture, ultra-fast generation
4K image in 4-15s
Live web-search integration
Fastest on the market
Deep Gemini-ecosystem integration

4-15s

№3

Flux Pro

Black Forest Labs

Strongest open-source ecosystem.

Open-source, commercial use
Rich community ecosystem
Style diversity
Local deployment

Tags4K generationMultilingual textCharacter consistencyReal-time generation

Text-to-Video

تحويل النص إلى فيديو

خرج Sora 2 من المنافسة؛ يقود Google Veo 3.1 الآن في القدرة الإجمالية، بينما يقود Seedance 2.0 وKling 3.0 في تخصصات محددة.

Previously: Sora 2

المتصدر الحالي

Veo 3.1

Google

Native audio + multi-shot, strongest overall.

01Native audio generation
02Multi-shot narrative
03Excellent physics simulation
04YouTube-ecosystem integration

Runners-up

№2

Seedance 2.0

ByteDance

Strongest multi-shot storyboarding.

Multi-shot storyboarding
Professional cinematic language
Leading domestic Chinese model
Douyin/TikTok ecosystem integration

№3

Kling 3.0 Omni

Kuaishou

Cinematic-grade visuals + most accurate lip-sync.

Cinematic-grade visuals
Most accurate lip-sync
Kuaishou ecosystem integration
Optimized for Chinese scenarios

TagsNative audioMulti-shot narrativeCinematic visualsLip-sync

Code Generation

توليد الكود

يستعيد GPT-5.5 الصدارة في برمجة الوكيل الطرفي؛ لا يزال Claude Opus 4.7 يمتلك إعادة البناء متعدد الملفات وتنسيق الأدوات.

Previously: Claude Opus 4.6

المتصدر الحالي

GPT-5.5

OpenAI

Terminal-Bench 2.0 #1, strongest agentic coding.

الدرجة

82.7%

01Terminal-Bench 2.0: 82.7%
02Expert-SWE: 73.1%
03Autonomous coding judgment
04Fewer tokens for the same task

Runners-up

№2

Claude Opus 4.7

Anthropic

SWE-Bench Pro #1, strongest multi-file refactoring.

SWE-Bench Pro: 64.3%
MCP-Atlas: 79.1%
Multi-file logic review
Code-vulnerability detection

64.3%

№3

Gemini 3.1 Pro

Google

LiveCodeBench #1, strongest in algorithmic competition.

LiveCodeBench Elo: 2887
1M-context whole-repo analysis
Lowest price
Best for algorithmic competition

2887 Elo

TagsAgentic codingMulti-file refactoringTool orchestrationAlgorithmic competition

Text-to-Speech

تحويل النص إلى كلام

تظل ElevenLabs المعيار الصناعي لواقعية الصوت واستنساخه؛ تقود Hume AI في الصوت العاطفي.

Previously: ElevenLabs v2

المتصدر الحالي

ElevenLabs v3

ElevenLabs

Industry-benchmark voice realism.

الدرجة

9.2/10

01Realism score 9.2/10
0275ms ultra-low latency
0329+ languages
04Professional Clone quality
05Enterprise-grade API

Runners-up

№2

Hume AI Octave

Hume AI

Top of the emotional-voice leaderboard.

Emotion recognition 9.3/10
Emotional response capability
Empathetic interaction
Precise affect awareness

9.3/10

№3

GPT-4o Voice

OpenAI

Best real-time conversational experience.

Low-latency real-time conversation
Natural voice output
Multilingual real-time translation
Deep ChatGPT integration

TagsUltra-low latencyEmotional voiceVoice cloningMultilingual

AI Music Generation

توليد الموسيقى بالذكاء الاصطناعي

تظل Suno v5.5 المنصة الأكثر استخدامًا؛ تتميز الأدوات في السرعة، ما بعد الإنتاج، ونشر المؤسسات.

Previously: Suno v5

المتصدر الحالي

Suno v5.5

Suno

Most widely used AI music platform.

01Largest user base
02Studio multi-track editing
03MIDI export
04Fastest to a finished song

Runners-up

№2

Udio v1.5

Udio

Strongest post-production and stem control.

Stem download
Mix control
Key adjustment
Professional post-production

№3

Lyria 3 Pro

Google DeepMind

Best for enterprise / API deployment.

Vertex AI delivery
Structured generation
Clear copyright posture
Enterprise-grade deployment

TagsMulti-track editingMIDI exportStem controlCopyright safety

Vision Understanding

فهم الرؤية

يحتفظ GPT-4o Vision بأقوى ريادة عامة الأغراض؛ يقود Gemini Vision في فهم الفيديو وتحليل المستندات الطويلة.

المتصدر الحالي

GPT-4o Vision

OpenAI

Strongest general-purpose vision understanding.

01UI parsing
02Chart understanding
03Live visual conversation
04Multimodal fusion

Runners-up

№2

Gemini Vision

Google

Leader for video and long-document understanding.

1M-token long documents
Leading video understanding
Multi-frame analysis
Search integration

№3

Qwen-VL

Alibaba

Top open-source Chinese-scenario vision model.

Optimized for Chinese scenarios
Open-source, commercial use
Multimodal reasoning
Local deployment

TagsLive visionLong-document parsingUI parsingMultilingual

Open Source

المصادر المفتوحة

تقترب النماذج مفتوحة المصدر بسرعة من النماذج المغلقة في عدة معايير. Llama 4، DeepSeek V4، وQwen3 يشكلون الفئة الأولى.

Previously: Llama 3

المتصدر الحالي

Llama 4

DeepSeek V4

DeepSeek

Strongest open-source reasoning, upgraded architecture.

Superior math and reasoning
Best-in-class coding ability
Efficient MoE architecture
Extremely low API price

№3

Qwen3

Alibaba

Top open-source Chinese model.

Strongest Chinese understanding
Multimodal support
Agent capability
Full size coverage

TagsMultimodalCommercial useLocal deploymentLow cost

Editorial · 06 observations

ما تغير هذا الشهر

What changed across the AI model landscape this month — distilled from the data above.

من الهيمنة الفردية إلى منافسة المتخصصين

في 2026 انتقل الذكاء الاصطناعي من نموذج واحد عام الأغراض إلى نموذج 'اختر النموذج للمهمة'. كل مكان متخصص له نموذج خبير؛ التوجيه متعدد النماذج هو الآن العمارة المعيارية للمؤسسات.

GPT-5.5 وClaude Opus 4.7 — الحدود المزدوجة

صدرا في 16 و23 أبريل 2026 على التوالي، الاثنان يحددان الآن أحدث ما توصل إليه. يفوز GPT-5.5 في البرمجة الوكيلية واستخدام الطرفية؛ يفوز Claude في مراجعة الكود وإعادة البناء.

أصبح سياق 1M المعيار الجديد

من 128K إلى 1M token — يدعم Gemini 3.1 Pro وClaude Opus 4.7 وGPT-5.5 الآن جميعها سياق 1M+، مما يجعل تحليل المستودع الكامل ممكنًا.

النماذج مفتوحة المصدر تلحق بسرعة

Llama 4 وDeepSeek V4 وQwen3 يطابقون الآن النماذج المغلقة في عدة معايير بـ 1/10 من السعر أو أقل.

النماذج الصينية المحلية تخترق عالميًا

Seedance 2.0 (فيديو) وQwen3 (مفتوح المصدر) وKling 3.0 (فيديو) وQwen-VL (رؤية) دخلوا جميعًا أعلى ثلاثة عالميًا في مجالاتهم.

أسعار API تستمر في الانخفاض

انخفضت أسعار LLM API بنحو 80% في 2025-2026. خفض Gemini 2.0 Flash بسعر $0.10/1M tokens حاجز تطبيقات الذكاء الاصطناعي بشكل كبير.

المصادر

[01]
Artificial Analysisbenchmark
2026-04-29
[02]
LMArena Leaderboardcommunity leaderboard
2026-04-29
[03]
Hugging Face Open LLM Leaderboardcommunity leaderboard
2026-04-29
[04]
OpenAI Changelogofficial changelog
2026-04-29
[05]
Anthropic Newsofficial changelog
2026-04-29
[06]
Google DeepMind Blogofficial changelog
2026-04-29