أظهرت دراسة حديثة أن نماذج ذكاء اصطناعي متقدمة من شركات بينها غوغل وأوبن إيه آي (OpenAI) وأنثروبيك (Anthropic) تكبدت خسائر مالية خلال محاكاة لموسم كامل من الدوري الإنكليزي الممتاز، بحسب ما نقلته فايننشال تايمز.
وأشارت الصحيفة إلى أن الدراسة، التي أعدتها شركة (General Reasoning) الناشئة في لندن ضمن تقرير يحمل اسم كيللي بينش (KellyBench)، خلصت إلى أن هذه الأنظمة فشلت في تحقيق أرباح مستقرة من المراهنات الرياضية رغم تزويدها ببيانات تاريخية وإحصاءات تفصيلية عن الفرق والمباريات.
وتسلط النتائج الضوء على فجوة متزايدة الأهمية في سباق الذكاء الاصطناعي، فالنماذج التي تحقق تقدماً سريعاً في المهام المغلقة والمنظمة، مثل كتابة الأكواد، لا تزال تجد صعوبة في اتخاذ قرارات مالية متكررة داخل بيئات ديناميكية تتغير على مدى زمني طويل.
اقرأ أيضاً: بفضل الذكاء الاصطناعي.. الروبوتات تواجه الشيخوخة
ووفقاً لما أوردته فايننشال تايمز، اختبرت الشركة ثمانية أنظمة رائدة في محاكاة افتراضية لموسم 2023-2024، مع منح كل نموذج فرصاً متعددة لبناء استراتيجية تراهن على نتائج المباريات وعدد الأهداف مع إدارة رأس المال والمخاطر.
وبحسب النتائج المنشورة، كان كلاود أوبوس 4.6 (Claude Opus 4.6) الأفضل أداءً، لكنه سجّل في المتوسط خسارة بنحو 11%، بينما تعرض نموذج غروك 4.20 (Grok 4.20) للإفلاس في إحدى المحاولات ولم يكمل محاولتين أخريين، أما جيميناي 3.1 برو (Gemini 3.1 Pro) فنجح في تحقيق ربح بنسبة 34% في محاولة واحدة، لكنه أفلس في محاولة أخرى، ما يعكس تقلباً حاداً في الأداء وعدم قدرة على الحفاظ على استراتيجية رابحة عبر الموسم.
وخلص معدو الدراسة إلى أن جميع النماذج الرائدة التي شملها الاختبار انتهت بخسائر مالية، وأن أداءها جاء دون أداء البشر بشكل منهجي في هذا السيناريو.
اقرأ أيضاً: هل ينهي الذكاء الاصطناعي أزمة المرتجعات في التسوق الإلكتروني؟
وتضيف هذه النتائج جرعة من الواقعية إلى موجة الحماس المحيطة بقدرة الذكاء الاصطناعي على أتمتة الأعمال المعرفية، فبدلاً من أن تكون النماذج الحالية جاهزة لإدارة قرارات معقدة وممتدة زمنياً في مجالات مثل الاستثمار أو التسعير أو إدارة المخاطر، توحي الدراسة بأن تفوقها لا يزال أكثر وضوحاً في المهام المحددة قصيرة الأجل، بينما تبقى البيئات المتقلبة والمفتوحة اختباراً أصعب بكثير، كما أن الورقة نفسها لم تخضع بعد لمراجعة الأقران، ما يعني أن نتائجها تمثل مؤشراً مهماً في النقاش الدائر حول حدود الذكاء الاصطناعي، لكنها لا تشكل حكماً نهائياً بعد.
تابعونا على منصات التواصل الاجتماعي