نعرض لكم زوارنا أهم وأحدث الأخبار فى المقال الاتي:
مقارنة بين نموذجي OpenAI o3-mini و DeepSeek-R1, اليوم الأربعاء 5 فبراير 2025 08:34 مساءً
أطلقت شركة OpenAI آخرًا نموذج o3-mini الجديد، وأتاحته لجميع مستخدمي ChatGPT. وكان ذلك بعد إطلاق نموذج DeepSeek-R1 بمدة قصيرة، وهو نموذج صيني أحدث ضجة كبيرة في الوسط التقني بفضل قدراته المتقدمة وتكلفته المنخفضة. ومنذ ظهوره، بدأت المقارنات بينه وبين النماذج اللغوية الأكثر شعبية.
في هذا المقال، سنوضح الفرق بينه وبين النموذج الأحدث من OpenAI، استنادًا إلى نتائج بعض الاختبارات العالمية المصممة لاختبار قدرات نماذج الذكاء الاصطناعي.
اختبار LiveBench
LiveBench هو اختبار لتقييم أداء النماذج اللغوية الكبيرة (LLMs) في مجموعة متنوعة من المهام، مثل: الرياضيات، والبرمجة، والتفكير المنطقي، واللغة، واتباع التعليمات، وتحليل البيانات.
فيما يلي نتائج الاختبارات التي حصل عليها كل من o3-mini و R1 في المهام المختلفة:
متوسط الأداء العام:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 73.94.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 71.38.
يتفوق o3-mini بفارق طفيف في الأداء العام.
متوسط الأداء في التفكير والاستدلال:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 89.58.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 83.17.
يتفوق o3-mini في مهام التفكير المنطقي، مما يدل على قدرته القوية على التحليل واستخلاص النتائج.
متوسط الأداء في البرمجة:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 82.74.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 66.74.
يتفوق o3-mini بنحو كبير في البرمجة، مما يشير إلى فهمه العميق للتعليمات البرمجية، وقدرته على حل المشكلات البرمجية المختلفة.
متوسط الأداء في الرياضيات:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 65.65.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 79.54.
يتفوق DeepSeek-R1 في المهام الرياضية، مما يشير إلى قدرته العالية على الاستدلال العددي وحل المشكلات الحسابية.
متوسط الأداء في تحليل البيانات:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 70.64.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 69.78.
يتفوق o3-mini بنحو بسيط في تحليل البيانات ومعالجتها.
متوسط الأداء اللغوي:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 50.68.
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 48.53.
يتفوق o3-mini بنحو طفيف في المهام اللغوية.
متوسط الأداء في مجال فهم المعلومات:
- نموذج OpenAI o3-mini: حصل على نتيجة تبلغ 84.36
- نموذج DeepSeek-R1: حصل على نتيجة تبلغ 80.51
يتفوق o3-mini في الفهم العام لمختلف المهام.
اختبارات أخرى:
اختبار NYT Connections لحل الألغاز:
- حصل o3-mini على 72.4 نقطة، مما يجعله من أفضل النماذج في حل الألغاز.
- حصل DeepSeek-R1 على 54.4 نقطة، مما يعني أن o3-mini يتفوق عليه بفارق 18 نقطة.
اختبار Humanity’s Last Exam لقياس دقة النموذج وقدرته على تقديم إجابات صحيحة:
- نموذج o3-mini (high): يتمتع بدقة تبلغ 13.0%.
- نموذج DeepSeek-R1: يتمتع بدقة تبلغ 9.4%.
يتمتع o3-mini بدقة أعلى، مما يدل على قدرته العالية على تقديم إجابات صحيحة.
السعر:
النموذج | السعر لكل مليون رمز إدخال | السعر لكل مليون رمز إخراج |
O3-mini | 55 سنتًا. | 4 دولارات و 40 سنتًا. |
DeepSeek-R1 | 14 سنتًا. | دولارين و 19 سنتًا. |
تُعد التكلفة أمرًا مهمًا لمطوري التطبيقات، وتشير هذه الأرقام إلى أن DeepSeek-R1 هو الخيار المناسب لمن يبحثون عن نموذج اقتصادي.
الخلاصة:
يتفوق نموذج OpenAI o3-mini الجديد على DeepSeek-R1 في معظم الاختبارات، خاصة في الاستدلال والبرمجة والأداء العام. ومع ذلك، يتفوق DeepSeek-R1 في الرياضيات. ومن حيث التكلفة، فإن DeepSeek-R1 أكثر اقتصادية، مما يجعله خيارًا مناسبًا لمن يبحثون عن نموذج منخفض التكلفة.
نسخ الرابط تم نسخ الرابط
0 تعليق