دراسة: الذكاء الاصطناعي يفشل في تمييز الأمراض المتشابهة بأكثر من 80 بالمئة من الحالات

أبريل 14، 2026

الصحة الرقمية والذكاء الاصطناعي الأبحاث العلمية

دراسة: الذكاء الاصطناعي يفشل في تمييز الأمراض المتشابهة بأكثر من 80 بالمئة من الحالات

تفشل نماذج اللغة المدعومة بالذكاء الاصطناعي في تقديم تشخيص مبكر ملائم في أكثر من 80% من الحالات، ما يشير إلى أنها لا تزال غير آمنة للاستخدام السريري دون إشراف، بحسب دراسة جديدة.

خلصت دراسة جديدة إلى أنّ الذكاء الاصطناعي التوليدي لا يزال يفتقر إلى عمليات الاستدلال اللازمة لاستخدامه بشكل آمن في الممارسة السريرية. فقد حسّنت روبوتات الدردشة المعتمدة على الذكاء الاصطناعي من دقتها التشخيصية عندما تُزوَّد بمعلومات سريرية شاملة، لكنها أخفقت في إنتاج تشخيص تفريقي مناسب في أكثر من 80% من الحالات، بحسب باحثين في "ماس جنرال برايغهام"، وهي شبكة غير ربحية من المستشفيات ومراكز الأبحاث في بوسطن، وتعد إحدى أكبر المنظومات الصحية في الولايات المتحدة. وأظهرت نتائج الدراسة، المنشورة في مجلة "جاما نتوورك أوبن" (المصدر باللغة الإنجليزية) الطبية المتاحة للجميع، أنّ نماذج اللغة الكبيرة لا ترقى بعد إلى مستوى الاستدلال المطلوب للاستخدام السريري. وقال مارك سوتشي، المؤلف المشارك في الدراسة، إنّ "نماذج اللغة الكبيرة الجاهزة للاستخدام ليست مستعدة بعد لنشرها في بيئة سريرية من دون إشراف"، مضيفا أن الذكاء الاصطناعي لا يستطيع حتى الآن محاكاة التشخيص التفريقي الذي يعد جوهر التفكير السريري ويعتبره "فن الطب". ويُعد التشخيص التفريقي الخطوة الأولى التي يعتمد عليها العاملون في الرعاية الصحية لتحديد الحالة المرضية وتمييزها عن حالات أخرى ذات أعراض مشابهة.

كيف جرى اختبار النماذج

حلّل فريق البحث أداء 21 من نماذج اللغة الكبيرة، من بينها أحدث الإصدارات المتاحة من "كلود" و"ديب سيك" و"جيميني" و"جي بي تي" و"غروك". وقُيِّمت هذه النماذج عبر 29 حالة سريرية قياسية مختصرة باستخدام أداة جديدة تحمل اسم "PrIME-LLM". وتقيس الأداة قدرة النموذج في مراحل مختلفة من التفكير السريري، من وضع تشخيص أولي، وطلب الفحوص المناسبة، والوصول إلى التشخيص النهائي، وصولا إلى التخطيط للعلاج.

لقراءة المزيد