د. أحمد زايد، بكالوريوس طب وجراحة — طبيب ومطور حلول ذكاء اصطناعي للرعاية الصحية
عنده ٥٥ سنة، مريض سكر، وبيشتكي من حرقان بسيط في المعدة.
بالعربي بيقول: حرقان في المعدة خفيف — يعني حرقان بسيط في المعدة. مظهره مش مبين عليه أي ضيق. علاماته الحيوية تعتبر طبيعية على الحد الفاصل. ومؤشر NEWS2 بتاعه صفر. المنطق التقليدي للتقييم هيصنفه على أنه ESI مستوى ٤: حالة بسيطة، بتحتاج مورد واحد، ويتبعت لمنطقة الانتظار.
المنطق التقليدي للتقييم ده ممكن يفوت اكتشاف الأزمة القلبية بتاعته.
دي حالة تدريسية معروفة جداً في طب الطوارئ — مشهورة تحديداً لأنها بتوضح إزاي NEWS2 و ESI، لو استخدمناهم لوحدهم، ممكن يفشلوا. الراجل مريض السكر اللي سنه فوق الـ ٥٠ واللي بيجي بشكوى شبيهة بمشاكل الجهاز الهضمي، بيبقى عنده نمط خطر موثق لنوبة قلبية صامتة (Silent MI) ما بتظهرش بالتقييم الحسابي التقليدي. عشان كده صممنا SAFE-Triage بالطريقة اللي هو عليها — مش مجرد نظام بيعتمد على تقييم واحد، لكن كبنية متعددة الطبقات بتفصل بين اللي بيجيده الذكاء الاصطناعي واللي بتعمله القواعد المحددة بشكل آمن.
ودي نفس الحالة اللي استخدمناها في عرض SAFE-Triage.
قسم الطوارئ المصري: الأرقام بتقول إيه بالظبط؟
قبل ما أشرح النظام، لازم تفهم إحنا عملناه ليه أصلاً.
مصر عندها ١.٤ سرير مستشفى لكل ألف شخص. المعدل العالمي هو ٢.٩. متوسط وقت النقل من مكان الحادث لقسم الطوارئ بيوصل لـ ١٨٩.٧ دقيقة — وده معناه إن كتير من مصابي الحوادث بيكونوا عدوا خلاص فترة التدخل الطبي المتاح. في المستشفيات الحكومية المصرية، المراجعات أثبتت إن الالتزام بتطبيق NEWS2 و ESI شبه غايب في معظم الأماكن. الأجهزة مش متوفرة باستمرار. طاقم التمريض بيشتغل تحت ضغط إدراكي شديد.
كمان فيه مشكلة لغوية أغلب أدوات فرز الذكاء الاصطناعي ما بتتعاملش معاها: المرضى في أقسام الطوارئ المصرية بيوصفوا أعراضهم باللهجة المصرية العامية، مش باللغة العربية الطبية الفصحى، وطبعاً مش بالإنجليزي. أي نظام مبني على بيانات تدريب باللغة الإنجليزية، أو حتى بالعربية الفصحى القياسية، هيفهم جزء كبير من اللي بيسمعه غلط.
وبعدين فيه مشكلة البنية التحتية. الإنترنت بيفصل. وبشكل متكرر. أي نظام فرز بالذكاء الاصطناعي بيحتاج اتصال سحابي عشان يشتغل، هو نظام هيفشل بالظبط وقت ما يكون في أمس الحاجة ليه.
٨٦.١% من طاقم الطوارئ المصري تعرضوا لعنف لفظي من المرضى أو أهلهم. و ٣٤.٣% تعرضوا لعنف جسدي. السبب الرئيسي، اللي تم توثيقه أكتر من مرة، هو الإحساس بالانتظار العشوائي — يعني الإحساس إن قرارات الفرز بتتاخد بشكل عشوائي. الفرز الموضوعي والشفاف والقابل للشرح بيقلل ده بشكل مباشر. ودي مش مجرد ميزة إضافية لنظام SAFE-Triage. دي متطلب أساسي في تصميمه.
الأبحاث بتقول إيه عن فرز الذكاء الاصطناعي؟
النقاش حوالين فرز الذكاء الاصطناعي فيه حماس كبير، ولو بصينا للبيانات الفعلية، هنلاقي رسالة واضحة.
دراسة مقارنة لسنة ٢٠٢٤ في Journal of Medical Internet Research اختبرت كذا نموذج لغوي كبير قدام موظفي فرز طوارئ مدربين وأطباء مش مدربين. النتيجة: أداء GPT-4 كان شبه أداء الأطباء اللي مش مدربين — مش أداء طاقم الفرز المدرب. الفشل ده كان منهجي: النماذج اللغوية الكبيرة (LLMs) كانت بتميل للفرز الزائد (overtriage)، في حين إن البشر غير المدربين كانوا بيميلوا للفرز الناقص (undertriage). والاثنين مش آمنين.
مراجعة منهجية لسنة ٢٠٢٥ أكدت: إن فرز الذكاء الاصطناعي بيحسن السرعة وبيقلل الحمل الإدراكي، لكن سلامة الحالات الخطيرة لسه بتعتمد على التحقق البشري المدرب في كل خطوة.
JAMA Network Open وثقت في سنة ٢٠٢٦ إن الفرز الزائد والفرز الناقص لسه بيمثلوا إخفاقات أمان نشطة في أقسام الطوارئ حتى مع وجود طاقم مدرب بالكامل ومن غير أي ذكاء اصطناعي. ده هو خط الأساس. يعني دي مش مشكلة اتحلت.
النمط ده ثابت في كل الأدبيات العلمية: إن أي نموذج لغوي كبير (LLM) يتحط في موقع اتخاذ القرار — يعني يحدد درجة الخطورة بشكل مباشر — ده مش تصميم آمن لفرز الطوارئ. على الأقل لغاية دلوقتي. والسؤال هو: إيه شكل التصميم الآمن ده؟
٣ طرق بيفشل بيها فرز الذكاء الاصطناعي
١. مش بيقدر يكتشف الحالات غير النمطية بشكل موثوق. النماذج اللغوية الكبيرة (LLMs) بتلاقي الإجابة الأكثر احتمالاً إحصائياً. بالنسبة لمريض سكر عنده ٥٥ سنة وبيشتكي من حرقان في المعدة، الإجابة الأكثر احتمالاً هي ارتجاع المريء (GERD). أما الإجابة غير المحتملة لكن المميتة هي الاحتشاء القلبي الحاد (STEMI). أي نموذج لغوي كبير (LLM) من غير استكشاف صريح لعلامات الخطر (red-flag retrieval) — ومن غير ما يتفرض عليه يدور عليها بغض النظر عن طريقة عرض المريض لحالته — هيفوّتها.
٢. بيتهيأله (Hallucinates). النماذج اللغوية الكبيرة (LLMs) بتطلع مخرجات منطقية حتى لو البيانات ناقصة. أي نموذج يتسأل عن علامة حيوية ما تسجلتش أبداً هيطلع قيمة متوافقة مع بيانات التدريب. في الفرز، لو الجهاز تهيأله إن تشبع الأكسجين طبيعي، ده بيعتبر آلية لسوء التصنيف. مراجعة نطاقية لسنة ٢٠٢٤ عن النماذج اللغوية الكبيرة في طب الطوارئ حددت ده كأحد المخاوف الأمنية الرئيسية لتطبيقه سريرياً.
٣. مش مصمم عشان شعبك أو لغتك. معظم أنظمة فرز الذكاء الاصطناعي بيتم تدريبها على بيانات غربية وباللغة الإنجليزية. مراجعة منهجية لسنة ٢٠٢٤ لاحظت تدهور كبير في الأداء مع الفئات السكانية خارج نطاق التدريب. مريض الطوارئ المصري اللي بيوصف أعراضه باللهجة القاهرية بعيد كل البعد عن نطاقات التدريب دي.
البنية: الذكاء الاصطناعي بيستخلص ← القواعد بتقرر ← البشر بيأكدوا
SAFE-Triage بيستخدم بنية متعددة الطبقات مع تقسيم واضح للمسؤوليات. كل مكون بيعمل اللي هو شاطر فيه بشكل واضح. ومفيش أي مكون ذكاء اصطناعي بيتحط في موقع اتخاذ القرار.
طبقة استخلاص الذكاء الاصطناعي
المريض بيوصل وبيوصف شكواه — بالعربي، الإنجليزي، أو مزيج بين اللغتين. مدخلات الصوت بيتعامل معاها نموذج Google’s Chirp 2 ar-EG للتعرف على الكلام. استخلاص النص بيتم عن طريق Gemini 2.5-flash عبر Google Vertex AI، وده بيحدد الشكوى الرئيسية، والأعراض المصاحبة، وأنماط علامات الخطر المحتملة، وبعدين بيطلع مجموعة ميزات منظمة.
طبقة معالجة اللغة الطبيعية العربية (Arabic NLP) بتعتمد على معجم منتقى فيه ٢,١٠١ كلمة مفتاحية عربية، منها ١,٨٥٨ مصطلح ومتغير بلهجة مصرية، وبتتطابق مع ٦,٣٧٠ مفهوم من SNOMED-CT مع مرجعية ICD-10 المتبادلة. التغطية ثنائية اللغة دي — من العامية المصرية للغة الطبية الموحدة — هي، على حد علمنا، أول نظام يوصف علناً من نوعه.
نموذج كبير تاني مفتوح الوزن، Gemma 4 27B-IT، بيتم نشره عن طريق Vertex AI Model Garden، بيشتغل كمراجع احتياطي في الخفاء — وده اللي بنعتبره فحص “كبير الأطباء المقيمين” على عملية الاستخلاص الأولية.
محرك القواعد المحددة
قرار الفرز الفعلي بيتاخد عن طريق محرك قواعد Python محدد (deterministic) بينفذ نقاط اتخاذ القرار من A لـ D في ESI الإصدار الخامس وعتبات NEWS2، وهي أكواد تم استخلاصها من دليل AHRQ ESI الإصدار الخامس ومتخزنة في قاعدة بيانات SQLite محلية. وده اللي بيشتغل لما الإنترنت بيفصل. القواعد دي مش بتتغير. ومينفعش يتم تجاوزها للأسفل بأي مكون ذكاء اصطناعي. درجة NEWS2 من ٧ أو أكتر بتفعل ESI 1 بشكل غير مشروط. حد الأمان محدد بشكل ثابت في البرمجة.
طبقة ضمان الجودة غير المتزامنة
MedGemma 4B-IT بتعمل مراجعة ضمان جودة غير متزامنة — يعني بتحدد الأنماط غير النمطية عشان يلفت انتباه البشر ليها. الأهم من كده، إنها مش بتعدل درجة خطورة الفرز. وملهاش دور في اتخاذ القرار. هو نظام لتوجيه الانتباه: بيظهر الحالات اللي الطبقة المحددة صنفتها على إنها أقل خطورة لكن فيها أنماط سريرية تستاهل إننا نبص عليها تاني.
في الاختبارات اللي تمت على ١٧ حالة KTAS حرجة أو على وشك الخطر، MedGemma علمت على ١٢ حالة من أصل ١٧ للمراجعة الإضافية (٧١%). Gemma 4 27B-IT حلت ٦ حالات من أصل ١٧ في دورها كمراجع في الخفاء بدون أي تراجعات. دي نتائج اختبارات أولية، مش ادعاءات لنظام شغال فعلياً — لكنها بتوضح إن البنية متعددة الطبقات بتشتغل بالظبط زي ما هو مخطط ليها.
بوابة تأكيد الطبيب
كل قرار فرز بيتم تأكيده من طبيب قبل ما يتطبق على مسار المريض. الذكاء الاصطناعي يقدر يرفع درجة الخطورة. لكن ما يقدرش يقللها. والطبيب يقدر يلغي أي حاجة.
المعيار التجريبي بيورينا إيه؟
على مجموعة تعليمات الفرز MIMIC-IV-Ext (MIETIC, ن=٣٦) — اللي هي معيار تجريبي معتمد من خبراء ومتوافق مع ESI — نظام SAFE-Triage حقق الآتي: – ٣٥/٣٦ تطابق دقيق مع ESI (بنسبة ٩٧.٢%) – ٣٦/٣٦ تطابق بفارق مستوى واحد (بنسبة ١٠٠%) – ٠/٣٦ فرز ناقص حرج
الحالة الوحيدة اللي مكنتش متطابقة كانت فرز زائد آمن: النظام توقع ESI 2 لحالة الخبير صنفها ESI 3. يعني خطورة أعلى، مش أقل. والنظام أخطأ هنا لصالح الأمان.
النسخة العربية من نفس المعيار التجريبي أنتجت مصفوفة تشويش (confusion matrix) متطابقة.
للمقارنة: الدراسات المنشورة عن ممرضات مدربين على ESI في سيناريوهات قياسية بتوضح تطابق دقيق بنسبة ٥٩.٢% (Mistry et al., 2018) و ٥٩.٦% (Jordi et al., 2015). تصميم SAFE-Triage للذكاء الاصطناعي المقيد بيقلل من التباين اللي متوثق بقاله كتير في فرز البشر القائم على السيناريوهات — ورغم إن دي مقارنة غير مباشرة، مش تجربة وجهاً لوجه.
اختبار الضغط متعدد البروتوكولات لـ KTAS (١,٢٦٢ حالة) جاب تطابق دقيق بنسبة ٣٧.٨%، و ٨١.٦% تطابق بفارق مستوى واحد، و ١.٣% فرز ناقص حرج. وده متوقع: لأن KTAS و ESI بروتوكولات مختلفة. الهدف من الاختبار ده كان قياس المتانة تحت ظروف عدم توافق البروتوكولات، مش التحقق من الأداء. معدل التطابق بفارق مستوى واحد اللي فضل فوق الـ ٨٠% تحت معيار فرز مختلف تماماً، دي إشارة مهمة.
دي نتائج معايير تجريبية بأثر رجعي. ونظام SAFE-Triage لسه متطبقش في الاستخدام السريري. الدراسة المستقبلية للتحقق من الصلاحية في قسم طوارئ مصري هي الخطوة الجاية الضرورية.
علاقة المشروع بالتأمين الصحي الشامل المصري
مصر في منتصف التحول لنظام التأمين الصحي الشامل — وهو نظام هيتطلب لأول مرة توثيق موحد وقابل للمراجعة للقرارات السريرية في كل المستشفيات المصرية. SAFE-Triage بيطلع سجلات فرز مصنفة حسب ESI، ومكودة بـ SNOMED، ومسجلة بـ ICD-10، ومؤرخة بالوقت، مع سجل تدقيق (audit logging) لـ BigQuery مصمم عشان يتوافق مع GAHAR ICD.03. وده مش مجرد صدفة بالنسبة لسياق الرعاية الصحية المصري. ده اللي بيطلبه التحول للتأمين الصحي الشامل.
إزاي وصلنا لهارفارد؟
أنا طبيب. وكمان كاتب طبي مستقل ومستشار ذكاء اصطناعي على Upwork — بشتغل بالليل وفي الويك إند. الدخل الحر ده هو اللي مول تكاليف الـ API والبنية التحتية لـ SAFE-Triage. مش منحة. ولا فلوس مستثمرين. الكتابة هي اللي مولت.
مركز القاهرة لمسابقة Harvard Health Systems Innovation Lab Hackathon 2026 استضافته الجامعة الأمريكية بالقاهرة، بالشراكة مع أورنج مصر. فريقي تم اختياره وقبوله. برنامج Harvard HSIL بيجيب مسابقة ابتكار أنظمة الرعاية الصحية مباشرة للمناطق اللي المشاكل دي موجودة فيها — ومركز القاهرة كان معناه إننا بنشارك كفريق مصري، وبنحل مشكلة مصرية، قدام ناس فاهمة كويس نظام الرعاية الصحية المصري.
اختيارنا كان تأكيد إن صياغة المشكلة كانت صح.
المشروع اتقدم من وقتها لمسابقة Triagegeist ومسابقة MedGemma (جوجل، ٢٠٢٦). العرض المباشر متاح على safe-triage-ai.web.app. وكود المصدر موجود على github.com/DrAhmed7887/safe-triage-project.
ليه البنية المعمارية مهمة؟
المساهمة اللي SAFE-Triage بيطالب بيها مش مجرد رقم أداء. أرقام الأداء حقيقية، لكنها جاية من ٣٦ حالة معيارية وتستاهل قدر مناسب من التواضع. المساهمة الحقيقية هي النمط المعماري نفسه: تصميم ذكاء اصطناعي مقيد بيخلي الذكاء الاصطناعي التوليدي يتعامل مع اللي بيجيده — فهم اللغة، تغطية اللهجات، استخلاص الميزات — في حين إن القواعد المحددة بتحتفظ بسلطة اتخاذ القرار الحرجة للسلامة.
النمط ده قابل للنقل. أي مكان سريري بيفكر في دعم القرار بمساعدة النماذج اللغوية الكبيرة (LLM-assisted decision support) بيواجه نفس التحدي: إن النموذج اللغوي الكبير (LLM) قوي، لكن وضعه في موقع اتخاذ القرار بيخلق مخاطر لسه مش ممكن إدارتها بالكامل. الإجابة مش إننا نتجنب الذكاء الاصطناعي. الإجابة هي إننا نكون دقيقين في تحديد اللي بيعمله الذكاء الاصطناعي واللي بتعمله القواعد.
الذكاء الاصطناعي بيستخلص. القواعد بتقرر. البشر بيأكدوا.
الراجل مريض السكر اللي عنده ٥٥ سنة وبيقول “حرقان في المعدة خفيف” يستاهل نفس الفرصة عشان نكتشف الأزمة القلبية بتاعته زي أي مريض في أي مكان. وده هو اللي اتعمل النظام ده علشانه.
د. أحمد زايد، بكالوريوس طب وجراحة هو طبيب ومطور حلول ذكاء اصطناعي للرعاية الصحية. SAFE-Triage هو نموذج أولي في مرحلة البحث. لم يتم تطبيقه في الاستخدام السريري. بيانات المعايير التجريبية المعروضة هي نتائج بأثر رجعي، وليست نتائج سريرية. عرض مباشر: safe-triage-ai.web.app. المصدر: github.com/DrAhmed7887/safe-triage-project. تم قبوله واختياره لمسابقة Harvard Health Systems Innovation Lab Hackathon 2026 (مركز القاهرة، الجامعة الأمريكية بالقاهرة / أورنج مصر).
المصادر
- Masanneck L et al. Triage Performance Across LLMs, ChatGPT, and Untrained Doctors. J Med Internet Res. 2024;26:e53297. PMID: 38875696.
- Wang C et al. Patient Triage and Guidance in EDs Using LLMs. J Med Internet Res. 2025;27:e71613. PMID: 40374171.
- Yi N et al. Effects of AI on ED Triage: Systematic Review. J Nurs Scholarsh. 2025. PMID: 39262027.
- Preiksaitis C et al. LLMs in Emergency Medicine: Scoping Review. JMIR Med Inform. 2024. PMID: 38728687.
- Hoffmann JA et al. Overtriage and Undertriage in EDs. JAMA Netw Open. 2026. PMID: 41874504.
- Olawade DB et al. Human in the Loop AI in Healthcare. Int J Med Inform. 2026. PMID: 41740273.
- Zachariasse JM et al. Performance of Triage Systems: Systematic Review. BMJ Open. 2019. PMID: 31142524.
- Mistry B et al. Multicenter Assessment of ESI Reliability. Ann Emerg Med. 2018. [From SAFE-Triage Academic Review Brief v1.2]
- Jordi K et al. ESI Accuracy in Swiss Hospitals. Swiss Med Wkly. 2015. [From SAFE-Triage Academic Review Brief v1.2]
Licensed physician and clinical AI specialist. Founder and Editor-in-Chief of ZayedMD, a physician-led medical publication covering clinical AI, neurology, metabolic health, and evidence-based patient guidance.

