نظم المعلومات تتسم البيانات المُجمعة
نظم المعلومات
تتسم البيانات المُجمعة في التطبيقات العملية المتعلقة بمجالات متنوعة كالصناعة والتكنولوجيا الحديثة والطب بأبعاد عالية، مما يُشكل تحديًا حقيقيًا لاستخراج البيانات. عادةً، في مهام مثل التصنيف، تحتوي مجموعات البيانات العملية على أنماط أو ميزات غير ذات صلة ومتكررة. هذه الأنماط غير مفيدة، ولا قيمة لها، وتُصعّب مهمة التعلم الآلي. تؤثر الميزات غير المفيدة سلبًا بشكل مباشر على أداء مصنفات التعلم الآلي من حيث الدقة وتكلفة الحساب. لذلك، تُعد عملية استكشاف الأنماط غير المفيدة وإزالتها ضرورية لبناء مصنفات تعلم آلي فعالة (حسين، نيغاز، تشو، وحسين، 2021).
يُرجى ملاحظة أن هذه البيانات غير مفيدة، لذا فهي تُعدّ ضرورية لبناء مصنفات تعلم آلي فعالة. يُعدّ اختيار الميزات (FS) إجراءً أساسيًا في المعالجة المسبقة، وهو مصمم لاكتشاف الميزات/الأنماط غير المفيدة وإزالتها من مجموعة البيانات قيد المعالجة (مافارجا، الجراح، حيدري، حموري، وآخرون، 2018). يُصنّف اختيار الميزات عمومًا إلى ثلاث مجموعات رئيسية: الإشرافي (نيجاز، حسين، وحسين، 2020)، وشبه الإشرافي (بلال، الغزيل، وأوسيم، 2012)، وغير الإشرافي (شانغ، وانغ، ستولكين، وجياو، 2017). يعتمد اختيار الميزات الإشرافي على تصنيفات الفئات لاختيار الميزات الأنسب لمهام التصنيف، بينما لا يحتاج اختيار الميزات غير الإشرافي إلى بيانات مصنفة. في المقابل، يُعدّ اختيار الميزات شبه الإشرافي مناسبًا عندما تتوفر بيانات مصنفة وغير مصنفة في مجموعة البيانات. وقد عُرضت في الأدبيات العلمية العديد من مناهج اختيار الميزات التي تنتمي إلى المجموعات الثلاث المذكورة. على سبيل المثال، يُعد اختيار الميزات القائم على الارتباط (CFS) الذي اقترحه نيغاز وحسين وآخرون (2020)،
واختيار الميزات القائم على نظرية الرسم البياني الطيفي الذي قدمه تشاو وليو (2007)، مثالين على أساليب اختيار الميزات الخاضعة للإشراف. بينما تمثل تقنية اختيار الميزات باستخدام التحليل الطيفي (بيلال وآخرون، 2012) واختيار الميزات الأمامي (رين، تشيو، فان، تشنغ، وفيليب، 2008) أنواعًا من أساليب اختيار الميزات شبه الخاضعة للإشراف.
أما في حالة اختيار الميزات غير الخاضع للإشراف، فقد قدم شانغ وآخرون في عام 2017 خوارزمية فعالة تُسمى "التعلم الطيفي غير السالب واختيار الميزات المنتظم ثنائي الرسم البياني القائم على الانحدار المتفرق" (NSSRD). بالإضافة إلى ذلك، هناك منهجان آخران، هما: نظام اختيار الميزات المُنتظم بالرسم البياني القائم على تعلم الفضاء الجزئي، ونظام اختيار الميزات المُنتظم بالرسم البياني المزدوج القائم على التمثيل الذاتي، وهما أيضًا من مناهج اختيار الميزات غير الخاضعة للإشراف، وقد اقترحهما شانغ وآخرون في عام 2016 (Shang, Wang, et al., 2016, Shang, Zhang, et al., 2016).

يُعدّ الوصول إلى أفضل مجموعة فرعية من الميزات مهمةً صعبةً في عملية اختيار الميزات. ولمعالجة التعقيد المرتبط بهذه المشكلة، يلزم اتباع نهج تحسين متطور وقوي. تقترح هذه الورقة البحثية نهجًا فعالًا لاختيار الميزات يعتمد على نسخة منطقية من خوارزمية تحسين سرب الجسيمات (BPSO) مُعززة بديناميكيات السكان التطورية (EPD). يُساعد التحسين المقترح خوارزمية BPSO على تجنب عقبات الحلول المثلى المحلية من خلال تعزيز قدرتها على الاستكشاف. في خوارزمية BPSO-EPD، يتم استبعاد النصف الأسوأ من الحلول عن طريق إعادة ترتيبها حول الحلول المثلى المختارة من النصف الأفضل. تُستخدم ست آليات للاختيار الطبيعي، تشمل: الاختيار القائم على الأفضل، والبطولة، وعجلة الروليت، وأخذ العينات العشوائي الشامل، والترتيب الخطي، والاختيار العشوائي، لاختيار الحلول التوجيهية. ولتقييم أداء التحسين المقترح، تم استخدام 22 مجموعة بيانات موثوقة تم جمعها من مستودع UCI. تُظهر النتائج التجريبية تفوق أساليب اختيار الميزات المقترحة القائمة على EPD، لا سيما متغير BPSO-TEPD، عند مقارنته بـ BPSO التقليدي وخمسة متغيرات أخرى قائمة على EPD. فعلى سبيل المثال، عند استخدام مجموعة بيانات SpecEW، يمكن تحقيق زيادة في الدقة بنسبة 6.7% لـ BPSO-TEPD. وبالتالي، تفوق أسلوب BPSO-TEPD أيضًا على مُحسِّنات أخرى معروفة، بما في ذلك متغيران ثنائيان من PSO باستخدام دالة نقل على شكل حرف S (SBPSO) ودالة نقل على شكل حرف V (VBPSO)، وخوارزمية تحسين الجراد الثنائية (BGOA)، وخوارزمية البحث الجاذبي الثنائية (BGSA)، ومُحسِّن أسد النمل الثنائي (BALO)، وخوارزمية الخفاش الثنائية (BBA)، وخوارزمية سرب السلب الثنائية (BSSA)، وخوارزمية تحسين الحوت الثنائية (BWOA)، وخوارزمية التحسين الثنائية القائمة على التعليم والتعلم (BTLBO). تؤكد هذه النتيجة على الأداء المتميز لاستراتيجيات EPD في تطوير قدرة خوارزمية BPSO عند التعامل مع مشاكل اختيار الميزات.
وبناءً على آلية الاختيار، تُقسم مناهج اختيار الميزات إلى فئتين: التصفية والتغليف (Mafarja, Aljarah, Heidari, Hammouri, et al., 2018). في وضع التصفية، يتم اختيار مجموعة الميزات الفرعية بشكل منفصل عن مُصنِّف التعلم (Bolón-Canedo, Sánchez-Maroño, & Alonso-Betanzos, 2015). تُقاس جودة الميزة بإعطائها درجة باستخدام طريقة إحصائية لتقييم الميزات مثل مربع كاي (ليو وسيتونو، 1995)، ونسبة الكسب (كوينلان، 1993)، وكسب المعلومات (كوينلان، 1986).