لنماذج التصنيف تطبيقات عديدة في مجالات متنوعة
لنماذج التصنيف تطبيقات عديدة في مجالات متنوعة
(ثروت، 2020). يتأثر أداء هذه النماذج بشكل كبير بالبيانات الكاملة، والتي قد تتضمن سمات غير ذات صلة أو زائدة (سالم، ليو، تشين، وتشين، 2021). يُعد اختيار السمات (FS) عمليةً تمهيديةً لاختيار السمات الأكثر إفادة واستبعاد السمات غير المرغوب فيها لتحسين أداء نماذج التصنيف. يسعى اختيار السمات إلى الحفاظ على القدرة التمييزية لمجموعة البيانات الكاملة قدر الإمكان باستخدام الحد الأدنى من مجموعة السمات الفرعية (رضا وقمر، 2018). وبالتالي، فإن تقليل حجم البيانات يقلل من وقت الحساب اللازم لمهمة التصنيف، مما يُحسّن من أدائها (رضا وقمر، 2018).
يمكن تصنيف اختيار السمات إلى طرق مُدمجة، وطرق تغليف، وطرق ترشيح (لي، بارك، دوريول، وآخرون، 2012). تتفوق طرق الترشيح على الطرق الأخرى في المعايير التالية: العملية، والبساطة، والاستقلالية، والكفاءة، وقابلية التوسع (سايز، إنزا، ولارانياغا، 2007). انطلاقًا من فوائد أساليب التصفية، نعتمدها في دراستنا.
تهدف أساليب التصفية إلى استرجاع أفضل مجموعة فرعية من السمات بناءً على أهميتها (لازار وآخرون، 2012). ومن بين المقاييس المختلفة المستخدمة في أساليب التصفية، قدمت نظرية المعلومات العديد من المقاييس الفعالة لتقدير أهمية السمات، مثل الإنتروبيا والمعلومات المتبادلة (بيناسار، هيكس، وسيتشي، 2015).
تُقدّر الإنتروبيا مدى ملاءمة السمات، بينما تُقدّر المعلومات المتبادلة مدى ملاءمة السمات وتكرارها وتكاملها. وتتمثل الفوائد الرئيسية لمقاييس نظرية المعلومات في: (1) التعامل مع أنواع مختلفة من السمات، كالسمات العددية والفئوية. (2) التعامل مع العلاقات المختلفة بين السمات، كالعلاقات الخطية وغير الخطية (لي وآخرون، 2012).
وتعتمد فعالية أطر قياس المعلومات على كمية المعلومات المستخرجة من علاقات السمات المختلفة، كالملاءمة والتكرار والتكامل (فيرغارا وإستيفيز، 2014). لسوء الحظ، قد تتأثر المعلومات المستخرجة بعملية التقطيع التي تتطلبها مقاييس المعلومات للتعامل مع السمات المتصلة (Yu, An, & Hu, 2011). ولمعالجة فقدان المعلومات الناتج عن عملية التقطيع، تم اقتراح إطارين قائمين على مقاييس المعلومات الضبابية كامتداد لمقاييس المعلومات.
يستخدم كلا الإطارين دالة انتماء لربط كل سمة بمصفوفة علاقة تشابه لتجنب عملية التقطيع. تعتمد دالة الانتماء في الإطار الأول على علاقة التشابه بين السمة والمتجه المثالي (feature-idealvector) (Lohrmann et al., 2018, Luukka, 2011) لتوليد مصفوفة علاقة التشابه، بينما يعتمد الإطار الآخر على علاقة التشابه بين السمة ونفسها (feature-feature) (Hu et al., 2006, Salem et al., 2021, Yu et al., 2011). يستخلص إطار العمل القائم على متجه الميزات المثالي مدى ملاءمة الميزات فقط، ويعاني من إغفال العلاقات المهمة كالتكرار والتكامل. بينما يستخلص إطار العمل القائم على علاقة الميزات جميع علاقات الميزات، إلا أنه يتطلب تكلفة حسابية عالية لإنشاء مصفوفة علاقات التشابه.
بالنظر إلى القيود السابقة، نقترح في هذه الدراسة إطار عمل جديدًا يُسمى المعلومات المتبادلة الضبابية القائمة على متجه مثالي (FJMIIV). يُركز إطار العمل المقترح على مزايا أطر العمل الحالية ويتغلب على قيودها. تتمثل المساهمات الرئيسية لهذه الدراسة فيما يلي:
1. اقتراح إطار عمل فعال يستخلص جميع علاقات الميزات الممكنة بأقل تكلفة حسابية.
2. مراجعة أطر العمل الرئيسية لأساليب اختيار الميزات الحالية.
3. إجراء تجربة مقارنة بين سبعة من أحدث أساليب اختيار الميزات المعروفة والمعروفة، وذلك على 15 أسلوبًا معياريًا.

يُعدّ اختيار الميزات عمليةً تمهيديةً فعّالةً تُساعد مهمة التصنيف على تحسين أدائها. وقد مثّلت مقاييس المعلومات، ولا سيما مقاييس المعلومات الضبابية، حلاً قوياً في اختيار الميزات. مع ذلك، تُعاني أُطر اختيار الميزات الحالية القائمة على مقاييس المعلومات الضبابية من أحد قيدين: (1) تجاهل علاقات الميزات المهمة كالتكرار والتكامل. (2) الحاجة إلى تكلفة حسابية عالية. وللتغلب على هذين القيدين، يُقترح في هذه الورقة إطار عمل جديد لاختيار الميزات، يُسمى المعلومات المتبادلة المشتركة الضبابية القائمة على المتجه المثالي (FJMIIV)، لاستخراج جميع علاقات الميزات الممكنة بأقل تكلفة حسابية. تمت مقارنة أداء إطار العمل المقترح مع بعض أحدث أُطر العمل على مجموعات بيانات مرجعية متنوعة. تُظهر نتائج المقارنة باستخدام أربعة مُصنِّفات معروفة أن الطريقة المقترحة تُحسِّن أداء التصنيف بفعالية.
إجراء تجربة مقارنة بين سبعة من أحدث أساليب اختيار الميزات المعروفة و15 أسلوبًا معياريًا. يتضمن هيكل بحثنا الأقسام التالية: الأعمال ذات الصلة في القسم 2. ثم، تُعرض أساسيات مقاييس المعلومات الضبابية في القسم 3. ويُقدم المنهج المقترح في القسم 4. بعد ذلك، يُعرض تصميم التجربة وتحليل النتائج في القسم 5.