تحديد هوية الأشخاص
تحديد هوية الأشخاص
لا تزال عملية إعادة تحديد هوية الأشخاص تواجه العديد من التحديات المتعلقة بعوامل مختلفة، مثل الوضعيات المعقدة، والحجب، وعدم المحاذاة، وضعف الكشف. تركز الدراسات الحديثة في هذا المجال على استخلاص المعلومات المحلية من جسم الإنسان، لكن معظمها يعتمد على إشراف كامل أثناء التدريب.
نقترح في هذه الورقة البحثية شبكة عصبية جديدة قابلة للتدريب من البداية إلى النهاية، تُسمى شبكة إسقاط الانتباه (ADN)، لاكتشاف إشارات بصرية غنية ومتنوعة دون الحاجة إلى تحليل دلالي بشري إضافي. تهدف ADN إلى إيجاد معلومات محلية دقيقة لمعالجة تحديات إعادة تحديد هوية الأشخاص الشائعة.
تتكون شبكتنا من فرعين: فرع الانتباه العالمي، الذي يتعلم المناطق المحلية على مستوى البكسل بناءً على آلية انتباه دقيقة، وفرع إسقاط الميزات، الذي يتعلم الميزات الإضافية المفقودة بطريقة إشرافية ضعيفة. تسمح آلية الانتباه الدقيقة لنموذجنا بأن يكون قويًا في مواجهة تغيرات الوضعيات المعقدة وتجنب الخلفيات الزائدة. أظهرت تجارب مكثفة على ثلاث مجموعات بيانات مرجعية (Market-1501 وDukeMTMC-reID وCUHK03) فعالية الشبكة المقترحة وقدرتها على التعامل مع مشكلات الوضعيات المعقدة، وعدم المحاذاة، والحجب. مقدمة: يهدف التعرف على الأشخاص (Re-ID) إلى تحديد هوية المشاة من خلال كاميرات مراقبة غير متداخلة موزعة في مواقع مختلفة (Gong et al., 2014). وله تطبيق بالغ الأهمية في مجال المراقبة بالفيديو (Bialkowski et al., 2012). ومع ذلك، لا يزال التعرف على الأشخاص يواجه العديد من التحديات في التمييز بدقة بين أهداف محددة في سيناريوهات مراقبة مختلفة. غالبًا ما تعاني صور المشاة من مشاكل في الخلفية (غوربل وآخرون، 2019؛ تيان وآخرون، 2018)، وتفاوت الإضاءة (هوانغ وآخرون، 2019)، والحجب الشديد (هوانغ وآخرون، 2018)، وعدم تحديد وضعية الجسم (تشو ويون، 2016). تؤثر هذه المشاكل مجتمعةً على أداء أنظمة إعادة تعريف الأشخاص.
في الواقع، عادةً ما تظهر صور الشخص نفسه من زوايا وأوضاع مختلفة بشكل ملحوظ، مما يزيد من التباين داخل الفئة الواحدة (وانغ وآخرون، 2015). بالإضافة إلى ذلك، قد تتشابه الصور التي تنتمي إلى فئات مختلفة تشابهًا كبيرًا باستثناء بعض الاختلافات الطفيفة، مما يقلل من التباين بين الفئات.
لذا، يتمثل التحدي الرئيسي لأي نظام لإعادة تعريف الأشخاص في بناء تمثيل غني ومناسب للميزات، بحيث يكون النظام قويًا في مواجهة جميع المشاكل المذكورة أعلاه، والتغلب على التشويش بين الفئات والتباين داخل الفئة الواحدة. إلى جانب صعوبات استخلاص السمات، يُعدّ صغر حجم العينة في بعض قواعد بيانات إعادة تعريف الهوية الشخصية عائقًا أمام بناء نموذج جيد لتباين كل هوية داخل الفئة الواحدة (Gong et al., 2014).
وقد خُصصت العديد من الدراسات في الأدبيات العلمية لمعالجة هذه التحديات. في السنوات الأخيرة، شاع استخدام الشبكات العصبية الالتفافية (CNNs) لاستخلاص سمات متعددة المستويات، مما يُسهم في الحصول على تمثيل أكثر دقة لكل صورة. وقد أظهر Wang et al. (2018) أن أساليب التعلم العميق (القائمة على الشبكات العصبية الالتفافية) تُحقق معدلات تعرّف أعلى من الأساليب التقليدية. وتتعلم بعض أساليب إعادة تعريف الهوية الشخصية الحالية السمات المميزة وقياس التشابه (Ahmed et al., 2015, Hermans et al., 2017, Zheng et al., 2017). أظهرت العديد من الدراسات الحديثة أهمية تضمين المعلومات المحلية لصور الأشخاص للتعامل مع التباينات الكبيرة في المظهر (Huang et al., 2017; Li et al., 2017; Yao et al., 2019). وبالمثل، تعتمد دراسات أخرى على معلومات مكانية إضافية لمنع تشويش الخلفية وعدم المحاذاة العشوائية (Wei et al., 2018; Zheng et al., 2019). كما يُستخدم التجزئة الدلالية لتوجيه النموذج لاستخراج الميزات من منطقة محددة في الصورة (Gao et al., 2019; Ghorbel et al., 2019; Ghorbel et al., 2020; Song et al., 2018)، إلا أن هذه الأساليب تتطلب مجموعات بيانات مصنفة ضخمة وتكاليف حسابية إضافية كبيرة.
في الآونة الأخيرة، اتجهت العديد من الدراسات إلى استخدام آلية الانتباه، التي تُعدّ طريقة فعّالة لتحسين أداء شبكات إعادة تعريف الهوية (Re-ID) (جيانغ وآخرون، 2020؛ لي وآخرون، 2019؛ لي، تشو وآخرون، 2018؛ سي وآخرون، 2018؛ شو وآخرون، 2018). مع ذلك، تتجاهل معظم هذه الدراسات التفاصيل الدقيقة التي قد تحتوي على سمات تمييزية مهمة. وفي السياق نفسه، اكتسب التعلّم شبه الموجّه (كاو وآخرون، 2015؛ تشانغ وآخرون، 2018)، الذي يسمح بإيجاد المنطقة الأكثر تمييزًا في الصورة باستخدام تصنيفات مستوى الصورة فقط، شعبيةً واسعةً كحلٍّ لمشكلة ندرة البيانات المصنّفة في مجال رؤية الحاسوب. وقد أثبتت هذه الأساليب فعاليتها في تحديد مواقع الكائنات (غاو وآخرون، 2018؛ تشانغ، يانغ وآخرون، 2018)، لكنها لا تغطي سوى الجزء الأكثر تمييزًا من الكائن، وليس منطقة الكائن بأكملها. خُصصت أعمال أخرى لتصميم أساليب إعادة الترتيب (منصوري وآخرون، 2021؛ تشونغ وآخرون، 2017) بهدف تحسين أداء إعادة تعريف الهوية الشخصية من خلال إعادة ترتيب قائمة الترتيب لأي طريقة أساسية. في هذا العمل، نقوم بـ