أنظمة الأمن، والتحقق البيومتري، والتحقيقات الجنائية،
أنظمة الأمن، والتحقق البيومتري، والتحقيقات الجنائية،
حظي التعرف على المتحدث باهتمام متزايد مؤخرًا مع تزايد الطلب عليه في تطبيقات متنوعة، مثل أنظمة الأمن، والتحقق البيومتري، والتحقيقات الجنائية، وخدمة العملاء (Alsharhan & Ramsay, 2019; B. Chen and Chen, 2013; Jahangir et al., 2021). على الرغم من أننا لا نولي اهتمامًا كبيرًا لقدرة الإنسان على تمييز المتحدثين باستخدام أصواتهم فقط، فقد ثبت أنها جزء لا يتجزأ من التفاعل بين الإنسان والحاسوب، وقد خضعت لدراسات متواصلة (شاهين وآخرون، 2021، شاهين وآخرون، 2022).
يمكن أن تكون أساليب التعرف على المتحدث معتمدة على النص، حيث ينطق المتحدث النص نفسه في كل من التدريب والاختبار، أو مستقلة عن النص، والتي لا تفرض قيودًا على النص المنطوق أثناء التدريب والاختبار.
ويمكن تصنيف تقنيات التعرف على المتحدث بشكل عام إلى التحقق من هوية المتحدث (SV) وتحديد هوية المتحدث (SI) (شاهين وآخرون، 2021). وكما هو الحال في أنظمة إدخال كلمات المرور، يُستخدم التحقق من هوية المتحدث لتحديد هوية المتحدث المُدّعى (صحيحًا أو خاطئًا) باستخدام عينة صوتية (شاهين وناصيف، 2019؛ وو وآخرون، 2006). في المقابل، عند استخدام عينة صوتية، يحاول تحديد هوية المتحدث من بين مجموعة من المتحدثين. إذا كان المتحدث المراد تحديد هويته من بين مجموعة من المتحدثين المعروفين، يُقال إن السيناريو "مغلق"؛ وإلا، يصبح "مفتوحًا".
وقد اقترحت العديد من الدراسات تقنيات لتحديد هوية المتحدث، والتي أسهمت إسهامًا كبيرًا في هذا المجال (فاريل وآخرون، 1994؛ برافين كومار وآخرون، 2018)؛ إلا أن ظروفًا مختلفة، كالبيئات الصاخبة أو الحالة العاطفية للمتحدث، قد تؤثر على أداء هذه التقنيات (بشيربور وجيرفانشيزاده، 2018). وينخفض أداء هذه الأساليب بشكل ملحوظ عند الحصول على عينات الكلام في ظروف غير مثالية، كبيئة عاطفية (هانسن وباتيل، 2007)، حيث تكون عينات الكلام عاطفية أو شديدة التعبير (غيوركو وآخرون، 2011؛ بارثاساراثي وآخرون، 2017). تُعرف عينات الكلام التي يتم الحصول عليها في ظروف لا يتأثر فيها المتحدث بأي نوع من المشاعر بعينات الكلام "المحايدة"، بينما تُعرف تلك التي تُسجل تحت تأثير أي نوع من المشاعر (مثل السعادة، والحزن، والغضب، وما إلى ذلك) بالكلام العاطفي. يُغير الكلام العاطفي الخصائص الصوتية المستخرجة من العينات.
تُستخدم أنظمة التعرف على المتحدثين على نطاق واسع في تطبيقات متنوعة لتحديد هوية الشخص من خلال صوته؛ إلا أن التباين الكبير في إشارات الكلام يجعل هذه المهمة صعبة. ويُعدّ التعامل مع التغيرات العاطفية أمرًا بالغ الصعوبة لأن المشاعر تُغيّر خصائص صوت الشخص؛ وبالتالي، تختلف السمات الصوتية عن تلك المستخدمة لتدريب النماذج في بيئة محايدة.
لذلك، تفشل نماذج التعرف على المتحدثين المدربة على كلام محايد في تحديد المتحدثين بدقة تحت ضغط عاطفي. على الرغم من التقدم الكبير الذي أُحرز في تحديد هوية المتحدثين باستخدام الشبكات العصبية الالتفافية (CNN)، إلا أن هذه الشبكات لا تستطيع استغلال الارتباط المكاني بين السمات منخفضة المستوى. واستلهامًا من التقديم الحديث لشبكات الكبسولات (CapsNets)، التي تعتمد على التعلم العميق للتغلب على قصور الشبكات العصبية الالتفافية في الحفاظ على علاقة الوضع بين السمات منخفضة المستوى من خلال تقنية التجميع، تبحث هذه الدراسة في أداء استخدام شبكات الكبسولات في تحديد هوية المتحدثين من تسجيلات الكلام العاطفي. تم اقتراح نموذج لتحديد هوية المتحدث قائم على شبكة CapsNet وتقييمه باستخدام ثلاث قواعد بيانات صوتية مختلفة،
وهي: قاعدة بيانات الكلام الإماراتية، ومجموعة بيانات SUSAS، وRAVDESS (متاحة للجميع). كما تمت مقارنة النموذج المقترح بالأنظمة الأساسية. تُظهر النتائج التجريبية أن نموذج CapsNet الجديد المقترح يتدرب بشكل أسرع ويقدم نتائج أفضل من أحدث الطرق المتاحة. دُرست أيضًا تأثيرات خوارزمية التوجيه على أداء تحديد هوية المتحدث من خلال تغيير عدد التكرارات، مع وجود شبكة فك التشفير وبدونها.

غالبًا ما يتم تدريب نماذج تحديد هوية المتحدث باستخدام الكلام المحايد، وتُظهر أداءً جيدًا عند اختبارها على عينات كلام في بيئة محايدة، ولكن ليس على عينات كلام مسجلة في ظروف عاطفية. ومع ذلك، فإن الكلام البشري غالبًا ما يكون عاطفيًا أو معبرًا، مما يُغير خصائص كلام المتحدث. تؤثر هذه الانحرافات في خصائص الكلام عن الكلام المحايد سلبًا على أداء النموذج في وجود مثل هذه المشاعر (D. Li et al., 2005, Nassif et al., 2021). باختصار، تُحقق بيئة التحدث المحايدة، حيث لا يكون المتحدث تحت ضغط أو عاطفة، أداءً أفضل في تحديد هوية المتحدث مقارنةً بالبيئة العاطفية (على سبيل المثال، عندما يكون المتحدث غاضبًا، أو خائفًا، أو سعيدًا، أو مرعوبًا).