تعزيز متانة التعرّف على المتحدث باستخدام نماذج التعلم العميق القابلة للتوسّع وخصائص معاملات التردد الميلي (MFCC)

محتوى المقالة الرئيسي

ياسر حسين شاكر
إسحاق عزيز عوض المنذري
علي الخزرجي
ريم علي مطلك

الملخص

يُعدّ التعرّف على المتحدث من المجالات البارزة في أنظمة الأمن الحديثة وأنظمة التفاعل بين الإنسان والحاسوب، إلا أنه غالبًا ما يواجه تحديات تتعلق بالضوضاء، واختلاف القنوات، وتنوع ظروف الكلام. استجابةً لذلك، يتناول هذا البحث دمج معاملات التردد الميلي السنسوري (MFCCs) مع نماذج التعلم العميق القابلة للتوسّع لتعزيز متانة أنظمة التعرّف على المتحدث. تم في الدراسة اختبار ثلاثة أنواع من البُنى الشبكية العصبية، وهي: الشبكة العصبية المتقدمة للأمام (Feed Forward Neural Network - FFNN)، وشبكة الانتشار العكسي المتسلسل للأمام (Forward Cascade Back Propagation - FCBP)، وشبكة الانتشار العصبي إلمان (Elman Propagation Neural Network - EPNN). . أُجريت التجارب على ثلاث قواعد بيانات مختلفة للكلام، هي: SLR70 Nigerian English وGoogle crowdsourced Nigerian English وVoxCeleb2، لتغطية كلٍّ من بيئات الكلام النظيفة والمضبوطة، وكذلك البيئات الواقعية المليئة بالضوضاء. شملت مراحل المعالجة المسبقة للصوت تقليم الصمت، وتقليل الضوضاء الخلفية، واستخراج معاملات MFCC باستخدام 40 مرشح "ميل" بالإضافة إلى معاملات "دلتا". تم تقييم أداء النماذج من خلال الدقة (Accuracy)، ومتوسط الخطأ التربيعي (MSE)، ومتوسط الخطأ المطلق (MAE)، والجذر التربيعي لمتوسط الخطأ التربيعي (RMSE).. أظهرت النتائج أن نموذج FFNN حقق أداءً تنافسيًا في البيئات النظيفة، لكنه أظهر ضعفًا في التعميم عند وجود ضوضاء. بينما أظهر نموذج FCBP أداءً أكثر ثباتًا بفضل آلية التدريب المتسلسل. أما نموذج EPNN فقد تفوّق على النموذجين الآخرين محققًا أقل معدلات خطأ، بفضل قدرته على تمثيل الخصائص الزمنية الديناميكية للكلام. تؤكد النتائج أن التمثيل الزمني يلعب دورًا محوريًا في بناء أنظمة تعرّف على المتحدث أكثر متانة، وأن البنى الشبكية المعتمدة على التكرار (Recurrent Architectures) مثل EPNN أكثر ملاءمة للتطبيقات الواقعية. ويقترح البحث في المستقبل دمج النماذج الهجينة مع آليات الانتباه (Attention Mechanisms) لتعزيز قابلية التوسع والمرونة في البيئات الصوتية الديناميكية.

تفاصيل المقالة

القسم

Articles

كيفية الاقتباس

تعزيز متانة التعرّف على المتحدث باستخدام نماذج التعلم العميق القابلة للتوسّع وخصائص معاملات التردد الميلي (MFCC). (2025). مجلة الشرق لعلوم الكمبيوتر, 1(5), 1-16. https://doi.org/10.63496/ejcs.Vol1.Iss5.185

المؤلفات المشابهة

يمكنك أيضاً إبدأ بحثاً متقدماً عن المشابهات لهذا المؤلَّف.