اکتشاف و پردازش هوشمند دانش

اکتشاف و پردازش هوشمند دانش

تشخیص احساسات از روی گفتار با استفاده از شبکه ی عصبی گیتی و مکانیسم توجه

نوع مقاله : مقاله پژوهشی

نویسندگان
1 گروه کامپیوتر، واحد فردوس، دانشگاه آزاد اسلامی ، فردوس، ایران
2 گروه کامپیوتر، واحد فردوس، دانشگاه آزاد اسلامی، فردوس، ایران
10.30508/kdip.2026.563388.1171
چکیده
تشخیص احساسات گفتاری یکی از چالش‌های کلیدی در حوزه پردازش زبان طبیعی و تعامل انسان و ماشین به شمار می‌رود. این حوزه با هدف استخراج لایه‌های پنهان احساسی از سیگنال‌های صوتی، نقشی اساسی در سیستم‌های پشتیبانی از تصمیم‌گیری، دستیارهای صوتی، و بهبود تجربه کاربری در تعاملات گفتاری ایفا می‌کند. پیچیدگی‌های ذاتی گفتار، شامل تنوع فردی، تفاوت‌های فرهنگی، و تغییرات وابسته به زمینه، باعث شده این مسئله به حوزه‌ای پرچالش اما جذاب برای پژوهشگران تبدیل شود. در پژوهش حاضر، دو مدل مختلف یادگیری عمیق برای شناسایی احساسات گفتاری طراحی و ارزیابی شده‌اند. مدل نخست بر پایه شبکه‌های عصبی بازگشتی (RNN) بنا شده است که برای پردازش داده‌های دنباله‌ای، به‌ویژه سیگنال‌های زمانی مانند گفتار، گزینه‌ای کلاسیک به شمار می‌رود. این مدل توانست برخی احساسات اولیه یا الگوهای ساده‌تر را با دقت قابل‌قبول شناسایی کند، اما در مواجهه با احساسات پیچیده‌تر یا سیگنال‌هایی با تنوع بالا، افت عملکرد مشاهده شد. این محدودیت عمدتاً ناشی از مشکل RNNها در مدل‌سازی وابستگی‌های بلندمدت و حساسیت به نویزهای زمانی است. به منظور رفع این چالش‌ها، مدل دوم با بهره‌گیری از معماری GRU در ترکیب با مکانیسم توجه طراحی شد. واحدهای GRU با ساختار ساده‌تر و ظرفیت بهتر در یادگیری وابستگی‌های زمانی، توانایی بیشتری در فشرده‌سازی و انتقال اطلاعات کلیدی دارند. علاوه بر این، مکانیسم توجه به مدل امکان می‌دهد بخش‌های مهم‌تر سیگنال را وزن‌دهی کرده و توجه محاسباتی را بر لحظات احساسی برجسته متمرکز کند. این ویژگی موجب شد مدل دوم بتواند در برابر تغییرات سیگنال مقاوم‌تر عمل کرده و احساسات مختلف را با دقت بالاتری شناسایی کند. طبق نتایج به‌دست‌آمده، دقت نهایی این مدل برابر با 0.9982 بوده که نشان‌دهنده عملکرد بسیار چشمگیر و تقریباً بی‌نقص در طبقه‌بندی احساسات گفتاری است.
کلیدواژه‌ها