18th INTERNATIONAL CONFERENCE ON ENGINEERING & NATURAL SCIENCES, Girne, Kıbrıs (Kktc), 27 - 29 Kasım 2025, ss.177, (Özet Bildiri)
Çok modlu duygu analizi; metin, ses ve görüntü gibi farklı veri türlerinin birlikte değerlendirilmesiyle duyguların daha kapsamlı ve gerçekçi bir şekilde incelenmesini sağlayan bir yaklaşımdır. Metin verilerinde dilbilgisi yapısı ve kelime seçimi; ses verilerinde tonlama, vurgu ve ses perdesi; görsel verilerde yüz ifadeleri ve mimikler duygu durumunu anlamada önemli ipuçları sunmaktadır. Bu yöntem günümüzde sosyal medya analizinden sağlık, hukuk, eğitim ve pazarlama gibi birçok alanda yaygın olarak kullanılmaktadır. Bu çalışmada metin ve ses verileri birlikte ele alınarak çok modlu bir duygu analizi modeli geliştirilmiştir. Ses verilerinden Mel-Frequency Cepstral Coefficients (MFCC) ve mel-spektrogram tabanlı özellik çıkarımı yapılmış ve bu temsiller Convolutional Neural Network (CNN) tabanlı modeller aracılığıyla işlenmiştir. Metin verilerindeki anlamsal ve zamansal ilişkiler ise Long Short-Term Memory (LSTM) tabanlı model ile temsil edilmiştir. Erken füzyon yaklaşımı benimsenerek her iki moddan elde edilen temsil vektörleri sınıflandırma aşamasında birleştirilmiş ve bu doğrultuda çok modlu bir mimari oluşturulmuştur. Çalışmada MELD veri seti kullanılmış olup tek modlu (yalnızca metin veya yalnızca ses) yapılar ile çok modlu yapı karşılaştırılmıştır. Elde edilen sonuçlar, metin ve ses verilerinin ayrı ayrı işlendiği durumlara kıyasla çok modlu yapının daha dengeli bir performans ortaya koyabildiğini göstermektedir. Bununla birlikte, RoBERTa– BiLSTM tabanlı metin modeli ile MFCC+CNN2D ses modelinin erken füzyonla birleştirilmesinin, hem üç duygu sınıfında (pozitif, negatif, nötr) hem de yedi sınıflı duygu (öfke, tiksinti, korku, neşe, nötr, üzüntü, şaşkınlık) analizinde performansa olumlu yönde katkı sunduğu gözlemlenmiştir. Bu bulgular, erken füzyonlu çok modlu yaklaşımların duygu sınıflandırma çalışmalarında tek modlu yöntemlere göre daha bütüncül ve etkili bir değerlendirme imkanı sunduğunu ortaya koymaktadır.
Multimodal emotion analysis is an approach that enables a more comprehensive and realistic examination of emotions by jointly evaluating different types of data, such as text, audio, and visual inputs. In text data, grammar structure and word choice; in audio data, intonation, stress, and pitch; and in visual data, facial expressions and gestures provide important clues for understanding emotional states. This method is widely used today in many fields, from social media analysis to healthcare, law, education, and marketing. In this study, a multimodal emotion analysis model was developed by considering text and audio data together. Features were extracted from audio data based on Mel-Frequency Cepstral Coefficients (MFCC) and mel-spectrograms, and these representations were processed using Convolutional Neural Network (CNN)-based models. Semantic and temporal relationships in text data were represented using a Long Short-Term Memory (LSTM)-based model. An early fusion approach was adopted, combining the representation vectors obtained from both modalities during the classification stage, thereby creating a multimodal architecture. The MELD dataset was used in the study, and single-modal (text-only or audio-only) structures were compared with the multimodal structure. The results obtained show that the multimodal structure can deliver a more balanced performance compared to cases where text and audio data are processed separately. In addition, combining the RoBERTa–BiLSTM-based text model with the MFCC+CNN2D audio model through early fusion was observed to contribute positively to performance in both three emotion classes (positive, negative, neutral) and seven-class emotion (anger, disgust, fear, joy, neutral, sadness, surprise) analysis. These findings reveal that early fusion multimodal approaches offer a more comprehensive and effective evaluation opportunity in emotion classification studies compared to single-modal methods.