Performance Analysis of NLP-Based Machine Learning Algorithms in Cyberbullying Detection


Akar F.

Erzincan Üniversitesi Fen Bilimleri Enstitüsü Dergisi, cilt.17, sa.2, ss.445-459, 2024 (Hakemli Dergi)

Özet

Günümüzün yaygın çevrimiçi ortamında, artan siber zorbalık tehdidi, gelişmiş tespit ve azaltma araçlarını gerektirmektedir. Bu çalışma, özellikle sosyal medyanın dinamik dünyasında, tweet'lere odaklanarak bu zorunlu zorlukla yüzleşmek için Doğal Dil İşleme (NLP) tekniklerinden yararlanmaktadır. Siber zorbalık örneklerini ortaya çıkarmak için kapsamlı NLP tabanlı sınıflandırma yöntemleri kullanılmıştır. Öne çıkan dokuz makine öğrenimi algoritması titizlikle değerlendirilmiştir: Lojistik Regresyon, Karar Ağacı, Rastgele Orman, Naive Bayes, K-En Yakın Komşu, Destek Vektör Makinesi, XGBoost, AdaBoost ve Gradient Boosting. Doğruluk, kesinlik, geri çağırma ve F1 puanı metriklerini kapsayan analiz aracılığıyla çalışma, her yaklaşımın güçlü yönlerine ve sınırlamalarına dair içgörüler sunmaktadır. Bulgular, çevrimiçi kullanıcıların korunması ve siber zorbalığın yaygınlığının azaltılması konusunda derin etkiler taşımaktadır. Özellikle Random Forest ve XGBoost sınıflandırıcıları sırasıyla %93,34 ve %93,32 doğruluk oranlarıyla öncü olarak ortaya çıkmıştır. Bu karşılaştırmalı araştırma, siber zorbalığın aciliyetine değinerek güçlü algoritmik seçimlerin önemli rolünün altını çizmekte ve bu acil toplumsal sorunla mücadele eden akademisyenler ve uygulayıcılar için değerli bir kaynak olma potansiyeline sahiptir.

In today's pervasive online landscape, the escalating threat of cyberbullying demands advanced detection and mitigation tools. This study utilizes Natural Language Processing (NLP) techniques to confront this imperative challenge, particularly in the dynamic realm of social media, focusing on tweets. A comprehensive NLP-based classification methods is deployed to uncover instances of cyberbullying. Nine prominent machine learning algorithms are meticulously evaluated: Logistic Regression, Decision Tree, Random Forest, Naive Bayes, K-Nearest Neighbor, Support Vector Machine, XGBoost, AdaBoost, and Gradient Boosting. Through the analysis, encompassing accuracy, precision, recall, and F1 score metrics, the study offers insights into the strengths and limitations of each approach. The findings carry profound implications for online user safeguarding and cyberbullying prevalence reduction. Notably, Random Forest and XGBoost classifiers emerge as pioneers with accuracy rates of 93.34% and 93.32%, respectively. This comparative research underscores the pivotal role of expert algorithmic choices in addressing the urgency of cyberbullying and has the potential to be a valuable resource for academics and practitioners engaged in combatting this pressing societal issue.