Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi (ESTUDAM) Bilişim Dergisi, cilt.1, ss.1-11, 2026 (Hakemli Dergi)
Derin öğrenme ve doğal dil işleme yöntemleriyle insan sesinin yapay olarak taklit edilmesi, bilgi güvenliği ve dijital güven açısından ciddi riskler oluşturmaktadır. Üretilen Deepfake seslerin gerçek seslerle yüksek benzerlik göstermesi, tespit süreçlerini karmaşık hale getirmektedir. Bu çalışmada, Deepfake ses tespitinde model performansını artırmak amacıyla derin öğrenme mimarileri ile sezgisel optimizasyon algoritmaları birleştirilmiştir. Özellikle, Yinelenen Sinir Ağı (RNN) ve Uzun-Kısa Süreli Bellek (LSTM) modelleri, Genetik Algoritma (GA), Parçacık Sürüsü Optimizasyonu (PSO), Diferansiyel Evrim (DE) ve Jaya gibi toplam dokuz sezgisel ve meta-sezgisel algoritma ile optimize edilmiştir. 8.275 sahte ve 3.260 gerçek ses örneğinden oluşan ADD 2022 veri kümesi, spektrogram tabanlı sayısal özniteliklere dönüştürülerek eğitilmiş ve test edilmiştir. Sezgisel algoritmalar, öğrenme oranı, dropout oranı, giriş boyutu ve batch boyutu gibi hiperparametreleri optimize ederek doğruluk oranını maksimize etmiştir. Deneysel sonuçlara göre, RNN-PSO ve LSTM-DE kombinasyonları sırasıyla %99,0 ve %97,2 doğruluk değerlerine ulaşmış, bu da başlangıç modeline kıyasla %20’nin üzerinde bir iyileşme sağlamıştır. Sonuçlar, sezgisel optimizasyonun Deepfake ses tespitinde genelleme kabiliyetini ve yakınsama hızını önemli ölçüde artırdığını göstermektedir. Önerilen yaklaşım, diğer derin öğrenme tabanlı medya doğrulama görevlerine de uyarlanabilir ölçeklenebilir bir optimizasyon çerçevesi sunmaktadır.
Deepfake voice synthesis, which enables the artificial replication of human speech through deep learning and natural language processing, poses increasing risks to information security and digital trust. Detecting such synthetic voices remains a challenging task due to the high realism and variability of generated speech. This study proposes an enhanced Deepfake voice detection framework that integrates heuristic optimization algorithms with deep learning architectures to improve model performance. Specifically, Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) models were optimized using nine heuristic and meta-heuristic algorithms, including Genetic Algorithm (GA), Particle Swarm Optimization (PSO), Differential Evolution (DE), and Jaya. The ADD 2022 dataset—comprising 11,536 samples (8,275 fake and 3,260 real)—was preprocessed into spectrogram-based numerical features for training and testing. Each heuristic algorithm performed hyperparameter optimization over learning rate, dropout rate, input size, and batch size to maximize detection accuracy. Experimental results demonstrate substantial performance gains, with RNN–PSO and LSTM–DE combinations achieving 99.0% and 97.2% accuracy, respectively—an improvement of over 20% compared to the baseline model. These findings indicate that heuristic optimization significantly enhances generalization and convergence efficiency in Deepfake voice detection. The proposed approach contributes a scalable optimization framework adaptable to other deep learning-based media authentication tasks.