Sign2Text: Konvolüsyonel Sinir Ağları Kullanarak Türk İşaret Dili Tanıma


ÇELİK Ö., ODABAŞ A.

Avrupa Bilim ve Teknoloji Dergisi, sa.19, ss.923-934, 2020 (Hakemli Dergi)

Özet

İşaret dili, işitme engellilerin kendi aralarında iletişim kurarken, el hareketlerini ve yüz mimiklerini kullanarak oluşturdukları görsel bir dildir. İşitme engelliler kendi aralarında işaret dili yardımıyla rahatlıkla iletişim kurabilmelerine rağmen hastane gibi kamu kurumlarında, hizmet almaya gidenlerin kendilerini ifade etmekte ve karşılarındakileri anlamakta büyük zorluklar çekmektedirler. İşitme engelli okuma yazma oranı düşüktür. Okuma yazması olanların ise Türk İşaret Dili dilbigisinin farklı olması ve dar kelime dağarcığından dolayı okuduklarını anlamada zorluk yaşamaktadır. Dünya sağlık örgütünün raporlarına göre 2018 yılında Avrupa’da 34 milyon işitme engelli bulunmakta, bu sayının 2050 yılına kadar 46 milyon olması beklenmektedir. Video içerisindeki hareketlerin algılanıp işaret diline çevirme işleminde. Bu çalışmada herhangi bir sensör kullanılmadan işitme engelli bireyler tarafından kamerası karşısında yapılan hareketlerin algılanıp işaret diline çevirme işleminde Konvolüsyonel Yapay Ağlar (CNN: Convolutıion Neural Network) ve Uzun Kısa Süreli Bellek (LSTM: Long Short Term Memory) derin öğrenme teknikleri kullanılmıştır. Öncelikle, kamera aracılığıyla elde edilen veri üzerinde baş bölgesinin tespiti ve eğitime uygun hale getirilmesi, ellerin tespiti ve hareketlerinin takip edilmesi ve kırpma gibi video ön işleme adımları uygulanmıştır. Hazırlanan videoların Konvolüsyonel Yapay Ağlar eğitim modeli için frameler ile eğitimi amaçlanmıştır. Veri seti videoların eğitim aşamasında kullanılması için framelere parçalanmıştır. İşaret dili hareketlerinde öncelikli olarak el ve parmak hareketlerinin tahminlemesi gerçekleştirilir. Sadece el hareketleri için eğitim modeli besleneceği için ten renginin bulunduğu kafa bölgesi tespiti çalışması gerçekleştirilmiştir. Kamera karşısında yapılan 10 rakam ve 29 harfin işaret dili hareketleri ile eğitilen CNN + LSTM modellerinde tahminlemesinde %97 başarı oranı elde edilmiştir. Bu sonuçlar, işitme engelli bireylerin kamera karşısında yaptığı hareketlerin algılanıp metne dönüştürmesinde derin öğrenme yöntemlerinin kullanılabileceğini göstermiştir.

Sign language is a visual language created by the hearing impaired by using hand gestures and facial expressions while communicating among themselves. Although the hearing impaired can easily communicate with each other with the help of sign language, they have great difficulties in expressing themselves and understanding others in public institutions such as hospitals. The literacy rate for the hearing impaired is low. Those who are literate have difficulty in understanding what they read due to the different grammar of Turkish Sign Language and their narrow vocabulary. According to the reports of the World Health Organization, there are 34 million hearing impaired in Europe in 2018, and this number is expected to be 46 million by 2050. In the process of detecting the movements in the video and converting it into sign language. In this study, Convolutional Artificial Networks (CNN: Convolution Neural Network) and Long Short Term Memory (LSTM: Long Short Term Memory) deep learning techniques were used in the process of detecting the movements made by the hearing impaired individuals against their cameras and converting them into sign language without using any sensors. First of all, video pre-processing steps such as determining the head area and making it suitable for training, detecting and tracking the movements of the hands and cropping were applied on the data obtained through the camera. It is aimed to train the videos prepared with frames for the Convolutional Artificial Networks training model. The data set is divided into frames for the use of videos in the training phase. In sign language movements, hand and finger movements are primarily predicted. Since the training model will be fed only for hand movements, the head region where the skin color is found was determined. A 97% success rate was achieved in the estimation of the CNN + LSTM models, which were trained with the sign language movements of 10 numbers and 29 letters made in front of the camera. These results showed that deep learning methods can be used to perceive the camera movements of hearing impaired individuals and convert them into text.