Please use this identifier to cite or link to this item:
https://hdl.handle.net/20.500.11851/10612
Title: | Patolojik Seslerin Tanisi için Derin Ögrenme Tabanli Tibbi Karar Destek Sisteminin Gelistirilmesi | Other Titles: | Development of a Deep Learning-Based Medical Decision Support System for the Diagnosis of Pathological Voices | Authors: | Bigat, İrem | Advisors: | Eroğul, Osman | Keywords: | Biyomühendislik Bioengineering ; Biyoteknoloji Biotechnology |
Publisher: | TOBB ETÜ | Abstract: | Patolojik duruma bağlı olarak normal konuşma akışının bozulması, ses bozukluğu olarak bilinir. Bu nedenle, mevcut herhangi bir bozukluk, konuşma üretim sisteminin işleyişini bozar ve dolayısıyla bozuk bir ses üretir. Bazı laringeal patolojiler hayatı tehdit eder, bu nedenle ses bozukluğunun erken tespiti önemlidir. Patolojik seslerin tespitinde bir karar destek sisteminin geliştirilmesi hayati önem taşımaktadır. Patolojik seslerin belirlenmesi amacıyla seslerden çıkarılan özniteliklerin değerlendirilmesinde istatistiksel yöntemlerin grup bazında bir sonuç vermesi nedeniyle bireysel düzeyde bir cevap elde edilebilmesi amacıyla son yıllarda makine öğrenme yöntemleri araştırmacılar tarafından ilgi çekici bir konu olmuştur. Bununla birlikte makine öğrenmesinin özniteliklerin manuel çıkarılmasına ihtiyaç duyması nedeniyle optimal özniteliklerin otomatik olarak çıkarılabildiği derin öğrenme teknikleri araştırmacıların güncel araştırma konuları arasına girmiştir. Ancak henüz patolojik ses bozukluklarının tespiti alanında derin öğrenme tekniklerinin kullanımı ile ilgili az sayıda araştırma çalışması bulunmaktadır. Bu tez çalışmasında, patolojik seslerin belirlenmesi amacıyla derin öğrenme yöntemleri kullanılmıştır. Çalışmada Saarbruecken Ses Veritabanından vokal kordlardaki yapısal değişikliklerin neden olduğu organik disfoniye sebep olan patolojilere sahip hastaların ses kayıtları seçilmiştir. Bu patolojiler arasında larenjit, lökoplazi, Reinke ödemi, rekürren laringeal sinir felci, vokal kord karsinomu ve vokal kord polibi bulunmaktadır. Her bir bireyin nötr perdesinde sürekli sesli /a/ sesi kayıtları seçilmiştir. 380'i sağlıklı ve 380'i patolojik olmak üzere 760 ses kaydı kullanılmıştır. Veriler, sırasıyla %75 ve %25 örnek içeren eğitim seti ve test seti olarak ayrılmıştır. Ses sinyallerine öncelikle dalgacık gürültü giderme işlemi uygulanmıştır. Daha sonrasında ses sinyallerinin spektrogram görüntüleri alınarak dört faklı Evrişimsel Sinir Ağı (ESA) mimarisine girdi olarak verilmiştir. Tez kapsamında ESA mimarisi olarak GoogleNet, ResNet-50, AlexNet ve SqueezeNet çalışılmıştır. İlk aşamada patolojik seslerin belirlenmesi amacıyla seçilen Evrişimsel Sinir Ağı mimarileri kendi sınıflandırıcılarıyla birlikte kullanılmıştır. Daha sonra aynı Evrişimsel Sinir Ağı mimarileri bu kez sadece öznitelik çıkarımında kullanılmıştır ve Komşuluk Bileşen Analizi ile öznitelik seçimi yapıldıktan sonra farklı sınıflandırma algoritmalarıyla sınıflandırılarak oluşturulan modellerin performans analizleri yapılmıştır. Kullanılan sınıflandırma algoritmaları Karar ağaçları, Destek Vektör Makineleri, k-En yakın komşuluk, Ensemble ve bu çalışma için tasarlanmış bir karar ağacı yöntemidir. En başarılı performans SqueezeNet mimarisinden çıkarılan özniteliklerin Ensemble algoritması ile sınıflandırılması sonucu elde edilmiştir. Gözlemlenen bulgular, önerilen bu modelin patolojik seslerin belirlenmesinde umut verici olduğunu göstermektedir. The disruption of normal speech flow due to pathological conditions is known as a voice disorder. Therefore, any existing disorder disrupts the speech production system's functioning and produces a distorted voice. Since some laryngeal pathologies are life-threatening, the early detection of voice disorders is important. For this purpose, there is a need to develop a decision support system in the detection of pathological voices. In recent years, machine learning methods have become an interesting research topic to determine pathological voices in order to obtain an individual-level answer, since statistical methods give a group-based result in the evaluation of features extracted from voices. However, since machine learning requires manual extraction of features, deep learning techniques, in which optimal features can be extracted automatically, have become one of the current research topics. However, there are only few research studies on the use of deep learning techniques in the detection of pathological voice disorders. In this thesis study, deep learning methods were used to identify pathological voices. The voice recordings of patients with pathologies causing organic dysphonia due to structural changes in the vocal cords were selected from the Saarbruecken Voice Database. These pathologies included laryngitis, leukoplakia, Reinke's edema, recurrent laryngeal nerve paralysis, vocal cord carcinoma, and vocal cord polyps. The sustained vowel /a/ at the neutral pitch of each individual was selected. The sample included a total of 760 recordings, of which 380 belonged to healthy voices and 380 belonged to pathological voices. The data were divided into training and test sets containing 75% and 25% of the samples, respectively. In the analysis of the samples, first, wavelet noise denoising was applied to the voice signals. Then, the spectrogram images of the voice signals were taken and utilized as inputs in four different Convolutional Neural Network (CNN) architectures, namely GoogleNet, ResNet-50, AlexNet, and SqueezeNet. The selected CNN architectures were used with their own classifiers to determine the pathological voices. Subsequently, the same architectures were employed only for feature extraction, then the Neighborhood Component Analysis employed for feature selection. The performance analyses of the models were undertaken by classifying the selected features with the following classification algorithms: Decision trees, Support Vector Machines, k-Nearest Neighborhood, Ensemble, and a decision tree method designed for this study. The most successful performance was obtained from the method in which the features had been extracted by the SqueezeNet architecture and classified with the Ensemble algorithm. According to the results, the proposed model is promising for the identification of pathological voices. |
URI: | https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=RsTBl6RWK25OBMIKtIgYYe3OMm9h-1epfuxianoJwemYkGODTr5ACupFi1kY8_4Z https://hdl.handle.net/20.500.11851/10612 |
Appears in Collections: | Biyomedikal Mühendisliği Yüksek Lisans Tezleri / Biomedical Engineering Master Theses |
Files in This Item:
File | Size | Format | |
---|---|---|---|
754145.pdf | 3.27 MB | Adobe PDF | View/Open |
CORE Recommender
Page view(s)
158
checked on Dec 23, 2024
Download(s)
20
checked on Dec 23, 2024
Google ScholarTM
Check
Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.