Veri Madenciliği Teknikleri Kullanarak Bir İlaç Sınıflandırma Çatısı Gerçekleştirimi

Onay, Aytun

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/3388

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Abul, Osman	-
dc.contributor.author	Onay, Aytun	-
dc.date.accessioned	2020-04-02T08:56:01Z
dc.date.available	2020-04-02T08:56:01Z
dc.date.issued	2017-01-01	-
dc.identifier.citation	Onay, A. (2017). Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış doktora tezi]	en_US
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp	-
dc.identifier.uri	https://hdl.handle.net/20.500.11851/3388	-
dc.description.abstract	Virtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.	en_US
dc.description.abstract	Aday ilaç moleküllerinin makine öğrenmesi metotlarını kullanarak sanal olarak taranması ilaçların ters yan etkilerinden korunmak amacıyla ilaç endüstrisinde kilit bir rol oynar. Hesaplamalı sınıflandırma metotları onaylanmış ilaçları geri çekilenlerden ayırabilir. Çalışmamızda ilaçlar üzerinde üç farklı uygulamaya odaklandık. Onaylanmış ilaçları geri çekilen ilaçlardan ayırmak amacıyla farklı makine öğrenmesi stratejileri kullandık. Öncelikle çalışmada yer alan her bir ilaç molekülü için sınıflandırma ve öznitelik seçimi problemlerinde kullanılmak üzere ToxPrint Kemotip, global moleküler, boyut ve şekil olmak üzere 760 moleküler tanımlayıcı hesaplandı. İlk uygulamada 400'den fazla sinir sistemi ve farklı hastalık gruplarına ait ilaçları onaylanmış ve geri çekilen kategorilerine ayırmak için SVM ve topluluk metotları ilaç veri setleri üzerine uygulandı. Test setleri için doğruluk oranı 0.74 ile 0.89 elde edildi. Burada ilaç veri setleri üzerinde uygulanan özellik seçimi metotları sınıflandırma performansını arttırdı. Sinir sistemi ilaçları için bir model oluşturmada the number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds tanımlayıcıları etkin özellikler olarak belirlendi. Bunun yanında ilaç veri setlerine gSpan algoritması uygulayarak geri çekilen sinir sistemi ilaçlarının minimum % 60'ında bulunan fragmanlar belirlendi. Çalışma spesifik bir hastalığa ait ilaçlardan oluşan veri setlerinde geri çekilen ilaçları onaylanmış olanlardan ayırmada yapılan ilk çalışmadır. Çalışmanın diğer bölümünde farklı hastalık gruplarına ait 558 ilaç hiyerarşik çoklu etiket sınıflaması ile Clus-HMC-Ens algoritması kullanılıp 3 temel seviyede sınıflandırıldı. Birinci seviye bütün ilaçları, ikinci seviye ise 3 gruptan oluşan ilaçları içermektedir. Bunlardan ilki onaylanmış sinir sistemi ilaçları, ikincisi farklı hastalık gruplarına ait onaylanmış ilaçları ve sonuncu grup ise piyasadan geri çekilen ilaçları içermektedir. Son seviye ise sinir sistemi ilaçlarının Anatomik Terapötik Kimyasal sınıflamasına göre beş gruptan ilaç içermektedir. Bu uygulamada ilaçları hiyerarşik olarak sınıflandırmada geliştirilen modeller için seçilen parametreler FTest, w_0, k, sınıflandırma eşiği, m-estimate modelin tahmin performansını arttırdı. Çalışmanın son kısmında 1200'den fazla onaylanmış/geri çekilen ilaç çalışıldı. Sınıflandırma modellerinde etkin olan moleküler tanımlayıcılar tezde önerilen etkin öznitelik seçme stratejisi ile belirlendi. Bunlardan ToxPrint kemotiplerden olanlar ilaç molekülleri için bir dizi kurallar belirlemede kullanıldı. İlaç veri setlerinde sadece onaylanmış/geri çekilen ilaçlarda bulunan/bulunmayan kemotipler analiz edildi. bond:NN_hydrazine_alkyl_HH2 yalnızca geri çekilen ilaçların yapısında, bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose vb. kemotipleri yalnızca onaylanmış ilaçların yapısında gözlendi. Dengesiz ilaç veri seti üzerinde sınıflandırıcı topluluk tasarımı için bir model önerildi. İlaçları onaylanmış ve geri çekilen sınıflarına ayırmada test seti için doğruluk oranları 0.80 elde edildi. Çalışmada elde edilen model ilaç aday moleküllerini elemek için ilaç tasarım evrelerinde basit bir filtre olarak kullanılabilirler.	en_US
dc.language.iso	tr	en_US
dc.publisher	TOBB University of Economics and Technology,Graduate School of Engineering and Science	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Machine learning	en_US
dc.subject	Support vector machines	en_US
dc.subject	Drug discovery	en_US
dc.subject	ToxPrint chemotypes	en_US
dc.subject	Approved and withdrawn drugs	en_US
dc.subject	Hierarchical multi-label classification	en_US
dc.subject	Feature selection	en_US
dc.subject	Makine öğrenmesi	en_US
dc.subject	Destek vektör makineleri	en_US
dc.subject	İlaç keşfi	en_US
dc.subject	ToxPrint kemotipler	en_US
dc.subject	Onaylanmış ve geri çekilen ilaçlar	en_US
dc.subject	Hiyerarşik çoklu etiket sınıflaması	en_US
dc.subject	Öznitelik seçimi	en_US
dc.title	Veri Madenciliği Teknikleri Kullanarak Bir İlaç Sınıflandırma Çatısı Gerçekleştirimi	en_US
dc.title.alternative	Formation of a Drug Classification Framework Via Data Mining Techniques	en_US
dc.type	Doctoral Thesis	en_US
dc.department	Institutes, Graduate School of Engineering and Science, Computer Engineering Graduate Programs	en_US
dc.department	Enstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı	en_US
dc.relation.publicationcategory	Tez	en_US
dc.identifier.scopusquality	N/A	-
dc.identifier.wosquality	N/A	-
item.cerifentitytype	Publications	-
item.fulltext	With Fulltext	-
item.grantfulltext	open	-
item.languageiso639-1	tr	-
item.openairetype	Doctoral Thesis	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
Appears in Collections:	Bilgisayar Mühendisliği Doktora Tezleri / Computer Engineering PhD Theses