Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/3388
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorAbul, Osman-
dc.contributor.authorOnay, Aytun-
dc.date.accessioned2020-04-02T08:56:01Z
dc.date.available2020-04-02T08:56:01Z
dc.date.issued2017-01-01
dc.identifier.citationOnay, A. (2017). Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış doktora tezi]
dc.identifier.urihttps://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp-
dc.identifier.urihttps://hdl.handle.net/20.500.11851/3388-
dc.description.abstractAday ilaç moleküllerinin makine öğrenmesi metotlarını kullanarak sanal olarak taranması ilaçların ters yan etkilerinden korunmak amacıyla ilaç endüstrisinde kilit bir rol oynar. Hesaplamalı sınıflandırma metotları onaylanmış ilaçları geri çekilenlerden ayırabilir. Çalışmamızda ilaçlar üzerinde üç farklı uygulamaya odaklandık. Onaylanmış ilaçları geri çekilen ilaçlardan ayırmak amacıyla farklı makine öğrenmesi stratejileri kullandık. Öncelikle çalışmada yer alan her bir ilaç molekülü için sınıflandırma ve öznitelik seçimi problemlerinde kullanılmak üzere ToxPrint Kemotip, global moleküler, boyut ve şekil olmak üzere 760 moleküler tanımlayıcı hesaplandı. İlk uygulamada 400'den fazla sinir sistemi ve farklı hastalık gruplarına ait ilaçları onaylanmış ve geri çekilen kategorilerine ayırmak için SVM ve topluluk metotları ilaç veri setleri üzerine uygulandı. Test setleri için doğruluk oranı 0.74 ile 0.89 elde edildi. Burada ilaç veri setleri üzerinde uygulanan özellik seçimi metotları sınıflandırma performansını arttırdı. Sinir sistemi ilaçları için bir model oluşturmada the number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds tanımlayıcıları etkin özellikler olarak belirlendi. Bunun yanında ilaç veri setlerine gSpan algoritması uygulayarak geri çekilen sinir sistemi ilaçlarının minimum % 60'ında bulunan fragmanlar belirlendi. Çalışma spesifik bir hastalığa ait ilaçlardan oluşan veri setlerinde geri çekilen ilaçları onaylanmış olanlardan ayırmada yapılan ilk çalışmadır. Çalışmanın diğer bölümünde farklı hastalık gruplarına ait 558 ilaç hiyerarşik çoklu etiket sınıflaması ile Clus-HMC-Ens algoritması kullanılıp 3 temel seviyede sınıflandırıldı. Birinci seviye bütün ilaçları, ikinci seviye ise 3 gruptan oluşan ilaçları içermektedir. Bunlardan ilki onaylanmış sinir sistemi ilaçları, ikincisi farklı hastalık gruplarına ait onaylanmış ilaçları ve sonuncu grup ise piyasadan geri çekilen ilaçları içermektedir. Son seviye ise sinir sistemi ilaçlarının Anatomik Terapötik Kimyasal sınıflamasına göre beş gruptan ilaç içermektedir. Bu uygulamada ilaçları hiyerarşik olarak sınıflandırmada geliştirilen modeller için seçilen parametreler FTest, w_0, k, sınıflandırma eşiği, m-estimate modelin tahmin performansını arttırdı. Çalışmanın son kısmında 1200'den fazla onaylanmış/geri çekilen ilaç çalışıldı. Sınıflandırma modellerinde etkin olan moleküler tanımlayıcılar tezde önerilen etkin öznitelik seçme stratejisi ile belirlendi. Bunlardan ToxPrint kemotiplerden olanlar ilaç molekülleri için bir dizi kurallar belirlemede kullanıldı. İlaç veri setlerinde sadece onaylanmış/geri çekilen ilaçlarda bulunan/bulunmayan kemotipler analiz edildi. bond:NN_hydrazine_alkyl_HH2 yalnızca geri çekilen ilaçların yapısında, bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose vb. kemotipleri yalnızca onaylanmış ilaçların yapısında gözlendi. Dengesiz ilaç veri seti üzerinde sınıflandırıcı topluluk tasarımı için bir model önerildi. İlaçları onaylanmış ve geri çekilen sınıflarına ayırmada test seti için doğruluk oranları 0.80 elde edildi. Çalışmada elde edilen model ilaç aday moleküllerini elemek için ilaç tasarım evrelerinde basit bir filtre olarak kullanılabilirler.tr_TR
dc.description.abstractVirtual screening of candidate drug molecules via machine learning methods plays a key role in pharmaceutical industry to prevent adverse effects of the drugs. Computational classification methods can distinguish approved drugs from withdrawn ones. In this study, we focused on 3 various applications on drugs. We studied with different machine learning strategies to distinguish approved and withdrawn drugs. To begin with, 760 molecular descriptors such as ToxPrint Chemotype, global molecular, size and shape were calculated to study classification and feature selection problems for each drug molecule in this study. In first application, SVM and ensemble methods were applied on drug data sets to categorize more than 400 drugs belonging to nervous system and various disease groups as approved or withdrawn. Accuracy rates were found between 0.74 and 0.89 for data sets. Here, feature selection methods which were applied on drug data sets increased classification performance values. The number of total chemotypes, bond CN_amine_aliphatic_ generic, XlogP, aspheric: Cor3D:ori1ve Bonds descriptors were found as more significant descriptors to form model for nervous system drugs. Moreover, the fragmans located in minimum 60 % of nervous system withdrawn drugs were determined via application of gSpan algorithms on drug data sets. This is the first report that describes distinction of withdrawn and approved drugs pertaining to the spesific disease on the data sets. In the second part of study, 558 drugs with various disease groups were classified in 3 basic levels with hierarchical multi-label classification via Clus-HMC-Ens algorithms. While first level includes all drugs, second level consists of 3 groups of drugs. These are approved nerveous system drugs, approved drugs of various disease groups and withdrawn drugs. Last level has drugs of 5 different groups according to Anatomic Therapeutic Chemical classification of nerveous system drugs. In this application, some paremeters were selected for classification of drugs hierarchically. Selected paremeters such as FTest, w_0, k, classification treshold, m-estimate increased estimation performance of model. In last part of study, more than 1200 approved and withdrawn drugs were studied. Molecular identifiers that are effective in classification models have been identified by an effective feature selection strategy proposed in the thesis. ToxPrint chemotypes, effective descriptors, were used for determination of a number of rules in drug molecules. Available/unavailable chemotypes were analysed in approved/withdrawn drugs on drug data sets. While chemotypes such as bond:NN_hydrazine_alkyl_HH2 only presented in withdrawn drugs, ones such as bond:P=O_phosphorus_oxo,bond:PC_phosphorus_organo_generic,group:carbohydrate_aldohexose, group:carbohydrate_aldopentose, group:carbohydrate_hexopyranose _fructose, group:carbohydrate_hexopyranose_glucose etc. just examined in approved drugs. A model for classifier ensemble design was proposed on the unbalanced drug data set. Accuracy of 0.80 was obtained for the test set in order to classify the drugs as approved and withdrawn. Developed model in this study can be used as a simple filter in drug modelling to eleminate drug candidate molecules.en_US
dc.language.isotren_US
dc.publisherTOBB University of Economics and Technology,Graduate School of Engineering and Scienceen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMakine öğrenmesitr_TR
dc.subjectDestek vektör makineleritr_TR
dc.subjectİlaç keşfitr_TR
dc.subjectToxPrint kemotiplertr_TR
dc.subjectOnaylanmış ve geri çekilen ilaçlartr_TR
dc.subjectHiyerarşik çoklu etiket sınıflamasıtr_TR
dc.subjectÖznitelik seçimitr_TR
dc.subjectMachine learningen_US
dc.subjectSupport vector machinesen_US
dc.subjectDrug discoveryen_US
dc.subjectToxPrint chemotypesen_US
dc.subjectApproved and withdrawn drugsen_US
dc.subjectHierarchical multi-label classificationen_US
dc.subjectFeature selectionen_US
dc.titleVeri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimien_US
dc.title.alternativeFormation of a drug classification framework via data mining techniquesen_US
dc.typeDoctoral Thesisen_US
dc.departmentInstitutes, Graduate School of Engineering and Science, Computer Engineering Graduate Programsen_US
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıtr_TR
dc.relation.publicationcategoryTezen_US
item.fulltextWith Fulltext-
item.openairecristypehttp://purl.org/coar/resource_type/c_18cf-
item.languageiso639-1tr-
item.cerifentitytypePublications-
item.openairetypeDoctoral Thesis-
item.grantfulltextopen-
Appears in Collections:Bilgisayar Mühendisliği Doktora Tezleri / Computer Engineering PhD Theses
Files in This Item:
File Description SizeFormat 
476666.pdfAytun Onay_tez4.36 MBAdobe PDFThumbnail
View/Open
Show simple item record



CORE Recommender

Page view(s)

454
checked on Apr 22, 2024

Download(s)

476
checked on Apr 22, 2024

Google ScholarTM

Check





Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.