Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/2288
Title: Özelleştirilmiş analitik bulut mimarilerinde dağıtık dosya sistemleri ile performans iyileştirilmesi
Other Titles: Performance improvement via distribited file systems on private analytic clouds
Authors: Doğdu, Erdoğan
Ağca, Muhammed Akif
Keywords: Microblog text
Big data
Interactive analytic
Distributed analytics
Stream data analytics
Distributed file system
Distributed system
Mikroblog metin
Büyük veri
İnteraktif analitik
Dağıtık analitik
Akan veri analizleri
Dağıtık dosya sistemi
Dağıtık sistem
Issue Date: 2015
Publisher: TOBB University of Economics and Technology,Graduate School of Engineering and Science
TOBB ETÜ Fen Bilimleri Enstitüsü
Source: Ağca, M. (2015). Özelleştirilmiş analitik bulut mimarilerinde dağıtık dosya sistemleri ile performans iyileştirilmesi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış yüksek lisans tezi]
Abstract: Teknoloji ve sosyal medyanın hızlı gelişimiyle veri hızı, hacmi ve çeşitliliği artış göstermektedir. Biriken veriye anlık olarak erişim ve karar desteği sağlanması mevcut teknolojiler ile mümkün olmamaktadır. Toplanan verilerin anlık olarak analiz edilmesi ve metin verilerinden bilgi çıkarımları standart veri tabanları ile yapılamamaktadır. Mevcut çözüm ve yöntemler de Türkçe metin için kısıtlı analiz yetenekleri bulunmaktadır. Bu çalışmada veri yoğun, işlemci yoğun uygulamalar için özelleştirilmiş dağıtık analitik sistem ve uygulamaları geliştirilmektedir. Bu sistemde dağıtık dosya sistemlerinin kullanımı ile performans iyileştirmeleri yapılmıştır. Tasarlanmış olan tek düğümlü ve çok düğümlü sistemlerde performans iyileştirmeleri gözlemlenmiştir. Dağıtık analitik sistemin dağıtık dosya sistemleriyle tasarlanmasıyla hızlı sonuçlar elde edilebileceği gözlemlenmiştir. Mikroblog metin analitiği için özelleştirilmiş platformda farklı algoritmaların performans ve doğruluk değerlendirmeleri yapılmıştır. Mikroblog metin analitiği için dağıtık skorlama algoritmasının k-means kümeleme algoritmasına göre daha hızlı çalıştığı gözlemlenmiştir. Metin analitiği için geliştirilmiş dağıtık algoritmalar tek düğümlü ve çok düğümlü sistemlerde performans olarak karşılaştırılmıştır. Küme performansında bellek kısıtlarının kritikliği gözlemlenmiş ve sistemin bellek ihtiyaçları değerlendirilmiştir. Geliştirilen dağıtık analitik sistem sayesinde büyük verinin hızlı sorgulanmasına imkân sağlanmaktadır. Uygulamalar için jenerik ve ölçeklenebilir depolama katmanları sağlanmaktadır. Dağıtık analitik uygulamalar için dağıtık mimari kullanımı önerilmektedir. Dağıtık dosya sistemlerinin ölçeklenebilir otomatik düğüm ekleme çıkarma özellikleri sayesinde donanımlar maksimum verimlilikte kullanılmakta ve ölçekleme minimum donanım ve zaman maliyeti ile yapılabilmektedir. Sonuç olarak, dağıtık dosya sistemlerinin özelleştirilmiş analitik bulut mimariler üzerinde analitik işlemler için önemli performans iyileştirmeleri sağladığı ve analitik işlemler için verimliliği arttırdığı gözlemlenmiştir.
Improvements on current technologies and social media cause increase in data volume, variety, and velocity. Instant access to stored data and providing decision support is very hard with current technologies. Standard data base technologies cannot analyze the data and retrieve information from text data. Current solutions and methodologies have restricted analysis capabilities for Turkish texts. In this study a distributed analytical system and applications are developed for data bound and CPU bound applications. Performance improvements via distributed file systems are implemented on the system. The improvements are observed on single node and multi node systems. Faster results are obtained via distributed file systems on distributed analytical system. Different algorithms are evaluated in terms of performance and correctness for microblog text analytics on private distributed analytical system. Distributed scoring algorithm gives faster results than k-means clustering algorithm for microblog text analytics. The distributed algorithms developed for text analytics are implemented on single node and multi node systems and compared in terms of cluster performance. Memory constraints are observed on cluster performance and minimum memory requirement of the system is evaluated. Faster querying on big data is provided via the distributed analytical system. Generic and scalable storage layer is provided for applications. Distributed architecture usage is proposed for distributed analytical applications. Hardware can be used with maximum efficiency, and node replacement can be done at minimum time and minimum hardware cost with the scalability and automated node replacement features of distributed file systems. To sum up, it is observed that distributed file systems provide important performance improvements and improve efficiency for analytical operations on private analytical clouds.
URI: https://hdl.handle.net/20.500.11851/2288
https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp
Appears in Collections:Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses

Files in This Item:
File Description SizeFormat 
409937.pdf898.84 kBAdobe PDFThumbnail
View/Open
Show full item record

CORE Recommender

Page view(s)

36
checked on Dec 26, 2022

Download(s)

36
checked on Dec 26, 2022

Google ScholarTM

Check


Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.