Çok Ajanlı Kaçma Kovalama Problemlerine Takviyeli Öğrenme Yaklaşımı

Bilgin, Ahmet Tunç

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/388

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Ürtiş, Esra Kadıoğlu	-
dc.contributor.author	Bilgin, Ahmet Tunç	-
dc.date.accessioned	2016-11-07 17:26:29	tr_TR
dc.date.available	2013-06-25	tr_TR
dc.date.issued	2013	-
dc.identifier.citation	Bilgin, A.(2013).Çok ajanlı kaçma kovalama problemlerine takviyeli öğrenme yaklaşımı.(Yayımlanmamış yüksek lisans tezi).YÖK Ulusal Tez Merkezi veritabanından elde edildi.(Tez no:334385)	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.11851/388	-
dc.description.abstract	The game of pursuit-evasion, which is encountered frequently in applications of security, has always been a popular research subject in the field of robotics. Especially in the last two decades, when computer scientists gave rise to learning, the agents turned into intelligent agents and they started to use the information about their enviroment for their own purposes, without using the help of a map. This tendecy drew considerable amount of attention and opened the area to newcomers from several different disciplines.Reinforcement learning, which takes the advantage of an agent’s interaction with the environment, is a method widely used in pursuit-evasion domain. With the help of this method, agents use the feedbacks (rewards and punishments) taken from the environment to optimize their behaviour, without using complex sensors and maps. Although there are successful examples of the one-pursuer one-evader scenario, there is not enough research on multi-agent pursuit-evasion problems in literature. In this master’s thesis, a research is conducted on multi-agent pursuit-evasion problem using reinforcement learning and the experimental results are submitted. The intelligent agents use Watkins’ Q(?)-learning algorithm for the solution of the problem. Q-learning is an off-policy temporal difference control algorithm. The method we used on the other hand, Watkins’ Q(?) learning algorithm, is a unified version of Q-learning and eligibility traces. It uses backup information until the first occurence of an exploration. In our work, concurrent learning is adapted for the learning of the pursuit team. In this approach, each member of the team has got its own action-value function and updates its information space independently.	en_US
dc.description.abstract	Güvenlik başta olmak üzere yaşamın birçok alanında uygulamalarını gördüğümüz kaçma-kovalama problemleri, her dönem için popüler bir araştırma konusu olmuştur. Özellikle son on yılda, süreç içerisine öğrenmenin de katılmasıyla ajanlar akıllı ajanlar halini almış ve bir haritaya gereksinim duymaksızın çevreleri hakkında topladıkları bilgileri kendi faydaları için kullanmaya başlamışlardır. Bu yönelim, problem çözümüne farklı disiplinlerden yeni bakış açıları kazandırmayı başarmış ve konuya olan ilginin tekrar yoğunlaşmasını sağlamıştır. Takviyeli öğrenme, kaçma-kovalama problemlerinin çözümünde kullanılan ve ajanların çevre ile etkileşiminden faydalanan bir yöntemdir. Bu yöntemle ajanlar, karmaşık algılayıcılar ve haritalar kullanmadan çevrelerinden aldıkları geribildirimler (ödüller ve cezalar) ile davranışlarını optimize ederler. Yapılan çalışmalarda, bir kaçan ajan, bir kovalayan ajan içeren senaryolar için başarılı deneyler gerçekleştirilmişse de, birden fazla kovalayan ajan bulunan takip senaryoları için yeterli sayıda araştırma bulunmamaktadır. Bu tezde, çok ajanlı kaçma-kovalama problemlerinde takviyeli öğrenme yaklaşımı araştırılmış ve buna yönelik olarak deneyler sunulmuştur. Problemin çözümüne ilişkin benimsenen yöntemde ajanlar Watkins’in Q(?) öğrenmesi metodunu kullanmaktadırlar. Q-öğrenmesi, uyguladığı politikadan bağımsız, optimal olarak aksiyon-değer tablosunu güncelleyen bir Geçici Farklar Kontrolü algoritmasıdır. Bizim çalışmalarımızda kullanılan Watkins’in Q(?) yöntemi ise Q-öğrenmesinin uygunluk izleri mekanizmasıyla genişletilmiş bir hali olup, ajanın uygulayacağı keşif niteliğindeki ilk hamleye kadar takip eden tecrübeleri kullanmaktadır. Çalışmamızda kovalayan ajanlar takımı için eşzamanlı öğrenme yaklaşımı uygulanmıştır. Bu yaklaşımda, aynı takımdaki ajanların her biri kendi aksiyon-değer tablosuna sahiptir ve takım arkadaşlarından bağımsız olarak bilgi uzayını günceller. Çalışmamızda, bahsi geçen yöntemler kullanılarak, bir kaçma kovalama problemi simülasyonu düzenlenmiş ve yapılan deneylerde elde edilen sonuçlar paylaşılmıştır.	en_US
dc.language.iso	tr	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.source	Ahmet%2520Tun%25C3%25A7%2520Bilgin%2520Y%25C3%25BCksek%2520Lisans%2520Tezi.pdf	tr_TR
dc.subject	Pursuit-evasion problem	en_US
dc.subject	Reinforcement learning	en_US
dc.subject	Concurrent learning	en_US
dc.subject	Kaçma-kovalama problemleri, takviyeli öğrenme, Watkins’in Q(λ) algoritması, eşzamanlı öğrenmePursuit-evasion problem, reinforcement learning, Watkins’s Q(λ) algorithm, concurrent learning.	en_US
dc.subject	Kaçma-kovalama problemleri,	en_US
dc.subject	Takviyeli öğrenme	en_US
dc.subject	Watkins’in Q(λ) algoritması	en_US
dc.subject	Eşzamanlı öğrenme	en_US
dc.title	Çok Ajanlı Kaçma Kovalama Problemlerine Takviyeli Öğrenme Yaklaşımı	en_US
dc.title.alternative	An Approach To Multi-Agent Pursuit Evasion Games Using Reinforcement Learning	en_US
dc.type	Master Thesis	en_US
dc.department	Institutes, Graduate School of Engineering and Science, Computer Engineering Graduate Programs	en_US
dc.department	Enstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı	en_US
dc.relation.publicationcategory	Tez	en_US
dc.identifier.scopusquality	N/A	-
dc.identifier.wosquality	N/A	-
item.cerifentitytype	Publications	-
item.fulltext	With Fulltext	-
item.grantfulltext	open	-
item.languageiso639-1	tr	-
item.openairetype	Master Thesis	-
item.openairecristype	http://purl.org/coar/resource_type/c_18cf	-
Appears in Collections:	Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses