Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/8437
Title: Varlık isimleri arasındaki ilişkiler kullanılarak haberlerin öbeklenmesi
Other Titles: News clustering using relations between named entities
Authors: Doğdu, Erdoğan
Oto, Salih Atılay
Keywords: Named entity
Semantic web
Linked data
Varlık ismi
Anlamsal ağ
Açık veri
Issue Date: 2012
Publisher: TOBB Ekonomi ve Teknoloji Üniversitesi Fen Bilimleri Enstitüsü
Abstract: News clustering is the process of bringing together news articles which are similar in content. By the growth of the Internet, it is an important problem to cluster distributed and constantly updated news. There are a lot of studies for this problem. Google News is one of the major works to cluster news articles. After collecting thousands of news from the sources in the world, it provides user those that relate to each other. ?Bag of wrods? is the most well-known method for solving news clustering. This method makes clustering operation by looking at the frequency of words in the document. Recently, there are some approaches for clustering documents by the information extracted from news sources such as Wikipedia and Wordnet. It is observed that these kind of methods gives beter results than ?bag of words?. With the advent of Semantic Web, Internet is no longer document network (web of document) and becomes data network (web of data). This technology allows us to reach information more quickly on the internet. Linking Open Data, is a project developed for the publication and interconnection of open data with the approach of the semantic web. Through this project the semantic web data network and linked data is growing day by day. Linked data was used in several information extraction and artifical intelligence application.In this thesis, we developed a new approach to the problem of news clustering by using semantic relations of the named entites in the document. According to the experiments, it is obtained that, our approach shows beter results than ?bag of word? approach.
Haberlerin öbeklenmesi, birbirleriyle içerik olarak benzer olan haberlerin bir araya getirilmesi işlemidir. İnternet'in büyümesiyle çok dağıtık ve devamlı güncellenen haberlerin öbeklenmesi önemli bir problemdir. Bu problem için çok çeşitli çalışmalar yapılmaktadır. Bu çalışmaların başında Google News gelmektedir. Google News, dünya genelinde binlerce kaynaktan haberleri topladıktan sonra, birbirleriyle ilgili olanları kümeleyip kullanıcıya sunar. Haber öbekleme probleminin çözümü için en bilindik yöntem "bag of words" yöntemidir. Bu yöntem, doküman içinde geçen kelimelerin sıklıklarına bakarak öbekleme yapmaktadır. Son zamanlarda haberleri Wikipedia ve WordNet gibi kaynaklardan çıkartılan bilgilerle ilişkilendirerek öbekleme yapan yöntemler de vardır. Bu yöntemlerin "bag of words" yöntemine göre daha iyi sonuç verdiği gözlemlenmiştir. Anlamsal ağın (Semantic Web) gelişiyle birlikte internet artık bir dokümanlar ağından (web of documents), bir veri ağına (web of data) dönüşmektedir. Bu teknoloji internette aranılan bilgiye daha hızlı bir şekilde erişmemize olanak sağlayacaktır. Açık Verilerin Bağlanması (Linking Open Data) projesi, internette açık verilerin semantik web yaklaşımı ile yayınlanması ve birbirine bağlanması için geliştirilen bir projedir. Bu proje sayesinde semantik web veri ağı ve bağlı veriler (linked data) gün geçtikçe büyümektedir. Bu bağlı veriler (linked data), pek çok bilgi çıkarma ve yapay zeka uygulamasında kullanılmaya başlamıştır.Bu tez çalışmasında, haberlerde geçen ve bağlı verilerde (linked data) bulunan varlık isimlerinin (yer, kişi, olay, vb.), birbirleriyle olan anlamsal ilişkilerini kullanarak haber öbekleme problemine yeni bir yaklaşım geliştirilmiştir. Yaptığımız testler geliştirdiğimiz yaklaşımın ?bag of words? yöntemine göre daha iyi sonuçlar verdiğini göstermektedir.
URI: https://hdl.handle.net/20.500.11851/8437
Appears in Collections:Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses

Show full item record

CORE Recommender

Page view(s)

4
checked on Aug 8, 2022

Google ScholarTM

Check


Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.