Bağlı Veri Kaynakları ve İlişkileri Kullanılarak Haberlerin Öbeklendirilmesi

Yücesan, Mert Mehmet

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/2309

Title:	Bağlı Veri Kaynakları ve İlişkileri Kullanılarak Haberlerin Öbeklendirilmesi
Other Titles:	News Clustering Using Linked Data Resources and Their Relationships
Authors:	Yücesan, Mert Mehmet
Advisors:	Doğdu, Erdoğan
Keywords:	News clustering Linked data Semantic Web Semantic similarity Haber öbekleme Baglı veri Anlamsal Web Anlamsal benzerlik
Publisher:	TOBB University of Economics and Technology,Graduate School of Engineering and Science TOBB ETÜ Fen Bilimleri Enstitüsü
Source:	Yücesan, M. (2016). Bağlı veri kaynakları ve ilişkileri kullanılarak haberlerin öbeklendirilmesi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış yüksek lisans tezi]
Abstract:	Text clustering or document clustering is the task of identifying and grouping text documents that are about the same topic. This is especially important for the ever growing Web where the number of free-text documents just keep increasing. News clustering is a special task in this domain in which the goal is to classify news documents by topic. Earlier solutions on this problem utilized ``bag of words'' approach in which documents are represented with words and their frequencies in documents, and the clustering task measures the similarity of documents using this representation. However, this approach does not take into consideration the meaning or the importance of words and ambiguity in words is not resolved. We present a new approach to document or news clustering, we utilize ``linked data''. We map words or phrases in news documents to their real-world counterparts in ``linked data'' knowledge bases such as DBpedia and represent documents with linked data entities they have. Then we cluster documents using these entities and their category hierarchy similarities. Evaluation results show that our approach performs better than the bag of words approach. Metin veya doküman öbeklendirilmesi, aynı konuyla ilgili olan metin belgelerinin belirlenerek gruplandırılması işlemidir. Bu işlem, metin belgelerinin sayısının artmaya devam ettiği sürekli büyüyen Web için özellikle önemlidir. Haber öbeklendirilmesi bu alanda, haber belgelerinin konu bazında sınıflandırılmasının hedeflendiği özel bir konudur. Bu probleme ilişkin daha önce geliştirilmiş çözümler, belgelerin içlerinde geçen kelimelerle ve bu kelimelerin sıklıklarıyla temsil edildiği ``sözcük çantası'' yaklaşımını kullanmıştır ve öbeklendirme işlemi belgelerin bu gösterimi kullanılarak ölçülen benzerlikler kullanılarak yapılmıştır. Bununla birlikte, bu yaklaşım sözcüklerin anlamını veya önemini dikkate almaz ve sözcüklerdeki muğlaklık çözümlenmez. Bu çalışmada doküman veya haber öbeklendirilmesi konusunda ``bağlı veri'' kullanan yeni bir yaklaşım geliştirilmiştir. Bu yaklaşımda haber belgelerindeki sözcükler ve cümleler, DBpedia gibi bağlı veri bilgi tabanlarındaki gerçek dünya karşılıklarına eşlenir ve belgeler sahip oldukları bağlı veri varlıklarıyla temsil edilmektedir. Daha sonra haberler bu varlıklar ve bu varlıkların kategori hiyerarşisi benzerlikleri kullanılarak öbeklendirilmektedir. Değerlendirme sonuçları, geliştirilen yaklaşımın kelime çantasına göre daha iyi sonuç verdiğini göstermektedir.
URI:	https://hdl.handle.net/20.500.11851/2309 https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp
Appears in Collections:	Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses