Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.11851/2309
Title: Bağlı veri kaynakları ve ilişkileri kullanılarak haberlerin öbeklendirilmesi
Other Titles: News clustering using linked data resources and their relationships
Authors: Doğdu, Erdoğan
Yücesan, Mert Mehmet
Keywords: News clustering
Linked data
Semantic Web
Semantic similarity
Haber öbekleme
Baglı veri
Anlamsal Web
Anlamsal benzerlik
Issue Date: 2016
Publisher: TOBB University of Economics and Technology,Graduate School of Engineering and Science
TOBB ETÜ Fen Bilimleri Enstitüsü
Source: Yücesan, M. (2016). Bağlı veri kaynakları ve ilişkileri kullanılarak haberlerin öbeklendirilmesi. Ankara: TOBB ETÜ Fen Bilimleri Enstitüsü. [Yayınlanmamış yüksek lisans tezi]
Abstract: Metin veya doküman öbeklendirilmesi, aynı konuyla ilgili olan metin belgelerinin belirlenerek gruplandırılması işlemidir. Bu işlem, metin belgelerinin sayısının artmaya devam ettiği sürekli büyüyen Web için özellikle önemlidir. Haber öbeklendirilmesi bu alanda, haber belgelerinin konu bazında sınıflandırılmasının hedeflendiği özel bir konudur. Bu probleme ilişkin daha önce geliştirilmiş çözümler, belgelerin içlerinde geçen kelimelerle ve bu kelimelerin sıklıklarıyla temsil edildiği ``sözcük çantası'' yaklaşımını kullanmıştır ve öbeklendirme işlemi belgelerin bu gösterimi kullanılarak ölçülen benzerlikler kullanılarak yapılmıştır. Bununla birlikte, bu yaklaşım sözcüklerin anlamını veya önemini dikkate almaz ve sözcüklerdeki muğlaklık çözümlenmez. Bu çalışmada doküman veya haber öbeklendirilmesi konusunda ``bağlı veri'' kullanan yeni bir yaklaşım geliştirilmiştir. Bu yaklaşımda haber belgelerindeki sözcükler ve cümleler, DBpedia gibi bağlı veri bilgi tabanlarındaki gerçek dünya karşılıklarına eşlenir ve belgeler sahip oldukları bağlı veri varlıklarıyla temsil edilmektedir. Daha sonra haberler bu varlıklar ve bu varlıkların kategori hiyerarşisi benzerlikleri kullanılarak öbeklendirilmektedir. Değerlendirme sonuçları, geliştirilen yaklaşımın kelime çantasına göre daha iyi sonuç verdiğini göstermektedir.
Text clustering or document clustering is the task of identifying and grouping text documents that are about the same topic. This is especially important for the ever growing Web where the number of free-text documents just keep increasing. News clustering is a special task in this domain in which the goal is to classify news documents by topic. Earlier solutions on this problem utilized ``bag of words'' approach in which documents are represented with words and their frequencies in documents, and the clustering task measures the similarity of documents using this representation. However, this approach does not take into consideration the meaning or the importance of words and ambiguity in words is not resolved. We present a new approach to document or news clustering, we utilize ``linked data''. We map words or phrases in news documents to their real-world counterparts in ``linked data'' knowledge bases such as DBpedia and represent documents with linked data entities they have. Then we cluster documents using these entities and their category hierarchy similarities. Evaluation results show that our approach performs better than the bag of words approach.
URI: https://hdl.handle.net/20.500.11851/2309
https://tez.yok.gov.tr/UlusalTezMerkezi/tezSorguSonucYeni.jsp
Appears in Collections:Bilgisayar Mühendisliği Yüksek Lisans Tezleri / Computer Engineering Master Theses

Files in This Item:
File Description SizeFormat 
450647.pdf844.35 kBAdobe PDFThumbnail
View/Open
Show full item record

CORE Recommender

Page view(s)

82
checked on Dec 26, 2022

Download(s)

8
checked on Dec 26, 2022

Google ScholarTM

Check


Items in GCRIS Repository are protected by copyright, with all rights reserved, unless otherwise indicated.