[Εξωφυλλο}

Εμπλουτισμός δεδομένων recommender systems με Linked Open Data

Λουκάς Μάριος Ι. Μοσχάτος

Περίληψη


Σε αυτή την εργασία περιγράφονται αλγόριθμοι συστάσεων, ο εμπλουτισμός των δεδομένων μέσω της εκμετάλλευσης ανοικτών διασυνδεδεμένων δεδομένων, η δημιουργία ενός τέτοιου αλγορίθμου ώστε να εξεταστεί το όφελος που προκύπτει και τέλος ο σχεδιασμός μίας εφαρμογής για την εύρεση προτεινόμενων ταινιών. Οι αλγόριθμοι συστάσεων μπορούν να έχουν πολλές διαφορετικές εκφάνσεις, με πολλές από τις οποίες ερχόμαστε συχνά σε επαφή χωρίς συνήθως να το αντιλαμβανόμαστε, όπως τους ιστότοπους: Amazon , Netflix, EBay, YouTube, κ.α. O Λόγος που υπάρχουν τόσες διαφορετικές μηχανές συστάσεων είναι η αύξηση των πωλήσεων και η ευχρηστία το εκάστοτε ηλεκτρονικού καταστήματος ή μίας υπηρεσίας αυξάνοντας έτσι το κέρδος και την επισκεψιμότητα. Όσον αφορά τα δεδομένα που θα χρησιμοποιηθούν στο χτίσιμο του αλγορίθμου, επιλέξαμε να ασχοληθούμε με κινηματογραφικά δεδομένα από τον ιστότοπο Movielens, ο οποίος παρέχει δεδομένα από πραγματικές βαθμολογίες χρηστών αλλά και τους τύπους των ταινιών που βαθμολογήθηκαν. Τα δεδομένα εμπλουτίστηκαν περαιτέρω χρησιμοποιώντας τους πόρους της Wikipedia. Ο ευκολότερος τρόπος για να αντληθούν μαζικά τα δεδομένα είναι μέσω του end-point της DBpedia. Στη συνέχεια τα δεδομένα αποσφαλματώθηκαν και μορφοποιήθηκαν ώστε να δημιουργηθεί ένα εύχρηστο dataset για την υλοποίηση του αλγορίθμου. Ακολούθως ελέγξαμε τη διαφορά που προκύπτει στα αποτελέσματα μετά την χρήση των διασυνδεδεμένων δεδομένων. Τέλος σχεδιάσαμε μια εφαρμογή η οποία μας βοηθά να βρούμε όμοιες ταινίες. Η εργασία αυτή δίνει μία βάση για το πώς μπορεί να εκμεταλλευτεί κανείς τα διασυνδεμένα δεδομένα σε τέτοια συστήματα.

In this work we describe recommender system algorithms, the creation of one such algorithm, and the augmentation of data using Open Linked Data. Recommendation system algorithms can be found in many forms, which we usually come across without even noticing, as is with the case of the sites: Amazon , Netflix, EBay, YouTube, and other. The reason there are so many different recommender systems is the increase of sales and the friendliness of the site, thus  increasing profit and times of visit. For the data we are going to use for the creation of our recommender, we choose to use cinematography data from the site Movielens, which provides files with real ratings of movies by real users and  also the types of each movie. The data was enriched using Wikipedia resources. The easiest way to quickly obtain big data is through the DBpedia end-point by SPARQL querying taking advantage of the ontologies. Next the data was  cleaned and formatted, to make it suitable for creating our algorithm, using R and mainly the library “SPARQL” and Open refine. For the creation of the algorithm we once again used R and the very helpful library for this case  “recommenderlab”. Finally we built a simple recommender, which will help find movies similar to one we like.


Πλήρες Κείμενο:

PDF

Αναφορές


S.-H. Cha. Comprehensive Survey on Distance/Similarity Measures between Probability Density

Functions: International journal of mathematical models and methods in alpied sciencies, Issue 4,

Volume 1, pages 300-307, January 2007,

S. Debnath, N. Ganguly and P. Mitra. Feature Weighting in Content Based Recommendation System

Using Social Network Analysis. Proccedings of the 17 th international conference on World Wide Web,

pages 1041-1042, April 2008.

M. Hahsler, recommenderlab: A Framework for Developing and Testing Recommendation Algorithms,

February 2015.

R. Mirizzi, T. Di Noia, A.Ragone, V.Claudio Ostuni and E. Di Sciascio. Movie recommendation with

DBpedia, January 2012.

H.Zhang, F. Min and S.Wang. A random Forest Approach to Model-based Recommendation. Journal of

information & Computational Science, pages 5341-5348, October 2014.

J. Bobadilla, F. Ortega, A. Hernando and J. Bernal. A collaborative filtering approach to mitigate the

new user cold start problem. Knowledge-Based Systems, volume 26,pages 225–238, February 2012.

Y. Koren, R. Bell and C. Volinsky, Matrix factorization techniques for recommender systems. Yahoo

Research Robert Bell and Chris Volinsky, AT&T Labs—Research, August 2009.

L. Kidzinski. Statistical foundations of recommender systems. University of Warsaw Faculty of

Mathematics, Informatics and Mechanics. September 2011.

X. Amatriain, A. Jaimes, N, Oliver and J. M. Pujol. Data Mining Methods for Recommender Systems,

Recommender Systems Handbook, pages 39-71, October 2010.

P. Symeonidis. Content-based Dimensionality Reduction for Recommender Systems. Data Analysis,

Machine Learning and Applications, pages 619-626, March 2007.

T. Di Noia , R. Mirizzi , V. Claudio Ostuni and, D. Romito. Exploiting the Web of Data in Model-based

Recommender Systems, Proceedings of the sixth ACM conference on Recommender systems, pages 253-

, September 2012.

T. Di Noia , I. Cantador and V. Claudio Ostuni. Linked Open Data-enabled Recommender Systems:

ESWC 2014 Challenge on Book Recommendation. Volume 475 of the series Communications in

Computer and information Science, pages 129-143, October 2014.

V. Claudio Ostuni, T. Di Noia and E. Di Sciascio, R. Mirizz. Top-N Recommendations from Implicit

Feedback leveraging Linked Open Data. Proceedings of the 7th ACM conference on Recommender

systems, pages 85-92, October 2013.

R. Verborgh, M. De Wilde. Using OpenRefine. January 2013.

G. Linden, B. Smith, and J. York. Amazon.com Recommendations Item-to-Item Collaborative Filtering.

IEEE internet computing, Volume 7, pages 76-80, January 2003.

I. Cantador, A. Bellogín , D. Vallet, Content-based Recommendation in Social Tagging Systems,

Proceedings of the fourth ACM conference on Recommender systems, pages 237-240, Septemper 2010.

G. Karypis, Evaluation of Item-Based Top-N Recommendation Algorithms, ACM Transaction systems,

Volume 22 Issue 1, January 2004, pages 143-177, October 2001.

S. Debnath, N. Ganguly and P. Mitra. Feature Weighting in Content Based Recommendation System

Using Social Network Analysis, WWW ’08 Proceedings of the 17th international conference on World

Wide Web, pages 1041-1042, April 2008.

N. Livanos, C. Bratsas, S. Karampatakis and I. Antoniou. Knowledge Networks and Statistical Analysis

of Cinematography Linked Data. CEUR Workshop Proceedings, vol 1695, September 2016.


Εισερχόμενη Αναφορά

  • Δεν υπάρχουν προς το παρόν εισερχόμενες αναφορές.