Εμπλουτισμός δεδομένων recommender systems με Linked Open Data
Σε αυτή την εργασία περιγράφονται αλγόριθμοι συστάσεων, ο εμπλουτισμός των δεδομένων μέσω της εκμετάλλευσης ανοικτών διασυνδεδεμένων δεδομένων, η δημιουργία ενός τέτοιου αλγορίθμου ώστε να εξεταστεί το όφελος που προκύπτει και τέλος ο σχεδιασμός μίας εφαρμογής για την εύρεση προτεινόμενων ταινιών. Οι αλγόριθμοι συστάσεων μπορούν να έχουν πολλές διαφορετικές εκφάνσεις, με πολλές από τις οποίες ερχόμαστε συχνά σε επαφή χωρίς συνήθως να το αντιλαμβανόμαστε, όπως τους ιστότοπους: Amazon , Netflix, EBay, YouTube, κ.α. O Λόγος που υπάρχουν τόσες διαφορετικές μηχανές συστάσεων είναι η αύξηση των πωλήσεων και η ευχρηστία το εκάστοτε ηλεκτρονικού καταστήματος ή μίας υπηρεσίας αυξάνοντας έτσι το κέρδος και την επισκεψιμότητα. Όσον αφορά τα δεδομένα που θα χρησιμοποιηθούν στο χτίσιμο του αλγορίθμου, επιλέξαμε να ασχοληθούμε με κινηματογραφικά δεδομένα από τον ιστότοπο Movielens, ο οποίος παρέχει δεδομένα από πραγματικές βαθμολογίες χρηστών αλλά και τους τύπους των ταινιών που βαθμολογήθηκαν. Τα δεδομένα εμπλουτίστηκαν περαιτέρω χρησιμοποιώντας τους πόρους της Wikipedia. Ο ευκολότερος τρόπος για να αντληθούν μαζικά τα δεδομένα είναι μέσω του end-point της DBpedia. Στη συνέχεια τα δεδομένα αποσφαλματώθηκαν και μορφοποιήθηκαν ώστε να δημιουργηθεί ένα εύχρηστο dataset για την υλοποίηση του αλγορίθμου. Ακολούθως ελέγξαμε τη διαφορά που προκύπτει στα αποτελέσματα μετά την χρήση των διασυνδεδεμένων δεδομένων. Τέλος σχεδιάσαμε μια εφαρμογή η οποία μας βοηθά να βρούμε όμοιες ταινίες. Η εργασία αυτή δίνει μία βάση για το πώς μπορεί να εκμεταλλευτεί κανείς τα διασυνδεμένα δεδομένα σε τέτοια συστήματα.
In this work we describe recommender system algorithms, the creation of one such algorithm, and the augmentation of data using Open Linked Data. Recommendation system algorithms can be found in many forms, which we usually come across without even noticing, as is with the case of the sites: Amazon , Netflix, EBay, YouTube, and other. The reason there are so many different recommender systems is the increase of sales and the friendliness of the site, thus increasing profit and times of visit. For the data we are going to use for the creation of our recommender, we choose to use cinematography data from the site Movielens, which provides files with real ratings of movies by real users and also the types of each movie. The data was enriched using Wikipedia resources. The easiest way to quickly obtain big data is through the DBpedia end-point by SPARQL querying taking advantage of the ontologies. Next the data was cleaned and formatted, to make it suitable for creating our algorithm, using R and mainly the library “SPARQL” and Open refine. For the creation of the algorithm we once again used R and the very helpful library for this case “recommenderlab”. Finally we built a simple recommender, which will help find movies similar to one we like.
Πλήρες Κείμενο:
