Δίκτυα Γνώσης και Εφαρμογές Μεθόδων Στατιστικής σε Διασυνδεδεμένα Δεδομένα Κινηματογράφου
Περίληψη
Στην εργασία αυτή λαμβάνονται μαζικά διασυνδεδεμένα δεδομένα κινηματογράφου από τον Παγκόσμιο Ιστό και περιγράφεται η διαδικασία εξόρυξης, καθαρισμού, επεξεργασίας και τέλος, δημιουργίας μιας εφαρμογής οπτικοποίησης των αποτελεσμάτων που αυτά προσφέρουν. Τα δεδομένα αυτά υπάρχουν ήδη μεμονωμένα στο πλαίσιο πληροφοριών κάθε σελίδας κινηματογραφικής ταινίας στη Wikipedia και μπορεί κάθε χρήστης να τα ανακτήσει, απλά μπαίνοντας στις αντίστοιχες σελίδες της. Για τη εξόρυξη και την εννοιoλογική τους επεξεργασία όμως, χρησιμοποιήθηκε η τεχνολογία των διασυνδεδεμένων δεδομένων. Τα εννοιολογικά δεδομένα που ανακτήθηκαν χρειάστηκαν περαιτέρω καθαρισμό. Ο λόγος είναι ότι προέρχονται από την Wikipedia, και συνεπώς έχουν δημιουργηθεί από πολλούς διαφορετικούς χρήστες, χωρίς κανόνες διατύπωσης. Η εννοιολογική αναπαράσταση των δεδομένων αυτών στην DBpedia κληρονομεί τα σφάλματα των πρωτογενών δεδομένων της Wikipedia. Η περιγραφική λογική στην οντολογία της DBpedia είναι σε στάδιο ανάπτυξης έτσι ώστε να μπορεί να εντοπίσει τέτοια σφάλματα και να τα διορθώνει αυτόματα. Στην εργασία αυτή τα σφάλματα εντοπίστηκαν μέσω διαφορετικών τεχνολογιών και διορθώθηκαν. Στη συνέχεια τα δεδομένα αναλύθηκαν μέσω δικτύων, στατιστικής επεξεργασίας και ανάλυσης χρονοσειρών. Τα αποτελέσματα οπτικοποιούνται στο χρήστη μέσω μιας διαδραστικής εφαρμογής, δίνοντας του την ευελιξία να τα προβάλλει με πολλούς διαφορετικούς τρόπους. Η μέθοδος που παρουσιάζεται μπορεί να χρησιμοποιηθεί σαν οδηγός για την αποσφαλμάτωση της Wikipedia, δίνοντας έμπνευση για δημιουργία αλγορίθμων με αυτό το σκοπό. Ο κινηματογράφος είναι μία από τις πολλές κατηγορίες διασυνδεδεμένων δεδομένων όπου μπορεί να εφαρμοσθεί η μεθοδολογία και η ανάλυση που προτείνουμε και συνεπώς η εργασία αυτή μπορεί να αποτελέσει οδηγό για περαιτέρω έρευνα σε άλλες κατηγορίες ανοιχτών διασυνδεδεμένων δεδομένων.
In this paper, we describe the methodology and the results of the statistical analysis, data mining, graph analysis and network analytics of cinematography data retrieved from the Linked Open Data cloud. At first many issues arise mainly consering the quality of the data retrieved. Wikipedia is a crowd sourced website and, as a result, the entries are phrased or worded differently by each user and this creates errors in DBpedia’s entries. Descriptive logic in Linked Open Data is under construction as of this moment and these errors cannot be spotted and corrected automatically yet. Therefore, it was necessary to clean the dataset with different technologies. Afterwards the data was analyzed and the results were visualized through an interactive application giving the user the opportunity to view them from many aspects. The methods described can be used as a guide to correct DBpedia, offering insight for the creation of algorithms with that purpose. This paper is a study that demonstrates the benefits of using Linked Open Data in Data Science and its methodology can be reused in many other multivariate Linked Open Data subjects.
Πλήρες Κείμενο:
PDFΕισερχόμενη Αναφορά
- Δεν υπάρχουν προς το παρόν εισερχόμενες αναφορές.