[Εξώφυλλο]

Μέθοδοι συσταδοποίησης για τον εντοπισμό κοινοτήτων σε πολύπλοκα δίκτυα = Clustering methods for community detection in complex networks

Λουκάς Κατάνος

Περίληψη


Τα δίκτυα χρησιμοποιούνται ευρέως για να περιγράφουν πολύπλοκες σχέσεις μεταξύ οντοτήτων και η δομή κοινοτήτων είναι ένα σημαντικό χαρακτηριστικό που εμφανίζεται κυρίωςστην μελέτη των πραγματικών δικτύων.
Ο σκοπός της εργασίας είναι η ανάπτυξη μεθοδολογίας για την ανίχνευση κοινοτήτων σε πολύπλοκα δίκτυα με την μέθοδο συσταδοποίησης k-Μeans. Ο αλγόριθμος k-Μeans βασίζεται σε αποστάσεις σημείων ορισμένων σε ένα μετρικό χώρο, όπου αρχικά επιλέγονται τυχαία k από αυτά ως τα κέντρα των συστάδων. Συνεπώς, δημιουργείται το πρόβλημα του εντοπισμού των αρχικών κέντρων (initial seeds) αλλά και της επιλογής του αριθμού αυτών, ώστε η λύση του αλγορίθμου να είναι η βέλτιστη.
Στην παρούσα εργασία απαντώνται τα συγκεκριμένα προβλήματα και προτείνεται ένας τροποποιημένος αλγόριθμος K-Means ο οποίος μετατρέπει αρχικά το δίκτυο σε μετρικό χώρο και στην συνέχεια για την επιλογή των k αρχικών κέντρων κάνει την παραδοχή ότι τα αρχικά κέντρα θα πρέπει να είναι σημαντικοί κόμβοι του δικτύου οι οποίοι θα απέχουν όσο το δυνατόν περισσότερο μεταξύ τους. Ως εκ τούτου, οι κόμβοι ταξινομούνται ως προς δύο μεταβλητές, την Pagerank κεντρικότητα και την απόσταση από τους άλλους κόμβους με μεγαλύτερη Pagerank.
Συνεπώς, η Pagerank ενισχύεται από την από την απόσταση καθότι οι τιμές της ενδέχεται να μην έχουν μεγάλη διακύμανση. Από την ταξινόμηση των κόμβων προκύπτει ένα δισδιάστατο διάγραμμα απόφασης από το οποίο επιλέγεται ο αριθμός k των συστάδων αλλά και τα αρχικά κέντρα που θα χρησιμοποιήσει ο αλγόριθμος για τη συσταδοποίηση. Αφού, επιλεγούν τα κέντρα, ο αλγόριθμος εξάγει τις κοινότητες του δικτύου οι οποίες αξιολογούνται ποσοτικά από τον δείκτη Silhouette.
Για την αξιολόγηση του αλγορίθμου πραγματοποιήθηκε σύγκριση αυτού με έναν κλασικό αλγόριθμο εύρεσης κοινοτήτων σε έξι τεχνητά δίκτυα που η δομή κοινοτήτων ήταν γνωστή εκ των προτέρων και σε ένα πραγματικό δίκτυο.
Τέλος, ο προτεινόμενος αλγόριθμος εφαρμόστηκε σε ένα πραγματικό δίκτυο που δημιουργήθηκε από αναφορές μεταξύ λογαριασμών στο Twitter και εντοπίστηκε σε ποια κοινότητα ανήκουν οι πιο σημαντικοί κόμβοι του.

Community detection is a very important problem in social network analysis. Classical clustering approach, K-means, has been shown to be very efficient to detect communities in networks. However, K-means is quite sensitive to the initial centroids or seeds, especially when it is used to detect communities. Additionally, in K-means, the number of communities should be specified in advance. Till now, it is still an open problem on how to select initial seeds and how to determine the number of communities.
To address this problem in this study, a modification of the classical K-Means algorithm is proposed, which selects the top-K nodes with the highest rank centrality as the initial seeds, and updates these seeds by using an iterative technique like K-means. First, based on the fact that good initial seeds usually have high importance and are dispersedly located in a network, a modified PageRank centrality is proposed to evaluate the importance of each node, and drew a decision graph to depict the importance and the dispersion of nodes. Then, the initial seeds and the number of communities are selected from the decision graph actively and intuitively as the ‘start’ parameter of K-means.
The proposed algorithm is compared with a classical algorithm for community detection on artificial networks whose community structure is already known, as well as a real network. Then, the outputs are evaluated by the Silhouette index and the relevant diagram.
Finally, the K-Means algorithm is applied in a real Twitter network formed by references among Twitter accounts-ids, detecting the important nodes as well as the community that they belong to.

Πλήρες Κείμενο:

PDF

Αναφορές


A. Clauset, M. E. J. Newman, C. Moore. (2004). Finding community structure in very large networks. Phys. Rev. E 70, 066111.

Andreadis S., Gialampoukidis I., Fiorin R., Lombardo F., Norbiato D., Karakostas A., Ferri M.,

Vrochidis S., Kompatsiaris I. (2018). SOCIAL MEDIA OBSERVATIONS FOR FLOOD EVENT MONITORING. Citizen Observatories for natural hazards and Water Management. Venice.

Barabási, A. (2009). Scale-Free Networks: A Decade and Beyond. Science, 412-413.

Biswajit S., Amitabha M., Soumendu B. T., Debaprasad . (2015). Complex Networks, Communities and Clustering: A survey. CoRR, abs/1503.06277.

D. J. Watts , S. H. Strogatz. (1998). Collective dynamics of ‘small-world’ networks. Nature, 440-442.

David Arthur, Sergei Vassilvitskii. (2007). k-means++: The Advantages of Careful Seeding. 1027-1035.

Donetti L., Munoz M.A. (2004). Detecting Network Communities: a new systematic and efficient algorithm. Statistical Mechanics, P10012.

Fortunato, S. (2010). Community detection in graphs. Physics Reports, 75-174.

Franceschet, M. (2011). Pagerank: Standing on the shoulders of giants. 92-101.

Jaewon Y., Julian Mc., LeskovecJure L. (2013). Community Detection in Networks with Node Attributes. 2013 IEEE 13th International Conference on Data Mining. Dallas, TX, USA: IEEE.

Jierui X., Stephen K., Boleslaw K. S. (2013). Overlapping Community Detection in Networks: the State of the Art and Comparative Study. ACM Computing Surveys, Volume 45 Issue 4.

L. Page, S. Brin, R. Motwani, T. Winograd. (1999). The PageRank Citation Ranking: Bringing Order to the Web. World Wide Web Conference, (σσ. 161-172). Brisbane, Australia.

Lusseau, D. (2003). The emergent properties of a dolphin social network. Proc Biol Sc. Lusseau, D. (2007). Evidence for Social Role in a Dolphin Social Network. Evolutionary Ecology, 357-366.

M. E. J. Newman, M. Girvan. (2004). Finding and evaluating community structure in networks. Physical Review .

M. Girvan, M. E. J. Newman. (2002). Community structure in social and biological networks.Proc Natl Acad Sci U S A, 7821–7826.

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Fifth Berkeley Symposium on Mathematical Statistics and Probability (σσ. 281-297). Berkeley: University of California Press.

Muhammad A. J., Muhammad S. Y., Siddique L., Junaid Q., Adeel B. (2018). Community detection in networks: A multidisciplinary review. Network and Computer Applications, 87-111.

N. Masuda, M.A. Porter, R. Lambiotte. (2017). Random walks and diffusion on networks. Physics Report, 1-58.

Newman, M. E. (2004). Fast algorithm for detecting community structure in networks. Physical Review E 69, 066133 .

Newman, M. E. (2006). Modularity and community structure in networks. PNAS, 8577-8582.

P.Ν. Tan, M. Steinbach, A. Karpatne, V. Kumar. (2018). Introduction to Data Mining (Second Edition). 2018.

Pang-Ning Tan, Michael Steinbach,Anuj Karpatne, Vipin Kumar. (2018). Introduction to Data Mining (Second Edition). Pearson.

Pearson, K. (1948). Εarly Statistical Papers. University Press.

Pizzuti, C. (2013). A Multiobjective Genetic Algorithm to Find. TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 418 - 430.

Pothen, A. (1997). Graph Partitioning Algorithms with Applications to Scientific Computing. Parallel Numerical Algorithms, 323-368.

Réka Albert, Albert-László Barabási. (2002). Statistical mechanics of complex networks. Minneapolis: American Physical Society.

Rousseeuw, P. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Computational and Applied Mathematics, 53-65.

S. Boettcher, A.G. Percus. (2001). Extremal optimization for graph partitioning. Phys. Rev. E 64.

S. Niwattanakul, J.Singthongchai, E. Naenudorn, S. Wanapu. (2013). Using of Jaccard Coefficient for Keywords Similarity. International MultiConference of Engineers and Computer Scientists, (σ. Vol I). Hong Kong.

Simon, H. A. (1962). The architecture of complexity. Proceedings of the American Philosophical Society, 467-482.

Wilson, R. (1996). Introduction to Graph Theory. Prentice Hall, 5 edition.

Y. Jiang, C. Jia, J. Yu. (2013). An efficient community detection method based on rank centrality. Physica A: Statistical Mechanics and its Applications, 2182-2194.

Y. Li, C. J. (2015). A parameter-free community detection method based on. Physica A: Statistical Mechanics and its Applications 438, pp. 321-334.

Yanqing Hu, M. L. (2008). Community detection by signaling on complex networks. PHYSICAL REVIEW, E 78, 016115.

Zachary, W. W. (1977). An Information Flow Model for Conflict and Fission in Small Groups. Anthropological Research, 452-473.

Zhang L., Ye Q., Shao Y., Li C., Gao H. (2014). An Efficient Hierarchy Algorithm for Community Detection in Complex Networks. Mathematical Problems in Engineering


Εισερχόμενη Αναφορά

  • Δεν υπάρχουν προς το παρόν εισερχόμενες αναφορές.