Statistical analysis of epigenetic data for CLL patients = Στατιστική ανάλυση επιγενετικών δεδομένων ασθενών με Χρόνια Πεμφοκυτταρική Λευχαιμία

Νέστωρ Χαλκίδης

Statistical analysis of epigenetic data for CLL patients = Στατιστική ανάλυση επιγενετικών δεδομένων ασθενών με Χρόνια Πεμφοκυτταρική Λευχαιμία

Νέστωρ Χαλκίδης

Περίληψη

Chronic lymphocytic leukemia (CLL) is the most common type of leukemia in the western world. Many patients who suffer from CLL, will be in need at some point to receive treatment. Despite the existence of several effective therapies for CLL, like the FCR regimen, many patients initially responding to the treatment eventually relapse, underscoring a characteristic resistance of the disease to the existing therapeutic options. In this thesis, we studied the temporal patterns of DNA methylation of 40 patients with CLL. Sampling was performed before and after the relapse of patients. Due to the remarkable clinical heterogeneity of CLL, the patients were initially divided into two groups with two different ways: a) based on the time to relapse, which is calculated from the start of treatment until the relapse time, and b) based on the diversification of their epigenetic patterns in recurrence compared with treatment initiation. The aim of this study is to find the most important CpG sites of DNA methylation that could be used to efficiently classify the patients. Due to the high dimensionality of our real data (40x463442), we chose to work with machine learning and variable selection algorithms. The analysis of this study is mainly based on the random forest algorithm. The latter is suitable for microarray data because it shows good predictive accuracy even when most of the predictive variables are noise, and can be used in problems where the number of variables is much larger than the number of samples/observations. Furthermore, the variable selection algorithm was applied, to detect the most informative DNA methylation sites that achieve good predictive accuracy as well. Our experimental analysis has shown that the derived DNA methylation sites can efficiently classify the patients with high success rates. Moreover, these DNA methylation sites were used to evaluate standard methods, such as hierarchical clustering (HC) and principal component analysis (PCA). It turned out that when the derived sites were used as inputs in HC and PCA, the patients were clustered satisfactorily according to their original classes.

Η Χρόνια Λεμφοκυτταρική Λευχαιμία (ΧΛΛ) είναι η πιο συχνή μορφή λευχαιμίας στο δυτικό κόσμο. Σε πολλές από τις περιπτώσεις ασθενών με ΧΛΛ θα χρειαστεί να χορηγηθεί θεραπεία. Μολονότι υπάρχουν διάφορες αποτελεσματικές θεραπείες για τη ΧΛΛ, όπως η αγωγή FCR, πολλοί ασθενείς, αν και αρχικά ανταποκρίνονται στη θεραπεία τελικά υποτροπιάζουν, κάτι που τονίζει τη χαρακτηριστική αντίσταση της νόσου στις υπάρχουσες θεραπείες. Στην παρούσα εργασία μελετήθηκαν τα διαχρονικά πρότυπα μεθυλίωσης του DNA σε 40 περιπτώσεις ασθενών με ΧΛΛ. Η δειγματοληψία πραγματοποιήθηκε πριν την υποτροπή και κατά την υποτροπή των ασθενών. Εξαιτίας της αξιοσημείωτης κλινικής ετερογένειας της ΧΛΛ, οι ασθενείς χωρίστηκαν εξαρχής σε δύο ομάδες με δύο διαφορετικούς τρόπους: α) με βάση το χρόνο που μεσολάβησε από την έναρξη της θεραπείας μέχρι την υποτροπή, και β) με βάση τη διαφοροποίηση των επιγενετικών προτύπων τους κατά την υποτροπή σε σχέση με την έναρξη της θεραπείας. Στόχος της παρούσας εργασίας είναι η ανεύρεση των πιο σημαντικών θέσεων μεθυλίωσης του DNA που θα μπορούσαν να χρησιμοποιηθούν για την πρόβλεψη της ομάδας στην οποία ανήκει ο ασθενής. Λόγω του μεγάλου όγκου των δεδομένων (40x463442), επιλέξαμε να δουλέψουμε με αλγόριθμους επιλογής και μάθησης. Η κύρια ανάλυση της παρούσας εργασίας βασίζεται στον αλγόριθμο των τυχαίων δασών. Ο αλγόριθμος των τυχαίων δασών είναι κατάλληλος για δεδομένα μικροσυστοιχιών επειδή δείχνει καλή προγνωστική ακρίβεια ακόμη και όταν οι περισσότερες μεταβλητές παρουσιάζουν θόρυβο. Μπορεί επίσης να χρησιμοποιηθεί σε προβλήματα όπου ο αριθμός των μεταβλητών είναι πολύ μεγαλύτερος από τον αριθμό των δειγμάτων/παρατηρήσεων. Ειδικότερα, εφαρμόστηκε ο αλγόριθμος επιλογής με σκοπό την εύρεση των πιο σημαντικών θέσεων μεθυλίωσης του DNA, οι οποίες έχουν καλή προβλεπτική σημασία. Τα αποτελέσματα της εφαρμογής του αλγορίθμου επιλογής οδήγησαν σε σημαντικές θέσεις μεθυλίωσης του DNA, με βάση τις οποίες είναι δυνατή η πρόβλεψη της ομάδας στην οποία ανήκει ο ασθενής με πολύ μεγάλα ποσοστά επιτυχίας. Επιπλέον, οι θέσεις αυτές χρησιμοποιήθηκαν για την εφαρμογή μεθόδων κατηγοριοποίησης, όπως η ιεραρχική κατηγοριοποίηση (hierarchical clustering) και η ανάλυση κυρίων συνιστωσών (principal component analysis) και παρατηρήθηκε πολύ ικανοποιητική κατηγοριοποίηση των ασθενών στις κλάσεις τους.

Πλήρες Κείμενο:

PDF

Εισερχόμενη Αναφορά

Δεν υπάρχουν προς το παρόν εισερχόμενες αναφορές.