Machine learning algorithms for big data = Αλγόριθμοι μάθησης για μεγάλης κλίμακας δεδομένα.
Σκοπός της παρούσας διπλωματικής εργασίας είναι να παρουσιαστούν οι μέθοδοι και τα εργαλεία που χρησιμοποιούνται για τη διανυσματική αναπαράσταση λέξεων και εγγράφων. Η διανυσματική αναπαράσταση των λέξεων αποτελεί απαραίτητο πρώτο βήμα για την τροφοδότηση δεδομένων φυσικής γλώσσας σε οποιοδήποτε νευρωνικό δίκτυο με σκοπό την επεξεργασία των λέξεων και την εξαγωγή μοντέλων. Η αναπαράσταση των λέξεων ως διανύσματα των οποίων οι παράμετροι σκιαγραφούν την πληθώρα των ιδιοτήτων τους έχει παρατηρηθεί ότι είναι καθοριστική για την επιτυχία διεργασιών επεξεργασίας φυσικής γλώσσας όπως είναι η κατηγοριοποίηση (classification), περίληψη (summarization) και μετάφραση (translation) κειμένων, μεταξύ άλλων. Αρχικά παρουσιάζονται οι πιο γνωστές τεχνικές που χρησιμοποιούνται για την αναπαράσταση λέξεων και εγγράφων και στην συνέχεια μέσω της γλώσσας προγραμματισμού Python μελετάται η αναπαράσταση λέξεων και εγγράφων στην ελληνική γλώσσα.
