Tο Meltemi είναι το πρώτο Ελληνικό Μεγάλο Γλωσσικό Μοντέλο (LLM) το οποίο δημιουργήθηκε από το Ινστιτούτο Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου Αθηνά για να καλυφθούν τα όποια κενά υπάρχουν σε ελληνικό περιεχόμενο αλλά και στην απόδοση της ελληνικής γλώσσας, μια και η βάση όλων είναι η αγγλική γλώσσα όπως και το σχετικό περιεχόμενο εκπαίδευσης.
«Με το Ινστιτούτο να έχει συγκεντρώσει ερευνητές από διαφορετικούς τομείς για τη δημιουργία του γλωσσικού μοντέλου», γράφει η Σοφία Χρήστου στην kathimerini.gr, «το στοίχημα που τέθηκε εξαρχής συνοψίστηκε πάνω στο ερώτημα “αν όχι εμείς, τότε ποιοι;”. Για να πάρει όμως ένα τέτοιο εγχείρημα σάρκα και οστά, έπρεπε να υπάρχουν τέσσερα πράγματα:
- Γλωσσικά δεδομένα, δηλαδή κείμενα δισεκατομμυρίων λέξεων.
- Μηχανήματα. Εν προκειμένω χρησιμοποιήθηκαν υποδομές υπολογιστικού νέφους της Amazon μέσω του ΕΔΥΤΕ
- Αλγόριθμοι
- Τεχνογνωσία
Είναι σαφές πως αν δεν υπήρχε η συλλογή δεδομένων του Ινστιτούτου από τη δεκαετία του ’90, η ομάδα δεν θα μπορούσε να δημιουργήσει το πρώτο ελληνικό μεγάλο γλωσσικό μοντέλο, καθώς μία τέτοια διαδικασία είναι αδύνατον να γίνει εν μια νυκτί».
«Μαζέψαμε πολλά ελληνικά κείμενα, τα συλλέξαμε, τα ομογενοποιήσαμε και τα προετοιμάσαμε. Αφαιρέσαμε κείμενα που είναι το ένα αντίγραφο του άλλου, όπως και κείμενα με τοξικό χαρακτήρα, ρατσιστικό και σεξιστικό περιεχόμενο. Οι ελληνικές λέξεις που έχουμε συλλέξει και τοποθετήσει σε ένα μεγάλο σώμα εκπαίδευσης φτάνουν τα 30 δισεκατομμύρια, καθώς προφανώς κάποιες λέξεις επαναλαμβάνονται. Από αυτές, τα οκτώ εκατομμύρια συλλέχθηκαν μέσα σε 12 μήνες», εξηγεί ο ερευνητής Προκόπης Προκοπίδης στη Σοφία Χρήστου.
Ο ερευνητής Γιώργος Παρασκευόπουλος θυμάται: «Η ομάδα είχε δεσμεύσει τις δομές υπολογιστικού νέφους για συγκεκριμένο διάστημα, ενώ το κόστος χρήσης ανερχόταν στα 100 δολάρια την ώρα. Υπήρξε στιγμή που συνειδητοποιήσαμε πως ένα λάθος θα μας κόστιζε πάρα πολύ. Εν τέλει το διορθώσαμε, αλλά το άγχος που ένιωσα δεν θα το ξεχάσω ποτέ».
Το Meltemi αναπτύσσεται ως δίγλωσσο μοντέλο, διατηρώντας τις δυνατότητές του για την αγγλική γλώσσα, ενώ επεκτείνεται στην κατανόηση και παραγωγή κειμένου στα νέα ελληνικά χρησιμοποιώντας σύγχρονες τεχνικές.