Η τελειότητα στη μετατροπή ομιλίας σε κείμενο που εξυπηρετεί πολίτες ή πελάτες με φυσικό, ανθρώπινο τρόπο
Συνέντευξη με τον Γιώργο Κουμανταρή, Διευθύνοντα Σύμβουλο και Ιδρυτή της εταιρείας
ΦΩΤΟΓΡΑΦΙΕΣ: ΜΙΧΑΛΗΣ ΚΥΠΡΙΑΝΟΥ
Η Aseto AI ανακοίνωσε, κ. Κουμανταρή, πρόσφατα μια σημαντική τεχνολογική ανακάλυψη στον τομέα της Τεχνητής Νοημοσύνης, που αφορά την αναγνώριση ομιλίας για την ελληνική γλώσσα αλλά και την κυπριακή διάλεκτο. Μιλήστε μας για το σημαντικό αυτό επίτευγμα.
Όταν ξεκινήσαμε να ασχολούμαστε με την Τεχνητή Νοημοσύνη, εστιάσαμε στις τεχνολογίες φωνής και πιο συγκεκριμένα στην αναγνώριση ομιλίας και την αυτοματοποίηση δράσεων μέσω φωνής.
Στην προσπάθεια μας να εφαρμόσουμε στην ελληνική γλώσσα αλλά και στην κυπριακή διάλεκτο τα αγγλόφωνα σενάρια δράσεων που είχαμε ήδη αναπτύξει και δοκιμάσει με επιτυχία, διαπιστώσαμε ότι τα αποτελέσματα δεν ήταν τα ίδια. Εμφανίστηκαν αρκετές δυσκολίες, ιδιαίτερα σε περιπτώσεις που αφορούσαν αριθμούς, τοποθεσίες και διευθύνσεις, τομείς στους οποίους τα υπάρχοντα μοντέλα δεν μπορούσαν να αποδώσουν με την ίδια ακρίβεια και βεβαιότητα στην ελληνική γλώσσα και την κυπριακή διάλεκτο, όπως συνέβαινε στην αγγλική.
Ακόμη και απλές έννοιες, όπως η προφορά αριθμών στην κυπριακή διάλεκτο, για παράδειγμα, ο αριθμός είκοσι δύο, που αποδίδεται ως «κοσιδκιό» ή «κοσιδιό», προκαλούσαν σύγχυση στα έτοιμα (out-of-the-box) μοντέλα, τα οποία αδυνατούσαν να τις αναγνωρίσουν σωστά.
Αυτό καθιστούσε δύσκολη την εκτέλεση βασικών λειτουργιών, όπως η αναγνώριση διευθύνσεων ή τηλεφωνικών αριθμών, με την ίδια αξιοπιστία που επιτυγχανόταν στην αγγλική γλώσσα. Ένα από τα κύρια προβλήματα που αντιμετωπίσαμε ήταν η έλλειψη υφιστάμενων μοντέλων ικανών να υποστηρίξουν αποτελεσματικά τα workflows μας στην ελληνική γλώσσα και την κυπριακή διάλεκτο.
Αναζητήσαμε λύσεις τόσο σε κοινότητες ανοιχτού κώδικα όσο και σε εμπορικούς παρόχους· ωστόσο, καμία από αυτές δεν κάλυπτε πλήρως τις ανάγκες μας ως προς την υποστήριξη της ελληνικής γλώσσας και της κυπριακής διαλέκτου.
Στόχος μας από την αρχή ήταν και είναι να προσφέρουμε πραγματικά αξιόπιστες λύσεις φωνητικής τεχνητής νοημοσύνης στην ελληνική και κυπριακή αγορά, γι’ αυτό η υπερπήδηση αυτών των εμποδίων για μας ήταν μονόδρομος. Και έτσι πάρθηκε η απόφαση να προχωρήσουμε στη δική μας διαδικασία fine-tuning, δηλαδή να εκπαιδεύσουμε μοντέλα ανοιχτού κώδικα και να τα κάνουμε να κατανοούν φυσικά τη γλωσσική ποικιλία, τις προφορές και τις ιδιαιτερότητες τόσο της ελληνικής γλώσσας όσο και της κυπριακής διαλέκτου.
Μετά από αρκετές προσπάθειες, καταφέραμε να βελτιώσουμε σημαντικά την ακρίβεια της μετατροπής ομιλίας σε κείμενο (Speech-to-Text, STT), τόσο για την ελληνική γλώσσα, όσο και για την κυπριακή διάλεκτο. Η πρόοδος αυτή αποτέλεσε το κλειδί για την ακριβή αναγνώριση της ομιλίας και, κατ’ επέκταση, για την αυτοματοποίηση ενεργειών μέσω φωνητικών εντολών, είτε η φωνή είναι στην κοινή ελληνική είτε στην κυπριακή διάλεκτο.
Πώς φτάσατε σε αυτό το τεχνολογικό ορόσημο; Ποιες ήταν οι βασικές προκλήσεις που χρειάστηκε να ξεπεράσει η ομάδα σας;
Μία από τις μεγαλύτερες προκλήσεις που χρειάστηκε να αντιμετωπίσει η ομάδα μας ήταν η έλλειψη διαθέσιμων δεδομένων και καθιερωμένων πρακτικών για την εκπαίδευση ενός προηγμένου μοντέλου Μετατροπής Ομιλίας σε Κείμενο (Speechto- Text, STT) στην ελληνική γλώσσα και την κυπριακή διάλεκτο.
Με άλλα λόγια, απουσίαζαν έτοιμα σύνολα δεδομένων και καθιερωμένες κατευθυντήριες οδηγίες που θα μπορούσαν να υποστηρίξουν τη διαδικασία, καθώς πρόκειται για μια σχετικά νέα τεχνολογία με περιορισμένους πόρους και περιορισμένη τεκμηρίωση, ειδικά σε ό,τι αφορά την ελληνική γλώσσα και την κυπριακή διάλεκτο.
Η διαδικασία αυτή απαιτούσε να ξεκινήσουμε ουσιαστικά από το μηδέν. Να σχεδιάσουμε μια κατάλληλη μεθοδολογία, να συλλέξουμε φωνητικά δείγματα από διαφορετικούς ομιλητές, προφορές και περιβάλλοντα, και να δημιουργήσουμε εξαρχής τα δικά μας datasets. Ιδιαίτερη έμφαση δόθηκε στην ορθή επισημείωση (annotation) και προεπεξεργασία των δεδομένων, ώστε το μοντέλο να μάθει με ακρίβεια τη φυσική ροή και ποικιλία της κοινής ελληνικής και της κυπριακής ομιλίας.
Στόχος δεν ήταν απλώς η αναγνώριση της ελληνικής γλώσσας, αλλά η ανάπτυξη ενός μοντέλου που να λειτουργεί με συνέπεια και αξιοπιστία, διατηρώντας παράλληλα τη βασική του ταυτότητα και την υψηλή απόδοση που παρουσίαζε στην αγγλική γλώσσα.
Με άλλα λόγια, επιδιώξαμε να του προσδώσουμε μια νέα γλωσσική ικανότητα χωρίς να απωλέσει τη «γνώση» που είχε αποκτήσει μέσω της προηγούμενης εκπαίδευσης στα αγγλικά.
Μπορείτε να μας περιγράψετε με απλό τρόπο πώς καταφέρατε να κάνετε την τεχνητή νοημοσύνη να “καταλαβαίνει” και να λειτουργεί αποτελεσματικά με την ελληνική γλώσσα και την κυπριακή διάλεκτο;
Για να κάνουμε την τεχνητή νοημοσύνη να “καταλαβαίνει” και να λειτουργεί σωστά, τόσο στην κοινή ελληνική όσο και στην κυπριακή διάλεκτο, προχωρήσαμε στη διαδικασία fine-tuning, δηλαδή στην εκπαίδευση ενός υπάρχοντος μοντέλου με στοχευμένα δεδομένα που εμείς δημιουργήσαμε.
Η πρώτη και μεγαλύτερη πρόκληση ήταν να συλλέξουμε το κατάλληλο dataset. Δεν αρκεί απλώς να συγκεντρώσεις φωνές· πρέπει να εντοπίσεις τα σημεία στα οποία το μοντέλο παρουσιάζει αδυναμίες, για παράδειγμα σε αριθμούς, τοπικές εκφράσεις ή ιδιαίτερες προφορές, και να δημιουργήσεις δεδομένα που καλύπτουν ακριβώς αυτά τα κενά.
Έτσι, το dataset μας σχεδιάστηκε με τρόπο που να “διδάσκει” στο μοντέλο να χειρίζεται με μεγαλύτερη ακρίβεια αυτά τα δύσκολα σημεία. Παράλληλα, έπρεπε να βρούμε τη “συνταγή” για το fine-tuning: πώς να βελτιώσουμε την απόδοση του μοντέλου στα ελληνικά και στα κυπριακά χωρίς να επηρεάσουμε τις ήδη καλές του επιδόσεις σε άλλες γλώσσες ή στα αγγλικά.
Με προσεκτική εκπαίδευση και επαναληπτικές δοκιμές καταφέραμε να το εξελίξουμε, βελτιώνοντας την κατανόηση της ελληνικής και κυπριακής ομιλίας, χωρίς να αλλοιώσουμε τη γενικότερη ποιότητά του.

Ποιες είναι οι πρακτικές εφαρμογές αυτής της τεχνολογίας; Πώς μπορεί να αξιοποιηθεί από επιχειρήσεις, δημόσιους οργανισμούς ή ακόμα και από ιδιώτες στην καθημερινότητά τους;
Οι πρακτικές εφαρμογές αυτής της τεχνολογίας είναι πολλές και καλύπτουν ένα ευρύ φάσμα αναγκών, από την εξυπηρέτηση πελατών έως τη βελτίωση της καθημερινής επικοινωνίας μεταξύ πολιτών, επιχειρήσεων και οργανισμών.
Ένα χαρακτηριστικό παράδειγμα είναι ο ψηφιακός βοηθός, ή αλλιώς AI digital secretary, ο οποίος μπορεί να απαντά τη- λεφωνικές κλήσεις και να εξυπηρετεί πολίτες ή πελάτες με φυσικό, ανθρώπινο τρόπο.
Μπορεί να απαντά σε απλές ερωτήσεις, όπως «ποιες είναι οι ώρες λειτουργίας σας;» ή «πού βρίσκεστε;», αλλά και σε πιο σύνθετες, όπως ο προγραμματισμός ενός ραντεβού.
Σε αυτή την περίπτωση, έχει τη δυνατότητα να ελέγχει τη διαθεσιμότητα μέσα από το ημερολόγιο ή το CRM ενός οργανισμού και να καθοδηγεί βήμα-βήμα τον ενδιαφερόμενο, ώστε να ολοκληρώσει το αίτημά του εύκολα και χωρίς αναμονή. Η αξία αυτής της τεχνολογίας γίνεται ακόμη πιο εμφανής στους δημόσιους οργανισμούς, όπου το πρόβλημα των αναπάντητων κλήσεων είναι καθημερινό. Με τη λύση μας, το τηλέφωνο απαντάται πάντα.
Ο ψηφιακός βοηθός “ακούει” το αίτημα του πολίτη· αν μπορεί να το εξυπηρετήσει, απαντά άμεσα, ενώ αν χρειάζεται ανθρώπινη παρέμβαση, η κλήση μεταφέρεται στο κατάλληλο άτομο.
Παράλληλα, το σύστημα προσφέρει πολύτιμα δεδομένα και στατιστικά στοιχεία, όπως πόσες κλήσεις απαντήθηκαν, πόσα αιτήματα διεκπεραιώθηκαν αυτόματα, πόσα χρειάστηκαν προώθηση σε ανθρώπινο προσωπικό και ποια ήταν τα πιο συχνά θέματα επικοινωνίας. Με αυτόν τον τρόπο, οι οργανισμοί αποκτούν πλήρη εικόνα των αναγκών των πολιτών και μπορούν να βελτιώσουν την αποτελεσματικότητά τους με τεκμηριωμένες αποφάσεις.
Πέρα από τις εισερχόμενες κλήσεις, η τεχνολογία μπορεί να αξιοποιηθεί και για εξερχόμενες ενέργειες, όπως υπενθυμίσεις ραντεβού, ενημερώσεις ή έρευνες ικανοποίησης, προσφέροντας έναν αυτοματοποιημένο αλλά φυσικό τρόπο επικοινωνίας. Επιπλέον, υποστηρίζει αυτόματες μεταγραφές συναντήσεων (meeting transcriptions) τόσο στην κάτι που μέχρι σήμερα τα περισσότερα διεθνή εργαλεία δεν κατάφερναν να κάνουν με την ίδια ποιότητα που προσφέρουν στα αγγλικά.
Πώς μπορεί αυτή η καινοτομία να ενισχύσει την παραγωγικότητα και τον ψηφιακό μετασχηματισμό των επιχειρήσεων στην Κύπρο και την Ελλάδα;
Αυτή η καινοτομία έχει τη δυνατότητα να αυξήσει σημαντικά την παραγωγικότητα και τον ψηφιακό μετασχηματισμό, αυτοματοποιώντας διαδικασίες που προηγουμένως απαιτούσαν ανθρώπινο χρόνο και πόρους. Οι επιχειρήσεις και οι οργανισμοί μπορούν να εξυπηρετούν περισσότερους πολίτες ή πελάτες, ταχύτερα και πιο συστηματικά, χωρίς σημαντική αύξηση του λειτουργικού κόστους.
Ταυτόχρονα, η χρήση της Τεχνητής Νοημοσύνης στη φυσική γλώσσα, στην καθομιλουμένη ελληνική και κυπριακή διάλεκτο, καθιστά την τεχνολογία πραγματικά προσβάσιμη, βοηθώντας τους οργανισμούς να γίνουν πιο σύγχρονοι, πιο αποτελεσματικοί και πιο κοντά στους ανθρώπους που υπηρετούν.

Μετά από αυτή την επιτυχία, ποια είναι τα επόμενα βήματα για την Aseto AI; Υπάρχουν νέα έργα ή τεχνολογίες που σχεδιάζετε να παρουσιάσετε στο άμεσο μέλλον;
Το επόμενο βήμα για την Aseto AI είναι να εξελίξει την τεχνολογία αναγνώρισης φωνής (Speech-to-Text), παρουσιάζοντας ένα μοντέλο συνθετικής φωνής (Text-to-Speech) στα ελληνικά.
Στόχος μας είναι να επαναπροσδιορίσουμε τον τρόπο με τον οποίο η ελληνική γλώσσα ακούγεται μέσα από την τεχνολογία, προσφέροντας ανθρώπινη και υψηλής ποιότητας φωνητική εμπειρία.
Ωστόσο, οι φιλοδοξίες μας ξεπερνούν τον τομέα της φωνής. Πέρα από τις τεχνολογίες STT και TTS, αναπτύσσουμε μια νέα γενιά λύσεων Τεχνητής Νοημοσύνης, που βοηθούν τις εταιρείες να αντιμετωπίσουν τις προκλήσεις του πραγματικού κόσμου και να βελτιώσουν τις καθημερινές τους διαδικασίες. Η αποστολή μας είναι να κάνουμε την τεχνητή νοημοσύνη όχι μόνο προσιτή, αλλά ουσιαστικό μέρος του τρόπου με τον οποίο οι οργανισμοί σκέφτονται, λειτουργούν και εξελίσσονται, βοηθώντας τους να εργάζονται εξυπνότερα, να καινοτομούν ταχύτερα και να δημιουργούν μεγαλύτερη αξία μέσα από την τεχνολογία.










