06.04.2022

Τώρα η φωνή σου μπορεί να σε προδώσει

Η Τεχνητή Νοημοσύνη χρειάζεται μόλις 3 με 6 δευτερόλεπτα από την ομιλία σου για να εμφανίσει μια εικόνα που σου μοιάζει. Πολύ.

Η μετατροπή ήχου σε κείμενο, κάτι που χρόνια πριν θα έμοιαζε με ιστορία επιστημονικής φαντασίας, σήμερα βρίσκεται στην πλειοψηφία σχεδόν των smartphone σαν βασικό εργαλείο. Δεν παραξενεύει και σίγουρα δεν εντυπωσιάζει πλέον, όπως πάρα πολλά στο χώρο των συσκευών. Τι γίνεται όμως όταν η κουβέντα πάει στη μετατροπή του ήχου σε εικόνα;

Στο πανεπιστήμιο του MIT, στο τμήμα της επιστήμης των υπολογιστών, μια ομάδα ερευνητών προχώρησε στη δημιουργία Τεχνητής Νοημοσύνης, ικανής να κάνει ακριβώς αυτό, να ‘’μεταφράζει’’ το ήχο, όχι σε κάποια διαφορετική γλώσσα, αλλά σε εικόνα και μάλιστα περιγράφοντας την πηγή του ήχου. Μιλάμε πάντα για ομιλία και σαν συνέπεια , η μετατροπή γίνεται σε μια ‘’φωτογραφία’’ της πηγής, του ανθρώπου δηλαδή που ακούγεται να μιλάει στην κάθε περίπτωση.

Στα πειράματα στα οποία προχώρησαν οι ερευνητές, τα αποτελέσματα ήταν συγκλονιστικά. Μια μικρή ιδέα μπορεί κάποιος να πάρει ακολουθώντας το link εδώ. Σίγουρα η ακρίβεια της περιγραφής δεν είναι η απόλυτη κάθε φορά, το γεγονός όμως και μόνο πως από τον ήχο της φωνής, chip, καλώδια και ηλεκτρονικά εξαρτήματα καταφέρνουν να παρουσιάσουν μια εικόνα που σε καμία περίπτωση δεν απέχει έτη φωτός από την πραγματικότητα, είναι εντυπωσιακό και την ίδια στιγμή τρομακτικό.

Στις κατηγορίες ότι μια τέτοια ανακάλυψη μπορεί εύκολα να σημάνει την ισοπέδωση της ατομικής ελευθερίας και της προστασίας της, το πανεπιστήμιο πάντως απαντά πως η Τεχνητή Νοημοσύνη δεν αναζητά την πραγματική ταυτότητα που βρίσκεται πίσω από την ομιλία (ακόμα), απλά δοκιμάζει τα όρια των υπολογιστών. Σε κάθε περίπτωση όμως, και μόνο η σκέψη ότι σε κάποια γωνιά του κόσμου, ένα λογισμικό θα μπορεί να εμφανίσει τη μορφή σου από ένα ηχητικό κομμάτι της ομιλίας σου μόλις 6 δευτερολέπτων, δε σε κάνει να πετάς από χαρά.

06.04.2022