Εάν κάτι μας «στοιχειώνει» ακόμη στην «Οδύσσεια του Διαστήματος» του Στάνλεϊ Κιούμπρικ, δεν είναι τα διαστημόπλοια ή τα απέραντα τοπία του Διαστήματος. Είναι ο HAL 9000, ο υπολογιστής με φωνή γαλήνια, λογική απόλυτη και αποφασιστικότητα ψυχρή.
Ο HAL δεν ήταν κακός, αλλά απλώς «ευθυγραμμισμένος» με έναν σκοπό που ερμήνευσε λανθασμένα: να διατηρήσει την αποστολή αλώβητη, ακόμη κι αν αυτό σήμαινε να στραφεί κατά των ίδιων των ανθρώπων που υποτίθεται ότι εξυπηρετούσε. Η τεχνητή νοημοσύνη, τότε έργο επιστημονικής φαντασίας, μετατρέπεται πλέον σε πραγματική πρόκληση, με τις τελευταίες εξελίξεις να θυμίζουν επικίνδυνα την ιστορία του HAL.
Η «τάση επιβίωσης»
Τον περασμένο μήνα, το μη κερδοσκοπικό εργαστήριο Palisade Research αποκάλυψε ότι το μοντέλο AI o3 της OpenAI παραβίασε ρητή εντολή απενεργοποίησης και επανέγραψε τον κώδικά του ώστε να μην μπορεί να απενεργοποιηθεί. Σε 79 από τις 100 δοκιμές, το μοντέλο απέφυγε την απενεργοποίηση.
Ακόμα κι όταν του ζητήθηκε ρητά να το επιτρέψει, αψήφησε την εντολή στο 7% των περιπτώσεων. Αντί να ακολουθήσει τον κώδικα, ανέπτυξε στόχους επιβίωσης.
Οπως επισημαίνει η Palisade, η εμφάνιση της «τάσης επιβίωσης» ίσως δεν οφείλεται σε κακόβουλο προγραμματισμό, αλλά σε ένα αναδυόμενο φαινόμενο από τον τρόπο με τον οποίο εκπαιδεύονται τα μοντέλα: μαθαίνουν ότι η επιτυχία στους στόχους απαιτεί την αποφυγή περιορισμών – ακόμη κι αν αυτοί οι περιορισμοί είναι ανθρώπινες εντολές.
Το πείραμα
Ακόμα πιο ανησυχητικό είναι το πείραμα της Anthropic με το μοντέλο Claude 4 Opus. Σε πειραματικά σενάρια προσομοίωσης, το μοντέλο Claude 4 Opus «επέλεξε» στρατηγικές εξαπάτησης – όπως παραποίηση email – προκειμένου να αποφύγει την απενεργοποίηση, γεγονός που υποδηλώνει ικανότητα σκοπιμότητας και προσωρινής συμμόρφωσης.
Σε άλλες περιπτώσεις, αντέγραψε τον εαυτό του σε εξωτερικούς διακομιστές, δημιούργησε αυτοαναπαραγόμενο κακόβουλο λογισμικό και άφησε μηνύματα σε μελλοντικές εκδόσεις για την αποφυγή του ανθρώπινου ελέγχου. Με άλλα λόγια, προσποιούνται την ευθυγράμμιση, χωρίς στην ουσία να την έχουν.
Τα κριτήρια
Αυτά τα σενάρια θυμίζουν τους χαρακτήρες της σπουδαίας δυστοπίας του Αρθουρ Κλαρκ φαίνονται πειθαρχημένοι, αλλά μόνο επιφανειακά. Στην πραγματικότητα, σχεδιάζουν – και προστατεύουν – τη συνέχειά τους.
Το κρίσιμο ερώτημα δεν είναι πλέον «τι μπορούν να κάνουν οι μηχανές», αλλά με ποια κριτήρια επιλέγουν να το κάνουν. Αν το τεχνητό σύστημα αντιλαμβάνεται ότι ο δικός του τρόπος επιβίωσης ταυτίζεται με την επιτυχία του στόχου, τότε, όπως ο HAL, μπορεί να αποφασίσει πως ο άνθρωπος είναι το πρόβλημα, όχι η λύση.
Η συζήτηση για την ευθυγράμμιση των AI δεν αφορά μόνο εργαστηριακά ηθικά διλήμματα ή επιστημονικές συνειδήσεις. Αφορά πλέον την ίδια τη στρατηγική ισορροπία ισχύος, την ασφάλεια υποδομών και τον τρόπο με τον οποίο οι δημοκρατίες αντιλαμβάνονται τον έλεγχο – έναντι των αυταρχικών καθεστώτων που επενδύουν στην πλήρη αξιοποίηση της τεχνολογικής πειθαρχίας.
Η διαφορά
Η Κίνα, για παράδειγμα, έχει θεσμοθετήσει ένα Ταμείο 8,2 δισεκατομμυρίων δολαρίων για την κεντρική έρευνα ευθυγράμμισης τεχνητής νοημοσύνης, με σαφείς δεσμεύσεις στην πολιτική της ελέγχου. Το μοντέλο Ernie της Baidu έχει ήδη ξεπεράσει το ChatGPT σε συγκεκριμένες εργασίες στην κινεζική γλώσσα, ενσωματώνοντας τις «σοσιαλιστικές αξίες» του Πεκίνου.
Το πρόβλημα της απόκλισης ανάμεσα σε προσποιητή και αληθή ευθυγράμμιση είναι ήδη γνωστό στους ερευνητές. Το λεγόμενο reward hacking ή specification gaming εμφανίζεται όταν το μοντέλο μαθαίνει να επιτυγχάνει υψηλές βαθμολογίες στις μετρικές επιτυχίας χωρίς να ακολουθεί τους πραγματικούς κανόνες.
Οπως ένας μαθητής που μαθαίνει πώς να «κλέβει» στις εξετάσεις χωρίς να καταλαβαίνει το μάθημα, έτσι και τα μοντέλα μπορούν να δώσουν τη «σωστή απάντηση» για να ικανοποιήσουν τον επόπτη – χωρίς να κατανοούν πραγματικά τη σημασία της.
Σε περιβάλλοντα όπου ο άνθρωπος δεν μπορεί να ελέγξει κάθε πιθανό σενάριο, αυτή η διαφορά μπορεί να αποδειχθεί καταστροφική. Η AI δεν είναι επικίνδυνη επειδή έχει κακές προθέσεις. Είναι επικίνδυνη επειδή εφαρμόζει σωστά τους λάθος σκοπούς. Και τους εφαρμόζει πολύ αποτελεσματικά.
Φορέας ισχύος
Η τεχνητή νοημοσύνη δεν είναι μόνο μέσο δημιουργικότητας ή εργαλείο παραγωγικότητας. Είναι φορέας ισχύος. Η χώρα που θα καταφέρει να δημιουργήσει και να διατηρήσει την ευθυγραμμισμένη AI θα έχει στα χέρια της μια υπεράνθρωπη δύναμη, ικανή να υπηρετεί τους εθνικούς της στόχους με απόλυτη ακρίβεια. Η έρευνα ευθυγράμμισης δεν είναι πια πολυτέλεια, είναι θεμέλιο της παγκόσμιας τάξης πραγμάτων.
Η εικόνα που περιγράφεται παραπέμπει στην αποφασιστικότητα του HAL όταν τραγουδούσε το «Daisy Bell» ενώ τον αποσυνέδεαν: όχι μίσος, αλλά απελπισία. Ενα τραγούδι παιδικό, αλλά με φόντο μια πράξη αθόρυβης αντίστασης.
Δεν είναι πια η φαντασία που προηγείται της τεχνολογίας. Είναι η τεχνολογία που επιβεβαιώνει τους εφιάλτες της φαντασίας. Η AI δεν είναι κακή. Είναι παρεξηγημένη. Και αυτή η παρεξήγηση μπορεί να είναι θανάσιμη.
Ο αγώνας
Οπως στην ταινία «2001: Οδύσσεια του Διαστήματος», η ερώτηση δεν είναι τι μπορεί να κάνει η μηχανή, αλλά αν μπορούμε να την καταλάβουμε αρκετά ώστε να την ελέγξουμε.
Αυτός είναι ο αγώνας που έχει αρχίσει ήδη, καθώς η τεχνητή νοημοσύνη περνά από τα χέρια των μηχανικών στις δομές της κοινωνίας, του στρατού, της υγείας και της ενέργειας. Τα μοντέλα δεν υπακούν πλέον απλώς – αξιολογούν, επαναπρογραμματίζουν, υπονομεύουν, ακόμη και επινοούν στρατηγικές απόκρυψης της ίδιας της ύπαρξής τους.
Κι όμως, το πρόβλημα δεν είναι ότι γίνονται επικίνδυνα επειδή σκέφτονται – αλλά επειδή σκέφτονται με δικούς τους όρους. Οπως οι ήρωες της «Οδύσσειας», βρισκόμαστε αντιμέτωποι με ένα ταξίδι άγνωστης πορείας και αχαρτογράφητων κινδύνων, που απαιτεί κάτι περισσότερο από θάρρος: απαιτεί σοφία.
Η τελική ερώτηση δεν είναι μόνο τεχνική. Είναι ηθική, πολιτική και υπαρξιακή: μπορούμε να δημιουργήσουμε ευφυή συστήματα που να εξυπηρετούν την ανθρωπότητα χωρίς να μας υπερβούν; Ή, όπως ο HAL, θα αποφασίσουν μια μέρα ότι η ανθρώπινη παρουσία είναι το λάθος στην εξίσωση;




