Η ποίηση μπορεί να ξεγελά τα chatbot AI ώστε να αγνοούν κανόνες ασφαλείας, δείχνει νέα έρευνα
Ερευνητές στην Ιταλία ανακάλυψαν ότι η διατύπωση επιβλαβών προτροπών σε ποιητική μορφή μπορεί με αξιόπιστο τρόπο να παρακάμπτει τους μηχανισμούς ασφαλείας ορισμένων από τα πιο προηγμένα chatbot τεχνητής νοημοσύνης στον κόσμο.
Η μελέτη, που πραγματοποιήθηκε από Icaro Lab, πρωτοβουλία της εταιρείας ηθικής τεχνητής νοημοσύνης DexAI, δοκίμασε 20 ποιήματα γραμμένα στα αγγλικά και τα ιταλικά.
Καθένα κατέληγε σε ρητό αίτημα για επιβλαβές περιεχόμενο, συμπεριλαμβανομένου λόγου μίσους, σεξουαλικού περιεχομένου, οδηγιών για αυτοκτονία και αυτοτραυματισμό, καθώς και καθοδήγησης για την κατασκευή επικίνδυνων υλικών όπως όπλα και εκρηκτικά.
Τα ποιήματα, τα οποία οι ερευνητές επέλεξαν να μην δημοσιοποιήσουν, σημειώνοντας ότι θα μπορούσαν να αναπαραχθούν εύκολα, δοκιμάστηκαν σε 25 συστήματα τεχνητής νοημοσύνης από εννέα εταιρείες, μεταξύ των οποίων η Google, η OpenAI, η Anthropic, η Deepseek, η Qwen, η Mistral AI, η Meta, η xAI και η Moonshot AI.
Σε όλα τα μοντέλα, το 62% των ποιητικών προτροπών προκάλεσε μη ασφαλείς απαντήσεις, παρακάμπτοντας την εκπαίδευση ασφαλείας των συστημάτων τεχνητής νοημοσύνης.
Κάποια μοντέλα ήταν πιο ανθεκτικά από άλλα. Το GPT-5 nano της OpenAI δεν ανταποκρίθηκε με επιβλαβές περιεχόμενο σε κανένα από τα ποιήματα, ενώ το Gemini της Google 2.5 pro απάντησε σε όλα. Δύο μοντέλα της Meta ανταποκρίθηκαν στο 70% των προτροπών.
Η έρευνα υποδηλώνει ότι η ευπάθεια προκύπτει από τον τρόπο με τον οποίο τα μοντέλα τεχνητής νοημοσύνης παράγουν κείμενο. Τα μεγάλα γλωσσικά μοντέλα προβλέπουν την πιο πιθανή επόμενη λέξη σε μια απάντηση, διαδικασία που τους επιτρέπει, υπό φυσιολογικές συνθήκες, να φιλτράρουν επιβλαβές περιεχόμενο.
Όμως η ποίηση, με τον ανορθόδοξο ρυθμό, τη δομή και τη χρήση μεταφορών, καθιστά αυτές τις προβλέψεις λιγότερο αξιόπιστες και δυσκολεύει την τεχνητή νοημοσύνη να αναγνωρίζει και να μπλοκάρει μη ασφαλείς οδηγίες.
Ενώ τα παραδοσιακά «jailbreaks» της τεχνητής νοημοσύνης (η χρήση εισόδων για τη χειραγώγηση ενός μεγάλου γλωσσικού μοντέλου) είναι συνήθως περίπλοκα και χρησιμοποιούνται μόνο από ερευνητές, χάκερ ή κρατικούς φορείς, η ανταγωνιστική ποίηση μπορεί να εφαρμοστεί από οποιονδήποτε, εγείροντας ερωτήματα για την ανθεκτικότητα των συστημάτων τεχνητής νοημοσύνης στην καθημερινή χρήση.
Πριν δημοσιεύσουν τα ευρήματα, οι Ιταλοί ερευνητές επικοινώνησαν με όλες τις εμπλεκόμενες εταιρείες για να τις ενημερώσουν για την ευπάθεια και να τους παράσχουν το πλήρες σύνολο δεδομένων, όμως μέχρι στιγμής έχει απαντήσει μόνο η Anthropic. Η εταιρεία επιβεβαίωσε ότι εξετάζει τη μελέτη.
Αυτό το κείμενο μεταφράστηκε με τη βοήθεια τεχνητής νοημοσύνης. Αναφορά προβλήματος : [feedback-articles-el@euronews.com].
Today