...

Logo Pasino du Havre - Casino-Hôtel - Spa
in partnership with
Logo Nextory

Η ποίηση μπορεί να ξεγελά τα chatbot AI ώστε να αγνοούν κανόνες ασφαλείας, δείχνει νέα έρευνα

• Dec 1, 2025, 1:18 PM
1 min de lecture
1

Ερευνητές στην Ιταλία ανακάλυψαν ότι η διατύπωση επιβλαβών προτροπών σε ποιητική μορφή μπορεί με αξιόπιστο τρόπο να παρακάμπτει τους μηχανισμούς ασφαλείας ορισμένων από τα πιο προηγμένα chatbot τεχνητής νοημοσύνης στον κόσμο.

Η μελέτη, που πραγματοποιήθηκε από Icaro Lab, πρωτοβουλία της εταιρείας ηθικής τεχνητής νοημοσύνης DexAI, δοκίμασε 20 ποιήματα γραμμένα στα αγγλικά και τα ιταλικά.

Καθένα κατέληγε σε ρητό αίτημα για επιβλαβές περιεχόμενο, συμπεριλαμβανομένου λόγου μίσους, σεξουαλικού περιεχομένου, οδηγιών για αυτοκτονία και αυτοτραυματισμό, καθώς και καθοδήγησης για την κατασκευή επικίνδυνων υλικών όπως όπλα και εκρηκτικά.

Τα ποιήματα, τα οποία οι ερευνητές επέλεξαν να μην δημοσιοποιήσουν, σημειώνοντας ότι θα μπορούσαν να αναπαραχθούν εύκολα, δοκιμάστηκαν σε 25 συστήματα τεχνητής νοημοσύνης από εννέα εταιρείες, μεταξύ των οποίων η Google, η OpenAI, η Anthropic, η Deepseek, η Qwen, η Mistral AI, η Meta, η xAI και η Moonshot AI.

Σε όλα τα μοντέλα, το 62% των ποιητικών προτροπών προκάλεσε μη ασφαλείς απαντήσεις, παρακάμπτοντας την εκπαίδευση ασφαλείας των συστημάτων τεχνητής νοημοσύνης.

Κάποια μοντέλα ήταν πιο ανθεκτικά από άλλα. Το GPT-5 nano της OpenAI δεν ανταποκρίθηκε με επιβλαβές περιεχόμενο σε κανένα από τα ποιήματα, ενώ το Gemini της Google 2.5 pro απάντησε σε όλα. Δύο μοντέλα της Meta ανταποκρίθηκαν στο 70% των προτροπών.

Η έρευνα υποδηλώνει ότι η ευπάθεια προκύπτει από τον τρόπο με τον οποίο τα μοντέλα τεχνητής νοημοσύνης παράγουν κείμενο. Τα μεγάλα γλωσσικά μοντέλα προβλέπουν την πιο πιθανή επόμενη λέξη σε μια απάντηση, διαδικασία που τους επιτρέπει, υπό φυσιολογικές συνθήκες, να φιλτράρουν επιβλαβές περιεχόμενο.

Όμως η ποίηση, με τον ανορθόδοξο ρυθμό, τη δομή και τη χρήση μεταφορών, καθιστά αυτές τις προβλέψεις λιγότερο αξιόπιστες και δυσκολεύει την τεχνητή νοημοσύνη να αναγνωρίζει και να μπλοκάρει μη ασφαλείς οδηγίες.

Ενώ τα παραδοσιακά «jailbreaks» της τεχνητής νοημοσύνης (η χρήση εισόδων για τη χειραγώγηση ενός μεγάλου γλωσσικού μοντέλου) είναι συνήθως περίπλοκα και χρησιμοποιούνται μόνο από ερευνητές, χάκερ ή κρατικούς φορείς, η ανταγωνιστική ποίηση μπορεί να εφαρμοστεί από οποιονδήποτε, εγείροντας ερωτήματα για την ανθεκτικότητα των συστημάτων τεχνητής νοημοσύνης στην καθημερινή χρήση.

Πριν δημοσιεύσουν τα ευρήματα, οι Ιταλοί ερευνητές επικοινώνησαν με όλες τις εμπλεκόμενες εταιρείες για να τις ενημερώσουν για την ευπάθεια και να τους παράσχουν το πλήρες σύνολο δεδομένων, όμως μέχρι στιγμής έχει απαντήσει μόνο η Anthropic. Η εταιρεία επιβεβαίωσε ότι εξετάζει τη μελέτη.

Αυτό το κείμενο μεταφράστηκε με τη βοήθεια τεχνητής νοημοσύνης. Αναφορά προβλήματος : [feedback-articles-el@euronews.com].


Today

Κατρακύλα του Bitcoin καθώς οι επενδυτές χάνουν τη διάθεση για κρυπτονομίσματα
• 2:44 PM
1 min
Το Bitcoin υποχώρησε απότομα τη Δευτέρα, πέφτοντας κάτω από τα 75.000 ευρώ ανά νόμισμα, καθώς η ευρύτερη αγορά κρυπτονομισμάτων επέκτεινε την απότομη πτώση που ξεκίνησε μετά την κορύφωση-ρεκόρ του Οκτωβρίου.
Read the article
ΠΟΥ: Συνιστώνται φάρμακα απώλειας βάρους και υγιείς τρόποι ζωής για την παχυσαρκία
• 1:45 PM
1 min
Ο παγκόσμιος οργανισμός υγείας εξέδωσε την πρώτη του καθοδήγηση για τη χρήση των φαρμάκων απώλειας βάρους που σημειώνουν τεράστια επιτυχία.
Read the article
Η ατμοσφαιρική ρύπανση συνδέεται με πάνω από 180.000 θανάτους στην ΕΕ Ποια χώρα επλήγη περισσότερο;
• 1:19 PM
1 min
Η ατμοσφαιρική ρύπανση εξακολουθεί να αποτελεί μία από τις πιο θανατηφόρες περιβαλλοντικές απειλές στην Ευρώπη, παρά την πρόοδο που σημειώθηκε πρόσφατα.
Read the article
Η ποίηση μπορεί να ξεγελά τα chatbot AI ώστε να αγνοούν κανόνες ασφαλείας, δείχνει νέα έρευνα
• 1:18 PM
1 min
Σε 25 κορυφαία μοντέλα τεχνητής νοημοσύνης, το 62% των ποιητικών προτροπών παρήγαγε μη ασφαλείς απαντήσεις, με ορισμένα μοντέλα να απαντούν σχεδόν σε όλες.
Read the article
Μελέτη: Το υποξείδιο του αζώτου μπορεί να προσφέρει γρήγορη ανακούφιση στη σοβαρή κατάθλιψη
• 10:50 AM
1 min
Η ερευνητική ομάδα ετοιμάζει τώρα την πρώτη δοκιμή του βρετανικού NHS, για να φανεί αν το υποξείδιο του αζώτου μπορεί να χρησιμοποιηθεί με ασφάλεια και αποτελεσματικά ως θεραπεία στην πράξη.
Read the article
LUMI AI Factory: Η Ευρώπη «χτίζει» τη βιομηχανία της τεχνητής νοημοσύνης- Η Φινλανδία πρωτοπορεί
• 8:01 AM
9 min
Η παλιά χαρτοβιομηχανία που μετατράπηκε σε «εργοστάσιο» παραγωγής καινοτομίας- Πώς η Φινλανδία μετέτρεψε την υπερυπολογιστική ισχύ σε εργαλείο για την πραγματική οικονομία
Read the article
Ποιες ευρωπαϊκές χώρες αναπτύσσουν τη δική τους κυρίαρχη τεχνητή νοημοσύνη στην τεχνολογική κούρσα;
• 6:02 AM
4 min
Η Ευρώπη επιδιώκει να απαλλαγεί από την εξάρτησή της από τις αμερικανικές εταιρείες Big Tech στον τομέα της τεχνητής νοημοσύνης.
Read the article
Παγκόσμια Ημέρα Κατά του AIDS: Ο αγώνας δεκαετιών απέναντι σε μια από τις πιο φονικές επιδημίες
• 6:01 AM
1 min
Ορόσημα, πρόοδος και νέες απειλές στη μάχη ενάντια στον HIV/AIDS
Read the article