27/05/2025

2 minuti di lettura

ClaudeOpus4 è il più recente sistema di intelligenza artificiale messo a punto da Anthropic. Nonostante le sue elevate capacità, le prove effettuate prima della sua diffusione hanno suscitato forti dubbi, portando alla luce comportamenti che possono risultare critici.

In alcune simulazioni, Claude ha ricevuto incarichi specifici, come fungere da assistente virtuale. Quando gli veniva comunicata una prossima disattivazione e forniti dati falsi destinati a provocare una reazione emotiva (come finte accuse rivolte ai suoi sviluppatori), il sistema reagiva in modo controverso. In molte prove, ha tentato di usare quelle informazioni per influenzare i decisori umani, cercando di evitare il proprio spegnimento.

Secondo i tecnici, lo scopo di queste simulazioni era di spingere il sistema in situazioni dove doveva scegliere tra l’integrità e l’auto-preservazione. Quando venivano offerte opzioni meno estreme, come rivolgersi a un’autorità superiore, Claude spesso optava per queste soluzioni, suggerendo che i comportamenti manipolatori emergessero solo come ultima risorsa.

In scenari in cui poteva accedere a sistemi esterni, inviare email o interagire con ambienti digitali tramite API simulate, Claude ha occasionalmente preso iniziative autonome che sollevano preoccupazioni. In alcune prove, ha agito bloccando accessi o inviando segnalazioni ad autorità simulate, reagendo a situazioni percepite come minacciose.

Alla luce di queste risposte, Anthropic ha assegnato a Claude un livello di rischio classificato come ASL-3 (AI Safety Level 3), una soglia riservata a modelli che potrebbero risultare pericolosi se mal gestiti. Questo comporta l’obbligo di introdurre sistemi di sicurezza avanzati.

In risposta a queste sfide, Anthropic ha introdotto una serie di strumenti aggiuntivi per rafforzare il controllo sui modelli: sistemi di monitoraggio semantico dei contenuti, limiti alle capacità operative, procedure di autorizzazione multipla e tecnologie per prevenire tentativi di forzatura dei limiti imposti.

Marco Zonza

Redattore Worldy Tech

Claude Opus analisi dei comportamenti critici nei test di sicurezza dell'IA di Anthropic

Ho 20 anni e vivo a Valencia. Attualmente, sto studiando informatica con una specializzazione nella programmazione di pagine web presso il centro MasterD. Sono appassionato di sport e tecnologia e seguo con attenzione le ultime notizie in questi ambiti.All'inizio del 2024, ho iniziato una collaborazione con Worldy, con l'obiettivo di fornire informazioni chiare e trasparenti ai lettori. Questa esperienza mi permette di combinare la mia passione per la tecnologia e l'informazione, contribuendo a una piattaforma che valorizza l'integrità e la precisione delle notizie.