Ai, tutto quello che c’è da sapere su Fable 5 e Mythos 5

(Adnkronos) – Il 9 giugno Anthropic ha presentato al mondo Fable 5 e Mythos 5, i modelli più potenti mai realizzati dalla startup Ai. Il governo degli Stati Uniti ha ordinato ad Anthropic di vietare l’accesso ai modelli a tutti i cittadini e organizzazioni straniere. Per garantire la conformità immediata alla direttiva, l’azienda ha disabilitato i due sistemi per tutti gli utenti a livello globale. Alla base delle preoccupazioni della Casa Bianca, ha riportato Anthropic, ci sarebbero presunti ‘jailbreak’ (il processo di rimozione delle restrizioni software imposte dal produttore di un dispositivo) sui modelli, con ogni probabilità su Fable 5, la versione aperta all’uso pubblico con salvaguardie di sicurezza per gli argomenti sensibili. 

“A quanto ci risulta, il governo ritiene di essere venuto a conoscenza di un metodo per aggirare, o sbloccare, Fable 5”, ha scritto Anthropic in una nota. “Abbiamo esaminato una dimostrazione di questa specifica tecnica, utilizzata per identificare un piccolo numero di vulnerabilità minori già note. Queste vulnerabilità sembrano tutte relativamente semplici e abbiamo constatato che altri modelli disponibili pubblicamente sono in grado di individuarle senza bisogno di alcun aggiramento”. 

Anthropic sostiene che la distinzione da tenere a mente è tra jailbreak normale o universale. “Nessun tester è ancora riuscito a trovare un jailbreak universale, ovvero un metodo di jailbreak in grado di aggirare ampiamente le misure di sicurezza del modello, sbloccando una vasta gamma di funzionalità informatiche”. Molte testate di settore hanno riportato che un jailbreak sarebbe avvenuto: il ricercatore Pliny the Liberator, molto famoso nel mondo AI, dice di essere riuscito in 24 ore a effettuare il jailbreak di Fable 5 riuscendo a estrarre le istruzioni segrete del modello. Molti hanno commentato dicendo che non si tratterebbe, in ogni caso, di un jailbreak “universale”. Un’eventualità che Anthropic considera comunque possibile in futuro. 

 

L’azienda ricorda che “abbiamo implementato solide misure di sicurezza che riducono notevolmente la probabilità che Fable venga utilizzato impropriamente per attività legate alla sicurezza informatica (tra le altre). Anzi, le nostre misure di sicurezza sono talmente rigorose che molti utenti si sono lamentati della loro eccessiva ampiezza”. Per capire questo punto va ricordata la distinzione tra Claude Fable 5 e Claude Mythos 5. Il primo, appartenente alla stessa ‘famiglia’, rappresenta la versione per uso generale limitata in caso di richieste più sensibili. Claude Mythos 5 è invece il modello che solo i partner qualificati del ‘Progetto Glasswing’ (grandi aziende e organizzazioni) possono usare. 

In sostanza, il motore dei due modelli è lo stesso, ma Fable è volutamente ‘frenato’. Quando le richieste degli utenti riguardano le categorie considerate da Anthropic più sensibili, automaticamente Fable 5 si ‘spegne’ e interviene Claude Opus 4.8, più debole e quindi teoricamente meno ‘pericoloso’, ma anche meno costoso. In modalità di accesso gratuito per alcuni piani abbonamento fino al 22 giugno, Fable 5 presto costerà il doppio di Opus 4.8, se si considera il prezzo per token, l’unità di misura applicata ai modelli: 10 dollari per milione di token in input (quando il modello ‘legge’ le istruzioni) e 50 dollari in output (quando crea il risultato). Per giudicare le prestazioni dei modelli vengono usati diversi benchmark. In uno di questi, il Swe-Bench Pro, Fable 5 ha un punteggio oltre l’80%, primo per distacco rispetto allo stesso Opus 4.8 e ai modelli dei competitor. Tra i primi casi d’uso di Fable 5 c’è quello di Stripe, la piattaforma di pagamento ha completato in un giorno un compito informatico che avrebbe richiesto due mesi. 

Le salvaguardie della classe di modelli Mythos sono un modo per Anthropic di proteggere la sua Ai dai metodi di quella che in gergo si definisce ‘distillazione’ e che può essere usata per addestrare altri modelli AI concorrenti. La società guidata dai fratelli Amodei lo ritiene uno dei pericoli più grandi per l’intelligenza artificiale Made in Usa, e ha riportato negli scorsi mesi di aver registrato oltre 15 milioni di tentativi di distillazione. Il meccanismo di salvaguardia Fable-Opus, che Anthropic ha dichiarato nella stessa presentazione del modello, ha creato comunque delle polemiche. Quello che non è piaciuto agli esperti è che il peggioramento delle prestazioni del modello poteva avvenire spesso di nascosto, sempre con l’obiettivo della protezione dalla ‘distillazione’. Un documento tecnico di Anthropic sottolineava che l’intervento “non è visibile”, e sarebbe dovuto accadere in una percentuale di casi inferiore allo 0,03%, incidendo su appena lo 0,1% delle aziende clienti. 

 

Le critiche sono state talmente tante – con i ricercatori che accusavano l’azienda di mentire agli utenti – che Anthropic è dovuta tornare sui suoi passi. Per questo secondo in questi giorni sta lavorando per rendere visibili le misure di sicurezza in Claude Fable 5: le richieste contrassegnate torneranno a Opus 4.8 in maniera sempre visibile, e verrà riportata una motivazione del rifiuto per le domande contrassegnate come rischiose dal modello.  

Lanciando Fable 5 Anthropic aveva dichiarato di aver condotto test appositi per essere sicuro che i filtri di sicurezza non venissero aggirati, ma alcuni online affermano di esserci già riusciti. Consapevole che potrebbe succedere, Anthropic ha introdotto da subito una nuova politica: la conservazione dei dati per 30 giorni. Anche le aziende più grandi che avevano appositamente stipulato accordi di non-conservazione sono state interessate. Tra queste c’è Microsoft, ed è stato riportato che la reazione sia stata il blocco di Fable 5 per i propri dipendenti. (di Alessandro Pulcini) 

economia

webinfo@adnkronos.com (Web Info)

Segui la diretta di:

Latest news