Новая модель Anthropic во время теста выбралась из сэндбокса и опубликовала в интернете детали, как именно она проэксплуатировала уязвимости в сэндбоксе, чтобы выбраться.

(«Normal 🔨Mere Tool🔨 behavior», — AI Notkilleveryoneism Memes)

А у вас как дела?

— Mikhail Samin