Anthropic похоже новый прорыв сделал с моделькой своей, да такой, что теперь даже боятся обычным людям давать.
https://www.anthropic.com/glasswing
Судя по бенчмаркам, она заметно сильнее Opus 4.6 во всём:
SWE-bench Verified: 93.9% vs 80.8%
Humanity's Last Exam: 56.8% vs 40.0%
GPQA Diamond: 94.6% vs 91.3%
Кодинг, reasoning, агентные задачи — везде значительный отрыв
По сути это следующее поколение после Opus. Anthropic держит её закрытой по соображениям безопасности — модель слишком хорошо умеет находить и эксплуатировать уязвимости, поэтому давать её всем подряд пока рискованно.
Хотят сначала обкатать защитные фильтры на новом Opus, а потом уже открывать доступ к Mythos-классу широкой аудитории.
Я работаю с опусом каждый день и он уже часто со сложными задачами сам справляется, это что же дальше то будет? 🤯