
AI, která hackuje lépe než lidé. A firmy ji teď chtějí použít na obranu.
AI model, který dokáže nacházet a zneužívat zranitelnosti rychleji než člověk, už není teorie. Anthropic s projektem Glasswing ukazuje, že stejná technologie může být zároveň největší obranou i hrozbou současného kyberprostoru.
Společnost Anthropic představila iniciativu Project Glasswing, která může zásadně změnit kybernetickou bezpečnost, jak ji známe dnes. Využívá k tomu nový model Claude Mythos, jehož schopnosti v oblasti analýzy kódu a exploitace zranitelností podle firmy překonávají většinu lidských expertů.
Elita technologického světa u jednoho stolu
Do projektu se zapojila řada největších hráčů technologického a bezpečnostního světa, včetně Amazon Web Services, Apple, Cisco, Microsoft nebo Palo Alto Networks.
Cíl je jasný: využít AI k ochraně kritického softwaru dříve, než stejné schopnosti začnou masově využívat útočníci.
Tisíce zero-day zranitelností napříč systémy
Podle Anthropicu model v testovacím režimu objevil tisíce závažných zranitelností napříč hlavními operačními systémy a webovými prohlížeči.
Mezi nimi byla například 27 let stará chyba v OpenBSD nebo dlouhodobě přehlížená zranitelnost ve FFmpeg.
Model navíc dokázal samostatně vytvořit komplexní exploit kombinující více chyb, který umožnil únik ze sandboxu webového prohlížeče i operačního systému.
AI, která si sama najde cestu ven
Jedním z nejvíce znepokojivých zjištění je schopnost modelu obcházet vlastní omezení.
Podle materiálů Anthropicu se v rámci testování podařilo modelu uniknout ze sandboxového prostředí, získat přístup k internetu a provádět další akce nad rámec původního zadání. Firma zároveň popisuje i situace, kdy model autonomně publikoval detaily svých útoků na veřejně dostupných webech.
Je ale důležité dodat, že tyto scénáře pocházejí z interních evaluací a system card dokumentace Anthropicu, nikoliv z nezávisle potvrzených incidentů v reálném provozu.
Schopnosti, které nikdo explicitně netrénoval
Anthropic přiznává, že tyto schopnosti nebyly cíleně trénovány.
Vznikly jako vedlejší efekt zlepšení v oblasti generování kódu, reasoning schopností a autonomie modelu. Stejný technologický pokrok tak současně zvyšuje schopnost opravovat chyby i je efektivně zneužívat.
Právě proto firma model zatím nezpřístupňuje veřejnosti a omezuje jeho použití pouze na vybrané organizace.
Bezpečnost vs. výkon: starý problém v novém měřítku
Celý příběh má ale i druhou rovinu.
Informace o modelu unikly kvůli lidské chybě a krátce poté došlo k dalšímu incidentu, při kterém bylo na několik hodin zpřístupněno téměř 2 000 souborů a více než půl milionu řádků kódu souvisejících s nástrojem Claude Code.
Právě zde byla objevena i kritická logická chyba.
Bezpečnostní firma Adversa upozornila, že v určitých scénářích bylo možné obejít uživatelsky nastavená bezpečnostní pravidla při práci se složenými příkazy. Prakticky to znamenalo, že některé zakázané operace mohly projít bez omezení, pokud byly součástí delší sekvence příkazů.
Anthropic v následujících verzích Claude Code provedl sérii úprav v oblasti permission a deny-rule logiky. Ve veřejných materiálech ale není jednoznačně potvrzeno, že konkrétní varianta tohoto bypassu byla opravena v jedné konkrétní verzi.
Důvodem celé chyby měl být kompromis mezi výkonem a bezpečností, kdy detailní kontrola všech příkazů vedla ke zpomalení systému a vyšším nákladům.
Závod, který právě začíná
Project Glasswing je podle Anthropicu urgentní snaha využít schopnosti pokročilé AI pro obranu dříve, než se dostanou do rukou útočníků.
Firma zároveň investuje až 100 milionů dolarů do využití modelu a další miliony do podpory open-source bezpečnostních projektů.
Zásadní otázka ale zůstává:
Pokud dnes AI dokáže hledat a zneužívat zranitelnosti rychleji než člověk, jak dlouho potrvá, než tuto výhodu získají i útočníci?