Als de ene AI de andere aanvalt, loopt het al snel uit de hand

Kunstmatige intelligentie AI-systemen worden steeds belangrijker op het slagveld. Maar Irene van Droffelaar vraagt zich af wat er gebeurt als die systemen zélf het doelwit worden van aanvallen.

Beeld via een AI-gestuurde ‘augmented reality-bril’ wordt afgelopen mei getoond tijdens een jaarlijkse conferentie voor Amerikaanse strijdkrachten, defensiebedrijven en militaire leiders uit partnerlanden.

Het debat over militaire kunstmatige intelligentie gaat meestal over ethiek. Hoeveel autonomie mag een machine krijgen? Wanneer moet een mens betrokken blijven bij een beslissing over leven en dood? Dat zijn terechte vragen. Maar er is een fundamentele kwestie die veel minder aandacht krijgt: wat als die systemen zélf doelwit worden?

Irene van Droffelaar is senior onderzoeker simulatie, AI en veiligheid bij denktank RAND Europe.

AI speelt al een groeiende rol in moderne oorlogsvoering. In Oekraïne selecteren autonome drones zelfstandig doelwitten, verwerken AI-systemen inlichtingen sneller dan welke analist ook en helpt AI commandanten bij het coördineren van complexe operaties. Ook het Nederlandse ministerie van Defensie denkt inmiddels na over de inzet van dergelijke systemen.

Nederland speelt bovendien een voortrekkersrol in het internationale debat. Zo bracht Nederland begin 2023 tientallen landen samen in het Haagse World Forum om te werken aan normen voor verantwoord gebruik van militaire AI. Wie mag bijvoorbeeld de trekker overhalen, wanneer moet een mens betrokken zijn en hoe moet je die menselijke betrokkenheid inrichten? Die vragen stonden toen al centraal. Dat militair gebruik van AI zijn voor- en nadelen kent, is duidelijk.

Wat in discussies hierover tot nu toe onderbelicht is gebleven, is zogenoemde adversarial AI: het gericht manipuleren van AI-systemen zodat ze verkeerde conclusies trekken, uitvallen of gevoelige informatie lekken. Zo hebben onderzoekers bijvoorbeeld aangetoond dat kleine stukjes tape op een stopbord een zelfrijdende auto kunnen laten denken dat het een maximumsnelheidsbord is.

Desastreuze gevolgen

Onderzoekers toonden vorig jaar aan dat slechts 250 kwaadaardige documenten (0,00016 procent van een trainingsdataset) voldoende zijn om een taalmodel te corrumperen, Daardoor kan het wartaal gaan uitslaan of opdrachten uitvoeren die het normaal gesproken zou weigeren (‘jailbreaking’). Dat betrof een civiel systeem, maar dezelfde kwetsbaarheid geldt ook voor militaire AI-systemen. Elk AI-systeem dat door een leger wordt ingezet voor doelwitherkenning, navigatie, logistiek of inlichtingenanalyse is namelijk zelf ook een doelwit en de gevolgen van zo’n poging tot corrumperen kunnen desastreus zijn. Denk aan de selectie van verkeerde, civiele doelen, het missen of verkeerd identificeren van vijandelijke dreigingen, of het dwalen van autonome drones. Wij hebben daar bij RAND Europe uitgebreid onderzoek naar gedaan. Recent nog in opdracht van de Britse regering.

Dat raakt niet alleen de tactische inzetbaarheid van wapensystemen, maar mogelijk ook de strategische stabiliteit. Afschrikking werkt namelijk alleen wanneer tegenstanders ervan overtuigd zijn dat militaire middelen functioneren zoals ze bedoeld zijn. Waarom zou een agressor afgeschrikt worden door precisiewapens als hij denkt ze te kunnen misleiden? Dit raakt ook bondgenootschappen: als partners gaan twijfelen aan elkaars capaciteiten, erodeert dat de basis van collectieve verdediging. Net als in de rest van het cyberdomein is het eenvoudiger om AI-systemen aan te vallen dan om ze te verdedigen. Dat bevoordeelt agressieve staten en benadeelt defensieve allianties zoals de NAVO.

Daarnaast creëert AI een nieuwe vorm van strategische ambiguïteit. AI-systemen maken namelijk inherent fouten. Wanneer een systeem faalt in een crisissituatie, kan het onduidelijk zijn of dat komt door de onvermijdelijke foutmarge, een technische storing of door een vijandelijke aanval. Die onzekerheid creëert ruimte voor misrekening, verkeerde toeschrijving en onbedoelde escalatie. In het slechtste geval ontstaat er een spiraal van wederzijds wantrouwen, terwijl niemand precies weet wat er is gebeurd.

Nog een groot risico: ook niet-statelijke actoren krijgen meer slagkracht. Adversarial AI-technieken worden toegankelijker. Daarmee groeit de kans dat terroristische groeperingen, criminele netwerken of door staten gesteunde proxies zulke technieken gebruiken. Het antwoord op de vraag wie werkelijk achter een aanval zat (nu al moeilijk in het cyberdomein), wordt nog moeilijker te beantwoorden.

Bestaande internationale afspraken zijn hier niet op ingericht. Ze zijn vrijwel altijd vrijwillig en niet-bindend en de focus ligt met name op verantwoord gebruik van AI. Over wat er moet gebeuren wanneer AI-systemen gecompromitteerd worden, bestaan nauwelijks afspraken. Adversarial AI valt bovendien eigenlijk overal buiten. Ook buiten nucleaire wapenbeheersing bijvoorbeeld, hoewel het nucleaire commandostructuren kan destabiliseren. Het wordt evenmin gedekt door afspraken over conventionele wapens, hoewel het deze wapens kan uitschakelen.

Technische maatregelen (robuuster ontwerp en betere tests van AI-systemen) zijn noodzakelijk maar niet voldoende. Wat ontbreekt, zijn mechanismen voor crisiscommunicatie tussen rivaliserende staten, gedeelde normen over rode lijnen en afspraken over herstel na incidenten. Tijdens de Koude Oorlog bouwden we hotlines om misverstanden te voorkomen. Voor AI-incidenten bestaat zoiets nog niet.

Rode lijnen

Toch is er reden voor voorzichtig optimisme. De expertise is aanwezig, de overlegorganen zijn er en het besef groeit. Wat nodig is, is de wil om drie stappen te zetten.

Ten eerste moet adversarial AI onderdeel worden van bestaande gesprekken over AI-regels, cybernormen en strategische stabiliteit. Ten tweede zijn communicatiekanalen nodig waarmee staten AI-incidenten snel kunnen bespreken, ook met tegenstanders, om misverstanden in crisistijd te voorkomen. Ten derde moeten staten duidelijke rode lijnen definiëren. Onduidelijkheid biedt gelegenheden voor het testen van grenzen, met alle risico’s van dien.

De integratie van AI in militaire systemen versnelt. Elke nieuwe AI-capaciteit schept niet alleen nieuwe mogelijkheden, maar ook nieuwe kwetsbaarheden. Juist daarom moeten we nu afspraken maken over weerbaarheid, communicatie en rode lijnen, vóórdat een aanval op AI-systemen een crisis veroorzaakt.

Kunstmatige intelligentie

Lees meer

Source: NRC

Home

Als de ene AI de andere aanvalt, loopt het al snel uit de hand

Desastreuze gevolgen

Rode lijnen

Kunstmatige intelligentie

Lees meer