En 2019, l’IA la plus avancée de l’époque (GPT-2) ne parvenait même pas à exécuter correctement une commande dans un terminal. Sept ans plus tard, les modèles les plus récents réussissent une attaque informatique sur deux parmi celles qui prendraient trois heures à un expert humain en cybersécurité. Et le rythme accélère : selon une étude publiée le 2 avril par le laboratoire Lyptus Research, les capacités offensives de l’IA doublent désormais tous les 5,7 mois.

De 30 secondes à 3 heures en sept ans

L’étude, menée avec dix professionnels de la sécurité informatique, a évalué 15 modèles d’IA sur 291 tâches offensives tirées de sept bases de données différentes. Chaque tâche a été chronométrée par des experts humains pour établir un étalon de difficulté, exprimé en temps réel de travail. Le tout représente 149 heures d’effort humain documenté.

Les résultats dessinent une courbe exponentielle vertigineuse. GPT-2 (2019) plafonnait à des tâches de 30 secondes. GPT-3 (2020) atteignait 43 secondes. En février 2026, les deux modèles les plus performants, Opus 4.6 (Anthropic) et GPT-5.3 Codex (OpenAI), réussissent 50 % des tâches qui prendraient 3,1 à 3,2 heures à un professionnel chevronné. Soit une demi-journée de travail d’un spécialiste en test d’intrusion.

Le rythme accélère, et les chiffres sont sous-estimés

Sur la période 2019-2024, les capacités offensives de l’IA doublaient tous les 9,8 mois. Depuis 2024, le rythme s’est emballé : le doublement s’opère désormais tous les 5,7 mois, selon les calculs de Lyptus Research. La corrélation exponentielle affiche un coefficient R² de 0,95, ce qui laisse peu de place au doute statistique.

Pire : les chercheurs affirment que leurs propres mesures sous-estiment la réalité. Toutes les évaluations ont été conduites avec un budget de 2 millions de « tokens » (les unités de calcul de l’IA). Quand l’équipe a relancé les tests de GPT-5.3 Codex avec un budget de 10 millions de tokens, le seuil de réussite est passé de 3,1 heures à 10,5 heures de travail humain. En clair, avec cinq fois plus de ressources informatiques, l’IA triple sa capacité de piratage.

Les modèles libres suivent avec 6 mois de retard

L’étude met en lumière un écart entre les modèles propriétaires (GPT-5.3, Opus 4.6) et les alternatives disponibles en accès libre. Le modèle chinois GLM-5, publié en février 2026, affiche un « horizon temporel » de 51,7 minutes, soit environ 5,7 mois de retard sur les modèles de pointe. DeepSeek V3.1 (septembre 2025) accuse, lui, un retard de 13 mois.

Ce décalage est aussi une fenêtre de vulnérabilité. Les modèles en accès libre peuvent être téléchargés, modifiés et exécutés sans aucune restriction d’usage. Un acteur malveillant n’a pas besoin d’attendre que le meilleur modèle du marché lui soit accessible : il lui suffit de patienter quelques mois pour que la même puissance soit disponible gratuitement et sans contrôle.

Des attaques réelles déjà documentées

Ces résultats ne relèvent pas de la théorie pure. En novembre 2025, Anthropic a révélé avoir détecté une campagne de cyberespionnage à grande échelle orchestrée par une IA. Les attaquants utilisaient Claude pour décomposer des chaînes d’attaques complexes en sous-tâches élémentaires, automatisant « 80 à 90 % de l’opération », selon le rapport de l’entreprise.

Début 2026, toujours selon Anthropic, Opus 4.6 a découvert plus de 500 vulnérabilités inconnues dans des bibliothèques logicielles libres, sans outil spécialisé. En janvier 2026, le programme AISLE a utilisé l’IA pour identifier les 12 failles de sécurité d’une mise à jour coordonnée d’OpenSSL, dont certaines dataient de 1998. Quand l’IA trouve des failles que des humains ont ratées pendant 28 ans, l’équation offensive/défensive bascule.

Ce que l’IA ne sait pas encore faire

Les chercheurs de Lyptus Research tempèrent le tableau. Les 291 tâches testées sont des exercices isolés : exploiter une faille précise, reproduire une vulnérabilité connue, exécuter une commande. Un vrai test d’intrusion professionnel dure 5 à 8 jours de travail. Un exercice de « red team » complet prend plus de 20 jours. Le rapport international sur la sécurité de l’IA, publié en 2026, confirme que les attaques entièrement autonomes restent rares. Les modèles « exécutent des commandes sans rapport avec l’objectif, perdent le fil de leur état et échouent à se remettre d’erreurs simples sans intervention humaine ».

L’IA bute encore sur plusieurs obstacles que les experts humains franchissent naturellement. Elle peine à enchaîner plusieurs failles pour construire un chemin d’attaque cohérent. Elle perd le fil de sa stratégie sur les opérations longues. Elle exécute parfois des commandes sans rapport avec l’objectif. « Les tâches des exercices sont bien plus propres et nettes que la vraie vie, où la découverte, le chaînage de vulnérabilités et la gestion de l’information incomplète jouent un rôle bien plus important », résume un des experts interrogés dans l’étude.

Huit mois avant le prochain seuil

Si la tendance se poursuit au rythme actuel de 5,7 mois par doublement, les projections de Lyptus Research dessinent un calendrier inquiétant. Dans environ huit mois, l’IA devrait atteindre le niveau d’une journée complète de travail d’expert. D’ici moins de deux ans, celui d’une semaine entière. Et d’ici deux ans et demi, celui d’un exercice offensif complet de 20 jours.

Les données complètes de l’étude (transcriptions d’experts, évaluations des modèles, code d’analyse) sont publiées en accès libre sur GitHub et Hugging Face. Les chercheurs insistent sur un point : les défenseurs doivent anticiper non pas les capacités actuelles de l’IA, mais celles qu’elle atteindra dans 6 à 13 mois, quand les modèles libres rattraperont les meilleurs modèles fermés d’aujourd’hui.