Le téléphone sonne peu avant minuit. Au bout du fil, la voix de votre fille, en larmes : un accident, la police, de l’argent à envoyer tout de suite. Le timbre est exact, les hésitations aussi, jusqu’à sa façon de reprendre son souffle. Tout colle. Sauf que ce n’est pas elle.
Ce scénario, des milliers de familles l’ont vécu en 2026. Il porte un nom : l’arnaque au clonage vocal. Des escrocs s’emparent de quelques secondes d’enregistrement, fabriquent une copie de la voix d’un proche, puis s’en servent pour réclamer de l’argent dans l’urgence. La technique existait déjà, mais elle vient de franchir un cap : l’imitation est devenue presque impossible à repérer à l’oreille.
Quelques secondes d’audio suffisent
Le mécanisme tient en deux temps. Un fraudeur récupère d’abord un échantillon sonore, souvent trois ou quatre secondes glanées sur une story Instagram, un message vocal oublié ou une vidéo publiée sur les réseaux. Un logiciel de synthèse s’entraîne ensuite sur cet extrait et récite n’importe quelle phrase avec le même grain de voix, parfois en direct pendant l’appel. Les outils capables de ce tour de passe-passe se louent en ligne pour quelques euros par mois, sans compétence technique particulière.
À l’arrivée, la copie trompe l’oreille humaine. Une enquête de CNN publiée fin mai rapporte que la majorité des gens ne parviennent plus à distinguer une voix réelle d’une voix synthétique. Le magazine Fortune, citant des chercheurs en cybersécurité, évoque pour 2026 un seuil franchi, celui où l’imitation devient indétectable sans logiciel d’analyse. Faire confiance à ses propres oreilles ne protège donc plus de grand-chose.
Le FBI tire la sonnette d’alarme
Début juin, la police fédérale américaine a diffusé une mise en garde directe. Le scénario type qu’elle décrit commence toujours par un appel affolé d’un proche qui se dit enlevé, arrêté ou hospitalisé, et qui supplie qu’on lui envoie de l’argent sans attendre. Le FBI avance un chiffre qui donne la mesure du phénomène : un Américain sur quatre affirme avoir reçu un appel vocal généré par une machine au cours de l’année écoulée. Certaines grandes enseignes disent encaisser plus d’un millier de ces appels frauduleux par jour.
L’urgence reste l’arme maîtresse. En pressant la victime, l’escroc l’empêche de réfléchir, de douter, de vérifier. La peur fait le reste. Les grands-parents sont une cible de choix, avec de faux petits-enfants en détresse, mais aucune tranche d’âge n’est épargnée. Il suffit d’avoir déjà parlé en ligne, dans une story ou une note vocale, pour fournir la matière première.
La France n’est pas épargnée
L’alerte est aussi venue d’une institution peu portée sur le sensationnel. Le 27 avril, la Banque de France et l’Autorité de contrôle prudentiel, l’ACPR, ont signalé des vidéos truquées montrant leur gouverneur, François Villeroy de Galhau, vanter un placement « hautement lucratif » aux épargnants. Le visage comme la voix avaient été fabriqués de toutes pièces. D’après les remontées de Tracfin et de la plateforme Pharos, le préjudice moyen pour un particulier piégé oscille entre 2 000 et 12 000 euros, et grimpe bien plus haut lorsque la cible est une entreprise. Le nombre de contenus truqués en circulation aurait été multiplié par dix entre 2023 et 2025.
Les particuliers font face à une version plus quotidienne. Un faux conseiller bancaire appelle, affiche le vrai numéro de l’agence grâce à l’usurpation du numéro affiché, puis fait dicter un code de validation au prétexte de « bloquer une fraude en cours ». Une voix posée, un numéro familier et trois mots de jargon suffisent à désarmer la méfiance. Les banques répètent pourtant qu’elles ne demandent jamais de valider une opération de cette façon.
Vingt-cinq millions envolés en une visio
Le cas le plus spectaculaire ne reposait pas sur un appel, mais sur une visioconférence. Début 2024, un employé d’une multinationale a viré l’équivalent de 25 millions de dollars après une réunion vidéo où tous ses interlocuteurs, son directeur financier compris, étaient des avatars générés par ordinateur. Il était le seul humain présent à l’écran. L’affaire a prouvé que la fraude ne se limite plus aux particuliers isolés : elle s’attaque aux circuits de paiement des grandes structures, dans ce que les enquêteurs appellent l’arnaque au président. En mars, les Nations unies ont à leur tour alerté sur l’association des voix clonées, des images truquées et de l’automatisation au service de la criminalité organisée.
Le réflexe qui coupe court
Face à une voix parfaitement imitée, scruter le son ne sert à rien. Les spécialistes conseillent de surveiller plutôt les signaux classiques de l’escroquerie : une urgence imposée, la consigne de n’en parler à personne, une demande de paiement par un canal inhabituel comme une carte cadeau ou une cryptomonnaie. Le bon geste tient en une phrase : raccrocher, puis rappeler la personne sur son numéro habituel ou la joindre autrement. Beaucoup de familles instaurent un mot de passe convenu d’avance, un code que seuls les proches connaissent et qu’un fraudeur ne pourra pas inventer.
Quelques habitudes réduisent la surface d’attaque : verrouiller ses comptes sur les réseaux sociaux, réfléchir avant de publier de longues vidéos où l’on parle, se méfier des appels muets qui ne servent parfois qu’à enregistrer une voix. En cas de tentative, le signalement se fait sur la plateforme Pharos ou sur cybermalveillance.gouv.fr.
Côté défense, les logiciels censés démasquer ces faux progressent, mais ils courent derrière des générateurs qui s’améliorent plus vite qu’eux. La vigilance humaine reste, pour l’instant, la parade la plus fiable.
La technologie, elle, ne ralentira pas. Les générateurs de voix gagnent en réalisme chaque mois, et l’été, saison des photos et des vidéos partagées à la chaîne, leur offre une réserve d’échantillons sonores. Le meilleur pare-feu coûte pourtant zéro euro : trente secondes de doute avant de valider le moindre virement.