Le clonage vocal par IA est devenu une arme industrielle. En 2026, des plateformes clandestines proposent du « Deepfake-as-a-Service » : pour quelques centaines de dollars, n’importe qui peut cloner la voix d’un dirigeant d’entreprise et lancer une attaque de social engineering sophistiquée. Les pertes mondiales liées à ces arnaques se chiffrent désormais en milliards.
- Le Deepfake-as-a-Service : un marché structuré
- Des pertes chiffrées en milliards
- Comment fonctionnent les attaques
- Pourquoi c'est si efficace
- Comment se défendre
- Questions fréquentes
- Combien coûte un clone vocal sur le dark web ?
- Comment détecter un appel utilisant une voix clonée par IA ?
- Les entreprises françaises sont-elles concernées par ces attaques ?
- Sources
Le Deepfake-as-a-Service : un marché structuré
D’après une investigation du FBI et d’Europol publiée en 2025, au moins 15 plateformes sur le dark web proposent des services de clonage vocal et vidéo à la demande. Le tarif typique : 200 à 500 dollars pour un clone vocal de haute qualité à partir de seulement 30 secondes d’audio source. Les plateformes les plus sophistiquées offrent du clonage vidéo en temps réel pour les appels visio.
Des pertes chiffrées en milliards
Selon le rapport 2025 de la Global Anti-Scam Alliance, les fraudes utilisant des deepfakes audio et vidéo ont causé plus de 12 milliards de dollars de pertes au niveau mondial en 2025, en hausse de 300 % par rapport à 2023. Les entreprises sont les cibles principales :
- En février 2024, un employé d’une multinationale à Hong Kong a transféré 25 millions de dollars après un appel vidéo deepfake avec un faux directeur financier (cas documenté par la police de Hong Kong).
- Des cas similaires, de moindre ampleur, sont signalés quotidiennement par les services de cybersécurité des grandes entreprises.
Comment fonctionnent les attaques
Le schéma d’attaque typique suit plusieurs étapes :
- Collecte : l’attaquant récupère des échantillons audio de la cible (conférences publiques, podcasts, vidéos YouTube, messages vocaux).
- Clonage : un modèle IA génère un clone vocal à partir des échantillons. Les outils actuels ne nécessitent que 10 à 30 secondes d’audio pour un résultat convaincant.
- Scénario : l’attaquant construit un scénario d’urgence crédible (transfert bancaire urgent, changement de coordonnées fournisseur).
- Exécution : appel téléphonique ou message vocal avec la voix clonée, parfois combiné à un email de phishing.
Pourquoi c’est si efficace
La voix est l’un des marqueurs d’identité les plus fiables pour le cerveau humain. Quand un employé reçoit un appel de quelqu’un qui sonne exactement comme son patron, le réflexe de vérification est court-circuité. L’urgence du scénario renforce l’effet : pas le temps de vérifier, il faut agir.
Comment se défendre
- Protocoles de vérification : instaurer des procédures de double validation pour tout transfert financier, quel que soit l’appelant.
- Mots de passe vocaux : convenir de phrases ou codes secrets à utiliser lors des demandes sensibles par téléphone.
- Formation : sensibiliser les employés à l’existence et à la qualité des deepfakes vocaux.
- Outils de détection : des solutions comme Pindrop, Nuance ou Resemble AI proposent des outils de détection de voix synthétiques.
- Rappeler systématiquement : en cas de demande inhabituelle, raccrocher et rappeler sur le numéro officiel.
Votre entreprise a-t-elle mis en place des protocoles de vérification contre les deepfakes vocaux ?
Questions fréquentes
Combien coûte un clone vocal sur le dark web ?
Les tarifs observés par le FBI et Europol oscillent entre 200 et 500 dollars pour un clone vocal haute fidélité. Les services premium, incluant le clonage vidéo en temps réel pour les visioconférences, peuvent atteindre plusieurs milliers de dollars.
Comment détecter un appel utilisant une voix clonée par IA ?
Les indices incluent de légers artefacts sonores, un débit inhabituellement régulier et l’absence de bruits de fond naturels. Des outils spécialisés comme Pindrop ou Resemble AI analysent le spectre audio pour identifier les voix synthétiques, mais l’oreille humaine est de plus en plus trompée.
Les entreprises françaises sont-elles concernées par ces attaques ?
L’ANSSI a signalé une hausse significative des tentatives de fraude au président utilisant des deepfakes vocaux en France depuis 2024. Toute entreprise dont les dirigeants s’expriment publiquement est potentiellement vulnérable, quelle que soit sa taille.
Sources
À lire aussi



