Créer une vidéo parodie de célébrité avec l'IA pour enseigner le FLE

Et si les célébrités préférées des apprenants pouvaient leur enseigner le français ?

Nous avons déjà expliqué comment créer un avatar virtuel qui puisse enseigner le français dans une vidéo pédagogique. Toutefois, la différence entre un avatar virtuel et un être humain est que l’avatar virtuel… n’a pas d’histoire personnelle à transmettre. Il n’y a que le physique, et pas d’attache émotionnelle. A moins que… l’avatar virtuel soit créé à partir d’une vraie personne.

Dans cet article, nous explorons comment créer une vidéo pédagogique de FLE où l’enseignant est remplacé… par une célébrité.

Pour cela, nous choisissons des outils gratuits dans un premier temps, facilement accessibles à tout créateur de vidéo.

Le défi

En réaction aux paroles récentes de Macron vis-à-vis de Trump pour le Groenland « We do prefer respect to bullies » , je cherche ici à faire parler le président Emmanuel Macron sur le texte suivant :

Conjugue avec moi le verbe « respecter ». (sourire)
C’est un verbe du 1er groupe, comme tous les verbes en -ER.
Je respecte.
Tu respectes.
Il, ou Elle, respecte.
Nous respectons.
Vous respectez.
Ils, ou Elles, respectent.

Allez, à toi maintenant :

Je (pause)
Tu (pause)
Il ou Elle (pause)
Nous (pause)
Vous (pause)
Ils ou Elles (pause)

Bravo !

Première étape : Le clonage de voix

a. Choix d’un outil gratuit

J’ai d’abord cherché des outils connus pour la génération de voix IA. Comme nous ne souhaitons pas utiliser une voix générique, mais bien la voix de quelqu’un d’existant (ici Emmanuel Macron), nous devons utiliser un outil de clonage.

Le cloning de voix via l’IA est souvent inclus dans les versions payantes des plateformes, comme :

Eleven Labs – 5€/mois
Artlist.io – 11€/mois

Toutefois, il y a 2 plateformes offrant le cloning gratuitement :

Noize.ai (mais ne marche pas pour la langue française pour l’instant),
et Minimax

C’est donc Minimax qui a été retenu pour la suite.

Sur le plan économique, le plan gratuit de Minimax est généreux. Concrètement, pour le texte que j’ai montré, j’ai utilisé 325 crédits sur les 200 000 que j’ai gratuitement. (10 000 crédits par mois, environ 12mn d’audio). Pour faire davantage d’audio, le premier plan commercial commence à 5 USD/mois, ce qui est tout à fait accessible.

b. Comment utiliser Minimax pour cloner la voix

Pour cloner la voix :

1. Cliquer sur « Voice Clone » dans le menu à gauche

2. Téléverser un court morceau de voix existante en mp3 de bonne qualité. On peut mettre jusqu’à 10 fichiers.

J’ai utilisé YouTube pour trouver la voix d’Emmanuel Macron et https://notube.lol/ pour télécharger le mp3 associé. Le mp3 doit faire moins de 300 secondes, soit moins de 5 minutes. Si votre mp3 est trop long, vous pouvez le couper avec un outil gratuit en ligne comme https://clideo.com/fr/editor/cut-audio

3. Bien choisir la langue (en bas de la page, ici le français)

4. Aller sur « Text to Speech » dans le menu de gauche

4. Ecrire ou copier/coller le texte choisi dans l’encadré :

Vérifier que la langue détectée est bien le français (en bas à gauche)
Choisir la voix dans le menu de droite (aller sur « My Voices »
Choisir l’émotion souhaitée pour tout le texte

c. Comment adapter le texte pour qu’il soit compris par Minimax

J’ai modifié mon texte initial pour que l’algorithme me comprenne.

J’ai rajouté des pauses en me servant de <#1#>. (1 représente 1 seconde. Si on veut plutôt 0.5 seconde, on écrira <#0.5#> par exemple. Utilisez bien le “.” point au lieu de “,” la virgule)
J’ai aussi enlevé la mention de “sourire” et choisi “Happy” comme émotion générale à la place (dans le menu de droite). On ne peut choisir qu’une seule émotion à la fois pour tout le texte.

(Si on veut différentes émotions dans le texte, il faudra donc générer des audios séparés.)

Pour dire “-ER”, j’ai écrit “E-R” à la place”, sinon il lisait “ère”.

Voici donc mon prompt final :

Conjugue avec moi le verbe « respecter ».
C’est un verbe du premier groupe, comme tous les verbes en E-R.
Je respecte.
Tu respectes.
Il, ou Elle, respecte.
Nous respectons.
Vous respectez.
Ils, ou Elles, respectent.
Allez, à toi maintenant :
Je<#1#>
Tu<#1#>
Il ou Elle<#1#>
Nous<#1#>
Vous<#1#>
Ils ou Elles<#1#>
Bravo !

Il faut bien penser à ajuster la durée des pauses après écoute de la génération audio. Si on manque de crédits pour re-générer l’audio, on peut aussi ajouter soi-même des blancs plus tard avec un outil simple d’édition audio comme Audacity.

Deuxième étape : Le Lip Syncing

Maintenant que nous avons Macron qui « parle » notre texte, il s’agit de le montrer visuellement à l’écran.

Pour cela, nous allons faire du « Lip Syncing », qui vient de « Lip » = lèvre et « Sync » = synchroniser. Il s’agit donc de synchroniser le mouvement des lèvres de Macron avec l’audio que nous avons choisi, ce qui donnera l’impression que c’est lui qui parle.

Il existe 2 types de lip syncing : photo et vidéo. Pour le lip syncing vidéo, on prend une personne déjà en mouvement, alors que pour le lip syncing photo, il suffit simplement d’une photo statique.

J’ai noté qu’il y a beaucoup plus d’outils IA qui existent en ligne pour le lip syncing photo, que celui vidéo. Par ailleurs, vous allez voir que ma préférence va au lip syncing photo (plus simple à faire).

a. Lip Syncing sur Vidéo

Pour faire du lip syncing sur une vidéo existante, il faut :

1. Choisir la vidéo

J’ai commencé par cherché une vidéo existante de Macron que je souhaitais changer, sur Youtube. J’ai pris celle-ci : https://www.youtube.com/watch?v=l8JMYcZpvjc

Je l’ai téléchargée avec la plateforme Notube.lol, puis j’ai coupé juste 1mn pertinente de la vidéo au niveau visuel, vu que mon audio fait 30s. J’ai utilisé un outil simple en ligne pour couper la vidéo sur les segments que je préférais.

2. Mettre la vidéo sur un outil IA adapté, et ajouter l’audio généré précédemment

J’ai ensuite réalisé le Lip Sync sur Vidnoz, qui est gratuit. Pour exporter la vidéo en HD, il faut toutefois une version payante de la plateforme, et ça commence à 27$/mois.

Enfin, j’ai ajouté des sous-titres dynamiques avec Capcut AI. J’ai choisi un format 9:16 pour aller sur les réseaux sociaux, mais Capcut gère également les formats 16:9 pour Youtube.

Le résultat final est celui-ci :

b. Lip Syncing sur Photo

Pour faire du lip syncing sur une photo existante, il faut :

Choisir la photo
Mettre la vidéo sur l’outil gratuit Lipsync.video

L’algorithme Taking Photo 2.0 donne ce résultat :

Et l’algorithme Taking Photo 4.0 donne ce résultat, considérablement meilleur en termes de synchronisation (ça vaut donc le coup même ça coûte plus de crédits) :

En ajoutant des sous-titres avec Capcut, ça donne ce résultat final, partageable sur les réseaux sociaux :

Bilan des étapes à suivre

Etape 1 : Cloner la voix & générer l’audio avec

Un enregistrement personnel OU un mp3 issu d’une vidéo YouTube + https://notube.lol/ pour le téléchargement
https://www.minimax.io/audio/voices-cloning et penser à utiliser le format <#1#> pour indiquer des durées de pause (ici 1 seconde)

Etape 2 : Faire du lip syncing avec

Une vidéo bien coupée et la plateforme Vidnoz AI https://www.vidnoz.com/ai-lip-sync.html
OU une image fixe (plus simple, et meilleure qualité d’expression) et la plateforme Lipsync.video https://lipsync.video/ai-talking-photo-generator (algorithme Taking Photo 4.0)
Et l’audio généré précédemment !

Etape 3 : Ajouter des sous-titres automatiques avec Capcut AI

Avis personnel

Je trouve que le Lip Syncing sur Photo est mieux que le Lip Syncing vidéo, car :

c’est plus simple à faire (la vidéo nécessite de choisir une séquence adaptée en termes de mouvement)
le résultat est plus expressif (cela vient sûrement du fait que sur le Lip Syncing vidéo, l’IA est limitée aux expressions déjà existantes du personnage en mouvement, alors que sur le Lip Syncing photo, elle a plus de liberté pour modifier les traits de son visage)
la qualité finale est meilleure (HD gratuit en photo alors qu’il n’est pas gratuit en vidéo).

Mentions Légales : Attention !

⚠️ Attention ! Dans toute production réalisée, n’oubliez pas d’indiquer qu’il s’agit bien d’une vidéo générée par l’intelligence artificielle. Il est donc recommandé d’inclure les types de textes suivants dans la description des vidéos :

⚠️ Cette vidéo a été générée (en tout ou en partie) à l’aide d’outils d’intelligence artificielle.
Les images / voix / contenus présentés sont fictifs et ne représentent pas des personnes réelles.
Cette vidéo a une vocation informative / créative / pédagogique.

Selon le pays où vous vous trouvez, assurez vous de ne pas enfreindre les lois locales… et d’être attentif au choix de personnes que vous caricaturez.

👉 Egalement à mettre en description + éventuellement en fin de vidéo, le texte suivant :

⚠️ Cette œuvre est une caricature et une fiction.
Elle relève de la satire et de la liberté d’expression.
Toute ressemblance avec des faits réels ou des propos authentiques est volontairement exagérée ou détournée à des fins humoristiques ou artistiques.

Et, dans notre cas précis, nous pourrons ajouter :

ℹ️ À propos de cette vidéo
Cette vidéo est une caricature satirique représentant Emmanuel Macron.
Elle vise à illustrer un style ou un procédé humoristique, sans prétendre à l’authenticité politique.

⚠️ Les réglementations concernant l’usage de l’IA, particulièrement pour réaliser ce type de vidéos, appelées « Deepfake » doivent être suivies scrupuleusement. Ici nous sommes dans un cadre satirique, transparent, et ludique, et il faut être très vigilant à ne pas laisser vos apprenants réaliser ce type d’activités dans un cadre malveillant. Veillez à bien consulter toutes les réglementations en vigueur dans votre pays.

Pour aller plus loin

On peut créer un avatar virtuel en tant que soi, enseignant également. Cela permet d’éviter de se filmer. Cela peut faire l’objet d’un futur article, mais en attendez explorez simplement l’outil Heygen qui est fait pour ça.

Il y a aussi des outils qui permettent de créer de la musique à partir de sa propre voix, on pourrait donc faire chanter Macron ! Mais ceux-ci sont payants, il faudrait donc investir en amont :

Annexes

Autres outils trouvés tout-en-un mais payants

Krea.ai https://www.krea.ai/pricing
Lemonslice.com https://lemonslice.com/pricing
Capcut a un outil Text to Speech, mais n’a pas d’outil de clonage de voix. On ne peut pas non plus faire du Text to Speech sur une voix qu’on fournirait à l’avance par exemple.
Capcut permet également de créer un avatar virtuel personnalisé, mais celui-ci doit être nous-mêmes. On ne peut donc pas demander à créer un avatar de Macron via Capcut. Sur Vidnoz AI, c’est le même problème.
J’ai essayé l’outil NoteGPT.io https://notegpt.io/ai-voice-cloning aussi mais ça a bugué après l’upload de mon audio.
Le lip sync vidéo sur https://lipsync.video/ m’a demandé 186 crédits avec l’algorithme Lip Sync 2.0. J’ai 100 crédits gratuits par jour, et un bonus de 200 crédits quand on s’inscrit. Mais le site a bugué et je n’ai pas eu le résultat… Je n’ai donc pas utilisé cette plateforme pour le lip sync vidéo, seulement la photo.

Alternative : utilisation d’un avatar virtuel basé sur des photos

Heygen est connu pour permettre la création d’avatars virtuels customisés.

J’ai essayé de créer un avatar de Macron de bonne qualité sur Heygen mais ils ont un algorithme qui vérifie qu’on n’utilise pas la photo de quelqu’un de connu. Du coup, ça m’a bloqué la majorité des photos que j’avais uploadées.

De toutes façons, d’après mes tests, Heygen ne fonctionne pas bien pour ajouter du texte parlé : il faut un outil de Lipsync en plus, ce qui revient à ce qu’on faisait au début de ce document.

https://deevid.ai/ai-avatar/ai-avatar-video fait aussi des avatars virtuels. Mais pour le clonage de voix, c’est payant. J’ai voulu tester l’avatar virtuel avec une voix standard et ça m’a demandé de payer (commence à $7/mois)

Qu’en pensez-vous ? Partagez-nous vos expérimentations !

Créer une vidéo parodie de célébrité avec l’IA pour enseigner le FLE

Le défi