Apple a modernisĂ© son API de transcription de lâaudio en texte avec les mises Ă jour annuelles et SpeechAnalyser, câest le nom de la nouvelle gĂ©nĂ©ration, peut dĂ©sormais concurrencer Whisper, le modĂšle de transcription proposĂ© par OpenAI. Un dĂ©veloppeur a mis au point un utilitaire pour le terminal nommĂ© Yap pour lâexploiter sous macOS Tahoe et les rĂ©sultats sont impressionnants. Cette transcription rĂ©alisĂ©e entiĂšrement en local sur les Mac Ă©quipĂ©s dâune puce Apple Silicon est non seulement bien plus rapide que celle de Whisper, elle propose une qualitĂ© Ă la hauteur de son illustre concurrent.
Transcription en cours avec Yap. Image MacGeneration.
Pour tester la nouveautĂ©, jâai utilisĂ© un MacBook Pro M1 passĂ© sous macOS 26. Yap doit ĂȘtre installĂ© avec un gestionnaire de paquets comme Homebrew et il fonctionne ensuite directement, puisquâil est basĂ© sur un modĂšle fourni par Apple et intĂ©grĂ© au systĂšme. En face, jâai utilisĂ© MacWhisper, une excellente app qui permet de tĂ©lĂ©charger le modĂšle Whisper pour rĂ©aliser une transcription locale. Jâai tĂ©lĂ©chargĂ© le dernier Ă©pisode de Sortie de Veille, notre podcast hebdomadaire, soit un fichier audio dâun petit peu plus de 26 minutes.
Sur cet ordinateur, le moins puissant des Mac Apple Silicon, Yap a terminĂ© sa tĂąche en environ 16 secondes. Avec le mĂȘme fichier et MacWhisper, le temps dâexĂ©cution dĂ©pend des modĂšles, mais il est systĂ©matiquement supĂ©rieur. Avec le modĂšle « Base », le plus lĂ©ger (150 Mo) et rapide, il a fallu une minute et dix secondes, tandis que le modĂšle « Large V3 Turbo » (1,6 Go) que jâutilise au quotidien a demandĂ© 4 minutes et 23 secondes. Apple utilise un modĂšle compact, tout en offrant de trĂšs bons rĂ©sultats, car il faut aussi comparer la qualitĂ© de la transcription.
Alors quâil est extrĂȘmement rapide, SpeechAnalyser a produit un fichier dâexcellente qualitĂ©, comparable au modĂšle large de Whisper, mais ce dernier est seize fois plus lent ! En comparaison, le modĂšle de base fourni par OpenAI reste plus lent que celui dâApple et ses rĂ©sultats sont bien plus mauvais, Ă la limite de lâexploitable. La copie fournie par Yap nâest pas parfaite, on note notamment quâelle a du mal sur les noms de produits (ce sont pourtant des produits AppleâŠ) comme « Liquid Glass » ou encore « WWDC », elle reste toutefois bien supĂ©rieure, tout en Ă©tant obtenue bien plus rapidement.
La transcription fournie par le modĂšle « Base » de Whisper en arriĂšre plan et celle du modĂšle dâApple au premier plan. Image MacGeneration.
Whisper reprend Ă peine lâavantage si vous avez le temps, le grand modĂšle donne un rĂ©sultat subjectivement un petit peu meilleur, mĂȘme si la diffĂ©rence nâest pas aussi importante que je lâimaginais alors que le temps de traitement nâa rien Ă voir. Il faut aussi penser aux ressources nĂ©cessaires : si jâai utilisĂ© ici un petit fichier audio, il faut savoir que vous aurez besoin dâune quantitĂ© de RAM dâautant plus importante que la transcription est longue. Sur cet exemple facile, je note dĂ©jĂ une diffĂ©rence importante entre les deux : le modĂšle dâApple nâutilise quâenviron 350 Mo de mĂ©moire, contre 2,2 Go environ pour MacWhisper (avec le modĂšle large).
Si vous voulez tester ce nouveau concurrent Ă Whisper, vous devrez installer macOS Tahoe sur un Mac Apple Silicon, puis installer Yap :
brew install finnvoor/tools/yap
Vous pourrez ensuite lâutiliser avec une ligne de commande de ce type :
yap audio.mp3 -o texte.txt
La documentation liste quelques options disponibles, on peut notamment gĂ©nĂ©rer un fichier de sous-titres au format SRT et on peut pointer le service sur une vidĂ©o en entrĂ©e. On peut mĂȘme combiner lâoutil Ă yt-dlp pour transcrire des vidĂ©os en ligne sans les tĂ©lĂ©charger en local. On imagine que de nombreuses apps proposeront une interface graphique, plus conviviale, pour utiliser SpeechAnalyser dâici la sortie de macOS 26.
Pour en savoir plus sur la nouvelle API, Apple propose aux dĂ©veloppeurs une session technique qui dĂ©taille comment lâexploiter dans une app. Apple lâutilise elle-mĂȘme dans plusieurs apps, dont Notes, Dictaphone, Journal ou encore TĂ©lĂ©phone. iOS 26 permettra de transcrire lâanglais (britannique et amĂ©ricain), le français (uniquement en France), lâallemand, le portugais (BrĂ©sil) et lâespagnol (Espagne) et on peut sans doute compter sur la mĂȘme liste de langages pour lâAPI sous-jacente.