FaceTime : pourquoi des sous-titres plutôt qu’une traduction audio ?
Alors que la traduction automatique et instantanée se fait facilement à partir des AirPods Pro, les conversations FaceTime ne sont proposées qu’en sous-titre ? Pourquoi, alors que la technologie audio existe ?

C’est à cette question, entre autres, qu’ont répondu Ron Huang (VP Connectivité) et Areeba Kamal (ingénieur senior IA) dans une courte interview donnée au Figaro. Et il faut dire que la réponse semble au final logique : plutôt qu’une traduction audio, qui pourrait supprimer une partie des intonations et autres petits détails de la voix d’un interlocuteur comme lors d’une conversation face à face, les ingénieurs d’Apple ont souhaité privilégier des sous-titres pour FaceTime du fait que les appels visio sont bien plus souvent passés dans le cercle familial ou des amis proches. Il s’agissait donc de ne pas briser le lien direct noué par le son de la voix de l’interlocuteur.
On a testé la traduction en direct des AirPods : vraiment utile pour franchir la barrière de la langue ?
Si les réponses données sont bien entendu très policées et ne risquent pas de dévoiler de grands projets inconnus, les deux responsables ont aussi donné quelques informations sur la façon dont Apple a entraîné son IA dédiée à la traduction instantanée : l’entreprise a ainsi récupéré un nombre conséquent de véritables conversations de café, de restaurants, ou dans d’autres environnements bruyants et complexes pour être sûrs de surmonter toutes les difficultés que pourraient poser la traduction en milieu exigeant.
Des enseignements tirés de ces expérimentations, des solutions techniques intéressantes ont été appliquées : plutôt que de se limiter aux micros intégrés aux écouteurs, le système de traduction directe écoute aussi celui de l’iPhone, pour tenter de trouver celui qui entend le mieux la conversation en cours. Bien entendu, si l’iPhone est dans la poche, c’est raté pour le micro intégré. Mais si celui-ci se trouve sur la table, il est possible qu’il capte mieux la voix de l’interlocuteur que ceux intégrés aux écouteurs.
De la même manière, les équipes ont aussi optimisé les algorithmes pour permettre un début de traduction avant même d’attendre la fin de la phrase en cours. Une fois sure du début de phrase, l’IA envoie la traduction directement sans en attendre la fin, afin d’éviter tout retard rendant la conversation bien trop artificielle.
Au final, des petits détails qui une fois accumulés font de la traduction directe un système plus agréable à utiliser (même si pas totalement instantané), ou en tout cas optimisé au mieux pour le monde réel. Et puis, n’est-il pas rassurant de voir qu’il y a encore un ingénieur fidèle dans l’équipe dédiée à l’IA ?














