Reconnaître l’expression faciale d’une personne sans voir son visage en face sera bientôt possible. Des chercheurs de l’Université de Cornell aux Etats-Unis présentent actuellement, dans le cadre d’un congrès sur les interfaces utilisateurs, un casque audio permettant de lire sur les lèvres de notre interlocuteur et ce, sans caméra pour diffuser le visage du locuteur. Cette invention se nomme C-Face (pour « Contour Face ») et consiste à reconnaître une variété d’expressions faciales en ne filmant que les contours du visage.
En effet, ce nouveau est composé de 2 minis caméras posées chacune sur un écouteur audio. Elles scrutent les mouvements musculaires des joues de l’utilisateur et saisissent la manière dont-ils tendent ou détendent la peau, selon l’expression du visage. Ces données sont ensuite utilisées pour créer un modèle 3D du visage, en utilisant un algorithme de deep learning.
Cet algorithme a été conçu afin d’extrapoler les mouvements liés à 42 zones importantes du visage proches de la bouche, des yeux et des sourcils. Douze configurations de caméras sont utilisées, à des distances différentes de la peau : 1, 2 ou 3 cms et selon 4 angles de vues différents : -10, -20, -30 ou -40 degrés.
Si C-Face n’est qu’au stade prototypique, son potentiel semble particulièrement vaste. Les chercheurs l’ont déjà adapté pour de la traduction de commandes vocales (ou plutôt faciales) muettes, par exemple en interagissant avec une enceinte connectée qui lit de la musique. Ils ont même réussi à lui faire traduire les expressions d’une personne en huit émoticônes à envoyer directement depuis une application mobile de messagerie. Dans les deux cas, C-Face a montré plus ou moins 85% de réussite. La promesse, à terme, serait d’introduire une reconnaissance plus complexe, comme de la lecture labiale indirecte (comme avec les commandes vocales muettes) en visioconférence tout en restant anonyme, par exemple.