Compression de données audio spatiales par réseau de neurones f/h (madrid)

Madrid

Hs Mittweida

Publicada el 26 noviembre

Descripción

Votre rôle
Les contenus audio spatialisés permettent entre autres une plus amplio immersion et leurs usages se développent particulièrement ces dernières années (AR/VR, cinéma, radio, etc.). Or, l'audio spatial nécessite la transmission de plusieurs canaux audio et il est nécessaire de compresser efficacement ces données pour rendre leur usage supportable sur le réseau.

Description du contexte du stage
Orange a une expertise de longue date sur la compression de données audio (codecs EVS, MPEG-H, IVAS). Ces dernières années, les méthodes de compression par réseau de neurones ont montré qu'il était possible de réduire grandement le débit tout en maintenant une qualité correcte en mono par rapport aux méthodes de traitement du signal classiques. L'extension de ces méthodes en multicanal reste balbutiantes. En particulier, pour être entrainés, les codecs (codeur/décodeur) par réseaux de neurones ont besoin d'un critère de qualité de reconstruction appelé fonction de coût. Il n'est pas trivial d'établir un tel critère de qualité en adéquation avec notre audition et permettant d'entraîner efficacement un réseau de neurones.

En 2025, Orange a proposé une nouvelle métrique de qualité audio basée sur un réseau de neurones profond, spécialisée dans l'audio spatial (ambisonique et binaural), nommée QASTAnet (pour Quality Assessment for SpaTial Audio network) (2). Une implémentation de cet algorithme est disponible en open-source (3). Nous souhaitons entraîner un codec multicanal avec QASTAnet comme fonction de coût. Or, la version actuelle de QASTAnet souffre d'un certain nombre de limitations qu'il est nécessaire de surmonter pour atteindre cet objectif.

Description de la mission et des principales activités associées au stage
Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :

Appropriation du sujet et étude bibliographique (1 mois),

Adapter QASTAnet pour entrainer un codec multicanal : réduction de la complexité de QASTAnet, augmentation de la largeur de bande fréquentielle (2 mois),

Modifier QASTAnet pour améliorer la qualité du signal reconstruit par le codec (2 mois),

Rédaction (1 mois).

(1) Muller, Thomas, Stéphane Ragot, Laeticia Gros, Pierrick Philippe, et Pascal Scalart. "Speech quality evaluation of neural audio codecs". In Interspeech 2024.

(2) Adrien Llave, Emma Granier, et Grégory Pallone. "QASTAnet: A DNN-based Quality Metric for Spatial Audio".

(3) Python implementation of QASTAnet,

Votre profil
Formation souhaitée

Vous êtes actuellement en Master 2 ou école d'ingénieur à dominante recherche et vous préparez une formation dans le domaine du traitement du signal, de l'apprentissage automatique et/ou de l'audio

Pré-requis techniques

Maîtrise du traitement du signal audio

Bonnes connaissances en théorie des probabilités et statistiques

Connaissances en méthodes d'apprentissage automatique, si possible en réseaux de neurones

Maîtrise de Python. Idéalement expérience avec PyTorch.

Aptitudes personnelles

Forte appétence pour le traitement du signal et l'audio

Maîtrise de l'anglais

Le plus de l'offre
Vous travaillerez au sein d'une équipe orientée recherche sur le traitement de la parole et du son, composée de chercheurs permanents, post-docs et doctorant-es. Vous serez amené à échanger avec les différents membres de l'équipe, experts sur les domaines du traitement audio, le développement informatique et l'intelligence artificielle liés à l'audio.

Le stage s'insère dans un contexte historique d'amélioration de qualité audio dans les applications conversationnelles. En particulier, la qualité audio sur téléphone mobile s'est améliorée en 2009 avec les premiers déploiements mondiaux par Orange de la "voix HD" (pour Haute Définition) mobile. Orange a également contribué au développement de la "voix HD+" (équivalente à la qualité hifi) qui est déjà présente dans différents pays depuis 2016. Le stage vient étudier la nouvelle génération de technologies qui est amenée à remplacer les méthodes actuellement déployées.

Vous contribuerez, au sein d'une équipe motivée, à la recherche en codage audio qui est actuellement un domaine en plein essor grâce aux avancées en Deep Learning.

Vous travaillerez ainsi sur des technologies qui seront de plus en plus utilisées dans le futur. Vous pourrez être amenés à déposer un ou plusieurs brevets, et à participer à la publication d'articles.

Entité
Le département Audio et Telco Services a pour ambition d'offrir à nos clients la meilleure expérience digitale, en anticipant, développant et intégrant de bout en bout les services de communication temps réel multicanaux.

Le département porte également une expertise sur les devices mobiles et une expertise audio/voix, de la recherche au delivery.

3 équipes constituent le département :

Equipe Rich Instant Messaging (RIM) qui porte le Skill center Google RCS et les activités de messaging

Equipe Mobile Service and Sollicitation (MSS) qui assure le développement des services mobiles et des plateformes associées

Equipe Immersive Communications and Audio Expertise (ICAE) qui travaille sur les activités de recherche et de standardisation dans le domaine de l'audio

Contrat
Stage

Durée : 6 mois

Date souhaitée de prise de poste : 02 févr. 2026

Niveau d'études préparé pendant le stage Indemnité brute selon école Bac+5 de 1621 € à 2162 € / mois

#J-18808-Ljbffr

Enviar

Crear una alerta

Guardar