Sciences des données, traitement du signal

Un thème transverse aux activités des membres de l’Institut porte sur les mathématiques pour les sciences des données et le traitement du signal.

Dans ce champ disciplinaire, les méthodes étudiées et le choix des outils mathématiques sont motivés par l’étude de problèmes de traitement statistique et déterministe du signal et des images (2D et 3D) ; des traitements de données structurées sous forme de vecteurs, de matrices ; de données temporelles, hétérogènes, non-structurées. Les données sont souvent de grande taille, massives, imparfaitement collectées.

La pluralité des points de vues présents à l’Institut permet d’aborder tous les aspects mathématiques des problèmes étudiés :
– leur modélisation ;
– l’obtention de garanties théoriques sur les performances d’une méthode ;
– la résolution numérique du problème mathématique et l’analyse des performances des méthodes numériques ;
– l’application des méthodes à des problèmes concrets, en interaction avec des collaborateurs d’autres disciplines scientifiques (médecine, biologie, physique de la matière, observation de la terre, épidémiologie, criminologie) et d’industriels.

A titre d’exemple, on peut citer différentes problématiques issues de l’apprentissage statistique/automatique, de l’apprentissage bayésien, de la statistique mathématique, mais aussi de la modélisation déterministe : la modélisation, l’inférence, la classification, la régression, différents problèmes inverses (dont des problèmes aveugles), l’assimilation de données, l’analyse de sensibilité, la quantification d’incertitude, la détection d’anomalies ou de régions atypiques, la robustesse, l’équité, l’explicabilité et l’interprétabilité, l’inférence sous contrainte de confidentialité, l’apprentissage séquentiel, l’échantillonnage usuel et compressé, l’analyse de survie.

Ces problématiques sont abordées et les approches sont validées à l’aide d’un large panel d’objets et d’outils mathématiques. A titre d’exemple, on peut citer : les réseaux de neurones, les modèles parcimonieux, le transport optimal, des approches géométriques pour la statistique, différents modèles de factorisation de matrices, l’utilisation de théorèmes de représentants en dimension finie et infinie, les opérateurs intégraux, les équations aux dérivées partielles, les processus stochastiques, les chaines de Markov, les valeurs extrêmes, la simulation d’événements rares et l’exploration aléatoire d’espaces complexes, les processus gaussiens, les processus empiriques, des tests et tests multiples et l’intégration de données.

Les solutions sont calculées à l’aide des méthodes les mieux adaptées au problème. Là encore, le panel est très large et les membres de l’institut travaillent sur des méthodes numériques rapides, sur des problèmes d’optimisation convexe, non-convexe, non-lisse, sur de l’optimisation stochastique, des traitements en ligne, distribués ou incrémentaux, des méthodes de simulation Monte Carlo.

Enfin, pour différentes applications, nous traitons des données satellites et spatiales, des données mesurant des flux de fluides géophysiques, des données issues de l’analyse de codes de calculs, de la robotique, de la maintenance prédictive, différentes données issues de l’industrie, des données fonctionnelles, des données biologiques à haut-débit, des données ’omiques (génomique, transcriptomique, protéomique, métabolomique…), des données observationnelles de suivis de patients, ainsi que des images médicales, des images issues de microscopes ou des images hyperspectrales.