Sciences des données, traitement du signal

Un thème transverse aux activités des membres de l’Institut porte sur les mathématiques pour les sciences des données et le traitement du signal.

Dans ce champ disciplinaire, les méthodes étudiées et le choix des outils mathématiques sont motivés par l’étude de problèmes de traitement statistique et déterministe du signal et des images (2D et 3D) ; des traitements de données structurées sous forme de vecteurs, de matrices ou encore de données temporelles. Les données sont souvent massives, en grande dimension, hétérogènes et potentiellement imparfaitement collectées.

La pluralité des points de vues présents à l’Institut permet d’aborder tous les aspects mathématiques des problèmes étudiés :

leur modélisation ;
l’obtention de garanties théoriques sur les performances d’une méthode ;
la résolution numérique du problème mathématique et l’analyse des performances des méthodes numériques ;
’application des méthodes à des problèmes concrets, en interaction avec des collaborateurs d’autres disciplines scientifiques (médecine, biologie, sciences de l’environnement, météorologie, physique de la matière, épidémiologie …) et avec des collaborateurs industriels.

A titre d’exemple, on peut citer la reconstruction d’images en imagerie biomédicale, l’analyse de données d’expression de gènes, la modélisation mathématique des écoulements géophysiques de fluides et leurs applications dans le domaine de l’hydrologie et de la glaciologie, les modèles de prévision des inondations et des submersions maritimes, l’amélioration des prévisions météorologiques à l’échelle régionale pour une meilleure anticipation des événements extrêmes. Ces travaux s’effectuent dans le cadre de collaborations avec divers partenaires dont le CNES, l’OMP, le SHOM, Météo-France …

Pour ces différentes applications, nous traitons des données satellites et spatiales, des données mesurant des flux de fluides géophysiques, des données issues de l’analyse de codes de calculs, de la robotique, de la maintenance prédictive, différentes données issues de l’industrie, des données fonctionnelles, des données biologiques à haut-débit, des données omiques (génomique, transcriptomique, protéomique, métabolomique…), des données observationnelles de suivis de patients, ainsi que des images médicales, des images issues de microscopes ou des images hyperspectrales.

Ces problématiques sont abordées et les approches sont validées à l’aide d’un large panel d’objets et d’outils mathématiques. Sans être exhaustif, on peut citer : les réseaux de neurones, les méthodes d’apprentissage inspirées par la physique, les équations aux dérivées partielles, les processus gaussiens, l’analyse de sensibilité, les problèmes inverses, l’assimilation de données, les modèles parcimonieux, le transport optimal, des approches géométriques pour la statistique, les valeurs extrêmes.

Les solutions sont calculées à l’aide des méthodes les mieux adaptées au problème. Là encore, le panel est très large et les membres de l’institut travaillent sur des méthodes numériques rapides, des méthodes de simulation efficaces, des problèmes d’optimisation convexe, non-convexe, non-lisse, de l’optimisation stochastique, des traitements en ligne, distribués ou incrémentaux. Des codes et des solutions logicielles sont développés, la plupart de temps en open source.