Institut de Mathématiques de Toulouse

Home > Scientific Events > Seminars > Séminaires > Séminaire de Statistique

Séminaire de Statistique

by Dominique Bontemps, Mélisande Albert, Pierre Neuvial - published on , updated on

Organisateurs : Mélisande Albert, Dominique Bontemps, Pierre Neuvial

Jour et lieu habituels : le mardi à 11h15 en salle 106 (bâtiment 1R1).




  • Tuesday 28 May 11:15-12:15 - Vincent Brault - Laboratoire Jean Kuntzmann, Université Grenoble Alpes

    Segmentation croisée des colonnes et des lignes d’une matrice : comparaison de deux procédures avec une application à l’étude des trajets de véhicules autonomes

    Résumé : Dans la recherche sur les véhicules autonomes, l’un des freins est l’utilisation de GPS précis au centimètre près coûtant quelques dizaines de milliers d’euros. Pour contourner ce problème, il est proposé d’utiliser des caméras pour les véhicules effectuant un même trajet (comme les bus de ville par exemple). Dans ce cadre, nous sommes amenés à étudier la similarité entre des images de l’environnement prises à différents moments (Birem et al., 2014). Les données résumées issues de séquences vidéo réelles (Korrapati et al., 2013) se présentent sous forme de matrices dans lesquelles des lieux différenciés (e.g. ligne droite, intersection…) correspondent à des blocs relativement homogènes. Le but est de proposer une méthode automatique pour estimer les frontières de ces blocs.
    Pour répondre à cette question, il existe des algorithmes développés pour l’analyse des données Hi-C issue de la biologie (Dixon et al., 2012) dont la problématique est similaire. En particulier, Brault et al. (2017a) proposent une segmentation basée sur des procédures LASSO (Least Absolute Shrinkage and Selection Operator) et Brault et al. (2017b) une autre fondée sur des statistiques de rang.
    Dans le cadre de cet exposé, nous commencerons par rappeler les deux modèles associés et les procédures associées. Nous confronterons ensuite celles-ci sur leurs qualités d’estimation des ruptures suivant plusieurs scénarios et sur le temps de calcul. Nous terminerons par l’étude des résultats obtenus dans le cadre de données de séquences vidéos (Korrapati et Mezouar, 2014).

    Lieu : Salle de conférences du 1er étage (1R3)


  • Tuesday 4 June 11:15-12:15 - Jean-Marc Bardet - Université Paris 1

    Sélection de modèles et test d’adéquation pour les séries chronologiques affines causales

    Résumé : La classe des séries chronologiques affines causales contient l'essentiel des séries chronologiques classiques (notamment les processus ARMA ou GARCH) et celles moins classiques à mémoire infinie (AR($\infty$) ou APARCH($\infty$) par exemple). Nous nous intéressons ici à la question du choix d'un modèle à partir d'une trajectoire observée pour toute une famille de modèles de séries chronologiques affines causales (par exemple l'ensemble des ARMA(p,q) et GARCH(p',q')). Grâce à l'estimation par quasi-maximum de vraisemblance effective pour tous ces modèles, et d'un critère de sélection par pénalisation, nous donnons des conditions permettant la consistance de la démarche, c'est-à-dire la sélection asymptotique du vrai modèle. Un test de type portemanteau permet également de tester asymptotiquement l'adéquation des données au modèle sélectionné. Des simulations sont réalisées et montrent notamment que le critère BIC peut ne pas être consistant en cas de séries à mémoire infinie. Travail joint avec Kamila Kare (Paris 1) et William Kengne (Cergy)

    Lieu : Salle de conférences du 1er étage (1R3)


  • Tuesday 11 June 11:15-12:15 - Julien Chiquet - AgroParisTech, INRA MIA Paris

    Variational inference for Poisson lognormal models: application to multivariate analysis of count data

    Résumé : Many application domains such as ecology or genomics have to deal with multivariate count data. A typical example is the joint observation of the respective abundances of a set of species in a series of sites, aiming to understand the co-variations between these species. The Gaussian setting provides a canonical way to model such dependencies, but does not apply in general. We adopt here the Poisson lognormal (PLN) model, which is attractive since it allows one to describe multivariate count data with a Poisson distribution as the emission law, while all the dependencies is kept in an hidden friendly multivariate Gaussian layer. While usual maximum likelihood based inference raises some issues in PLN, we show how to circumvent this issue by means of a variational algorithm for which gradient descent easily applies. We then derive several variants of our algorithm to apply PLN to PCA, LDA and sparse covariance inference on multivariate count data. We illustrate our method on microbial ecology datasets, and show the importance of accounting for covariate effects to better understand interactions between species.

    Lieu : Salle 106 (bâtiment 1R1)


  • Tuesday 18 June 11:15-12:15 - Daniel Egea Roca - Universitat Autònoma de Barcelona

    From Hypothesis Testing to Statistical Change Detection and its Application to Global Navigation Satellite Systems

    Résumé : The goal of our presentation is to show the audience an overview of the detection theory with special emphasis on sequential approaches and Sequential Change Detection (SCD). We first provide a historical overview of the evolution of the theory and application of SCD. This will lead to the mathematical formulation of sequential detection, paving the way to introduce the framework of SCD. The objective of the first part of the talk is to provide the mathematical foundations of sequential detection and the most common detection criteria used in practice. The second part of the talk will focus on the study of different use cases. In particular, to see the practical application of the theoretical concepts of SCD we show its application to the field of global navigation satellite systems (GNSSs). The idea is to show the audience how to apply SCD to a particular detection problem so that they can get an idea of how to apply SCD to other problems.

    Lieu : Salle de conférences du 1er étage (1R3)


  • Tuesday 25 June 11:15-12:15 - Agnès Lagnoux - Université Toulouse Jean Jaurès et Institut de Mathématiques de Toulouse

    Sur l’estimation de paramètres de covariance de processus gaussiens

    Résumé : En raison de leur simplicité et de leur flexibilité permettant ainsi de modéliser une large classe de modèles, les processus gaussiens sont devenus très populaires depuis quelques années et largement utilisés en statistique spatiale afin d’interpoler les observations et proposer un métamodèle (de krigeage par exemple). Ils sont caractérisés par leur fonction moyenne et leur fonction de covariance. A des fins statistiques, il s’agit d’estimer sa fonction de covariance. Dans cet exposé, nous supposons que la fonction de covariance appartient à une famille paramétrique de fonctions de covariance. L’estimation de k se résume donc à celle de ses paramètres. Classiquement, les estimées sont obtenues par maximum de vraisemblance. Les estimateurs par maximum de vraisemblance (MLE) ont de bonnes propriétés et ont été largement étudiés dans la littérature. Cependant, ils souffrent d’un coût computationnel parfois prohibitif lorsque la taille de l’échantillon devient grande. Dans certains cas, il arrive aussi que le MLE diverge. Il semble alors pertinent de proposer des méthodes d’estimation alternatives. Nous introduirons donc les estimateurs par vraisemblance composite, les estimateurs par validation croisée ainsi que les estimateurs par variations dans des contextes spécifiques pour lesquels nous déterminerons le comportement asymptotique.

    Lieu : Salle de conférences du 1er étage (1R3)


  • Tuesday 17 September 11:15-12:15 - Irène Gijbels - Louvain, KU Leuven

    Asymmetric distributions and quantile regression

    Résumé : In this talk we study a general class of asymmetric distributions. Their probabilistic properties lead to explicit expressions for all main characteristics (mean, variance, skewness, kurtosis, …). Estimation of the parameters via method of moments and the maximum likelihood method is discussed, and the asymptotic behaviour of the estimators is established, again in the general framework. The emphasis in the inference is on quantile estimation. Interesting examples include new asymmetric normal, logistic and Student t distributions.
    Illustrations with via real data examples are provided.
    In a regression setting the interest is in estimating conditional quantiles. Starting from the above family of asymmetric densities, we consider a class of conditional density functions, in which the conditional quantile takes the form of a simple location-scale expression. Local likelihood techniques are then used to provide semiparametric estimates of the regression quantile curves.
    This talk is based on joint work with Rezaul Karim and Anneleen Verhasselt.

    Lieu : Salle de conférences du 1er étage (1R3)


  • Tuesday 24 September 11:15-12:15 - Aurore Archimbaud - Ippon Innovation

    Multivariate outlier detection with Mahalanobis distance and ICS (Invariant Coordinate Selection) for standard and high-dimensional data

    Résumé : In this presentation, we are interested in detecting outliers in an unsupervised way in multivariate numerical data sets. We focus specifically on the case of a small proportion of outlying observations, like for example fraud or manufacturing faults. Indeed, in the industrial context of fault detection, this task is of great importance for ensuring a high quality production. In addition, with the exponential increase in the number of measurements on electronic components, the concern of high dimensional data arises in the identification of outlying observations. The ippon innovation company, an expert in industrial statistics and anomaly detection, wanted to deal with this new situation. So, it collaborated with the TSE-R research laboratory by financing a thesis work. It led to several publications, some R packages and a proprietary algorithm already used by some customers. The main ideas, propositions and results will be presented.
    The well-known Mahalalanobis distance computes a score for each observation taking into account the covariance structure of the data set. High scores indicate possible outliers. However, the limitation of this method appears if the dimension of the data increases while the structure of interest remains in a fixed dimension subspace. The ICS method (Invariant Coordinate Selection) overcomes this drawback by selecting relevant components for outlier detection. The results will be illustrated on simulated and real data sets through the R package ICSOutlier and the shiny app ICSShiny we implemented.
    To go further, because of some multicollinearity problems in high dimension, the scatter matrices may be singular. In such a context, it is possible to generalize ICS by using some Generalized Singular Value Decomposition. This approach has some advantages compared to another approach based on generalized inverse of scatter matrices. In some examples where the structure of interest is contained in some subspace, the proposed method is able to recover the subspace of interest while other approaches may fail in identifying such a subspace. These advantages are discussed in detail from a theoretical point of view and using some simulated examples.
    Keywords: Mahalanobis distance, Invariant Coordinate Selection, Affine Invariance, Components selection, High-dimensional data.

    Lieu : Salle de conférence du 1er étage (1R3)


  • Tuesday 1 October 11:15-12:15 - Pas de séminaire de Statistique

    Workshop CIMI "Topology for Learning and Data Analysis"

  • Tuesday 8 October 11:15-12:15 - Pas de séminaire de Statistique

    Demi-journée des nouveaux entrants

  • 1 | 2

iCal