Institut de Mathématiques de Toulouse

Home > Scientific Events > Seminars > Séminaires > Séminaire de Statistique

Séminaire de Statistique

by Dominique Bontemps, Mélisande Albert, Pierre Neuvial - published on , updated on

Organisateurs : Mélisande Albert, Dominique Bontemps, Pierre Neuvial

Jour et lieu habituels : le mardi à 11h15 en salle 106 (bâtiment 1R1).




  • Tuesday 29 January 11:15-12:15 - Stéphane Chrétien - National Physical Laboratory

    Multi-kernel unmixing and super-resolution using the Modified Matrix Pencil method

    Résumé : In this talk, we consider a generalization of the usual super-resolution problem that we call the multi-kernel unmixing super-resolution problem. Assuming access to Fourier samples, we derive an algorithm for this problem which is able to estimate the source parameters of each group, along with precise non-asymptotic guarantees.
    Our approach involves estimating the group parameters sequentially in the order of increasing scale parameters. Each step involves Moitra’s modified matrix pencil method, and a fine study of perturbation bounds for generalised eigenvectors.

    Lieu : Salle 106, Bat 1R1


  • Tuesday 5 February 11:15-12:15 - Emilie Lebarbier - AgroParisTech

    Segmentation of time-series with dependence

    Résumé : The objective of segmentation methods is to detect abrupt changes, called breakpoints, in the distribution of a signal. Such segmentation problems arise in many areas, as in biology, in climatology, in geodesy, …. The inference of segmentation models requires to search over the space of all possible segmentations, which is prohibitive in terms of computational time, when performed in a naive way. The Dynamic Programming (DP) strategy is the only one that retrieves the exact solution in a fast way but only applies when the contrast (e.g. the log-likelihood) to be optimized is additive with respect to the segments. However, this is not the case in presence of some dependencies. We consider two cases:
    (i) When dealing with time-series, it is likely that time-dependence exists.
    (ii) When dealing with multiple series, it is likely that some dependence between series exists (as spatial correlation).
    Our goal is to propose an efficient maximum likelihood inference procedure. For both our strategy consists in removing the dependence such that DP can be applied during the inference procedure.
    Joint work with S. Chakar, X. Collilieux, C. Lévy-Leduc and S. Robin

    Lieu : Salle 106, Bat 1R1


  • Tuesday 12 February 11:15-12:15 - Tristan Mary-Huard - INRA Paris/Le Moulon

    Some contributions to the estimation of genetic distances between populations

    Résumé : We consider the problem where one wants to evaluate the level of divergence between $K$ populations. Each population is characterized by its allelic frequency prole, where allelic frequencies are assumed to be estimated from a sample at several (typically thousands/millions of) markers. In this context the $F_{ST}$ is a widely used criterion for the quantication of the divergence between two populations, that can also be adapted to the question of detecting genomic regions that exhibit a divergence level substantially higher than the rest of the genome. Still, the concept of $F_{ST}$ remains ambiguous - with different available definitions assumed to be "connected" in some sense - and the strategy to estimate the $F_{ST}$ when there are more than 2 populations is still an open question, the most popular strategy being to consider all possible pairs of population successively.

    In this presentation we will first propose a hierarchical model for the history of population divergence and show that the two classical denitions of the $F_{ST}$ (as provided by Hudson and Weir & Cockerham) actually measure independent quantities. We will then provide an estimation procedure based on the moment estimators suggested by Bhatia (in the case of 2 populations) and show how both the $F_{ST}$ components and the history of population divergence may be jointly estimated. Lastly, we will consider the problem of detecting genomic regions under selection and provide a segmentation procedure for the identification of such regions. Both the estimation and the segmentation procedures will be illustrated on the 1KG human genome dataset that gathers several human populations sampled over the world.

    Lieu : Salle 106, Bat 1R1


  • Monday 18 February 12:30-13:30 - Pierre Alquier - ENSAE

    Theoretical Guarantees for Approximate Bayesian Inference

    Résumé : While Bayesian methods are extremely popular in statistics and machine learning, their application to massive datasets is often challenging, when possible at all. Indeed, the classical MCMC algorithms targeting the exact posterior are prohibitively slow when both the model dimension and the sample size are large or when the likelihood is not tractable. Fast algorithms were proposed, at the price of targeting approximations of the posterior. In this talk, I will discuss two approaches.
    The first approach is an approximate Metropolis-Hastings algorithm (MH). In MH, a simulation from the transition kernel P requires a computation of the likelihood that might be expensive. We propose an approximation Q of P leading to a fast algorithm. We control explicity the total variation distance (TV) between the posterior and the distribution of the simulations. This algorithm was proposed in Alquier, Friel, Everitt and Boland (Statistics and Computing, 2016) under the name "Noisy-MCMC". I will also mention recent results by Rudolf and Schweizer (2018) who relaxed the assumptions of our results by using the Wasserstein distance instead of TV.
    The second approach is Variational Bayesian inference (VB). VB aims at approximating the posterior by a distribution in a tractable family. Thus, MCMC are replaced by an optimization algorithm which is orders of magnitude faster. VB methods have been applied in such computationally demanding applications as including collaborative filtering, NLP and text processing… However, despite nice results in practice, the theoretical properties of these approximations are usually not known. I will present conditions ensuring the asymptotic concentration of the variational approximation of the posterior around the true parameter. These results are taken from our recent works: Alquier and Ridgway (2017) and Chérief-Abdellatif and Alquier (2018).

    Lieu : bât 1R3, salle de conférence du premier étage (MIP)

    Notes de dernières minutes : Séance exceptionnelle : lundi 12h30 en salle MIP, 1R3. Elle a lieu dans le cadre du groupe de travail Mathématiques de l’apprentissage.


  • Tuesday 5 March 11:15-12:15 - Thomas Laloë - Université de Nice Sophia-Antipolis

    Estimation adaptative d’une fonction de régression multivariée et application à la théorie du risque

    Résumé : Dans cet exposé, je présenterai un estimateur adaptatif non-paramétrique d’une fonction de régression multivariée. L’ idée est de s’affranchir d’une hypothèse classique en estimation de la régression : la compacité du support du design. Un estimateur à noyau déformé adaptatif est tout d’abord défini dans le cas où la loi du design est connue. Dans un second temps, nous proposons d’estimer également celle-ci: les marginales sont estimées via les fonctions de répartition empiriques et structure de dépendance via une estimation de la densité de copule. Le plug-in de ces estimateurs dans celui de la fonction de régression permet ensuite d’obtenir un estimateur dans le cas général. Enfin j’introduirai une mesure de risque : la CCTE qui est la valeur moyenne d’une fonction de coût sachant que l’on se trouve dans les queues de la distribution du design.

    Lieu : Salle 106 (bâtiment 1R1)


  • Tuesday 12 March 11:15-12:15 - Sylvie Viguier-Pla - Université de Perpignan via Domitia, IMT

    Proximité entre mesures aléatoires et entre séries stationnaires associées

    Résumé : Toute série stationnaire est transformée de Fourier d’une mesure aléatoire. Il est donc légitime de penser que des mesures aléatoires associées à deux séries stationnaires sont d’autant plus proches que ces dernières le sont, et, réciproquement que la proximité de deux mesures aléatoires induit la proximité des séries correspondantes.
    C’est ce type de question que nous nous proposons d’aborder dans cet exposé.
    Le choix des distances est déterminant pour obtenir cette correspondance. Pour cela, nous allons définir une distance entre mesures aléatoires et une distance entre séries stationnaires, et développer quelques outils mathématiques.

    Lieu : Salle 106, Bat 1R1


  • Tuesday 19 March 11:15-12:15 - Bruno Pelletier - Université Rennes II

    Estimation dans un modèle de graphe aléatoire à espace latent

    Résumé : Nous considérons le problème de l’estimation des positions latentes d’un graphe aléatoire à espace latent à partir de la matrice d’adjacence du graphe. Nous étudions une approche consistant à utiliser les distances dans le graphe afin d’estimer les distances entre paires de positions latentes pour retrouver, dans un second temps, les positions latentes par positionnement multidimensionnel. Nous présentons des bornes d’erreur sur l’estimation des distances entre paires de positions sous différentes hypothèses sur la fonction de lien. Nous présentons ensuite des bornes de robustesse relatives au positionnement multidimensionnel et certaines de ses variantes.

    Lieu : bât 1R3, salle de conférence du premier étage (MIP)


  • Tuesday 26 March 11:00-12:00 - Jérémie Bigot - Université de Bordeaux

    Data-driven regularization of Wasserstein barycenters

    Résumé : We present a framework to simultaneously align and smooth data in the form of multiple point clouds sampled from unknown densities with support in an Euclidean space. This work is motivated by applications in bioinformatics where researchers aim to automatically homogenize large datasets to compare and analyze characteristics within a same cell population. To this end we use the notion of regularized Wasserstein barycenters. A first approach consists in penalizing a Wasserstein barycenter with a convex functional, and a second strategy is to transform the Wasserstein metric itself into an entropy regularized transportation cost between probability measures as introduced by Cuturi. The main contribution of this work is to propose data-driven choices for the regularization parameters involved in each approach using the Goldenshluger-Lepski’s principle. An application to the analysis of flow cytometry data is proposed.

    Lieu : Amphi Schwartz

    Notes de dernières minutes : Cet exposé a lieu dans le cadre du "Workshop on optimal transport and applications" http://www.cimi.univ-toulouse.fr/cov/en/workshop-optimal-transport-and-applications


  • Tuesday 2 April 11:15-12:15 - Aurélie Fischer - Université Paris Diderot (Paris 7)

    Sur les courbes principales avec contrainte de longueur

    Résumé : Dans cet exposé, nous cherchons à construire une courbe paramétrée f minimisant sous contrainte de longueur la quantité E[d(X,f(t))^2], où X est une variable aléatoire.
    Dans le contexte des probabilités et de l’apprentissage statistique, une telle courbe est appelée courbe principale contrainte (Kégl et al., 2000). Le problème peut également être vu comme une version du problème de distance moyenne étudié au sein de la communauté du calcul des variations et de l’optimisation de formes.
    (Buttazzo and Stepanov (2003); Buttazzo et al. (2002)).
    Nous nous intéresserons aux propriétés théoriques satisfaites par une courbe principale f:[0,1]->R^d, de longueur au plus L, associée à une loi de probabilité qui admet un moment d’ordre 2 et n’est pas à support dans l’image d’une courbe de longueur L. Via une discrétisation, nous montrons qu’une courbe optimale est de courbure finie et obtenons une équation d’Euler-Lagrange. L’équation peut notamment être utilisée pour démontrer l’injectivité d’une courbe optimale en dimension 2.
    G. Buttazzo and E. Stepanov. Optimal transportation networks as free Dirichlet regions for the Monge-Kantorovich problem. Ann. Sc. Norm. Sup. Pisa Cl. Sci., II(4):631 678, 2003.
    G. Buttazzo, E. Oudet, and E. Stepanov. Optimal transportation problems with free Dirichlet regions. Progress in Nonlinear Di . Equations and their Applications, 51:41 65, 2002.
    B. Kégl, A. Krzyzak, T. Linder, and K. Zeger. Learning and design of principal curves. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22:281 297, 2000.

    Lieu : bât 1R3, salle de conférence du premier étage (MIP)


  • 1 | 2 | 3 | 4 | 5 | 6

iCal