Institut de Mathématiques de Toulouse

Home > Scientific Events > Seminars > Séminaires > Séminaire de Statistique

Séminaire de Statistique

by Dominique Bontemps, Mélisande Albert, Pierre Neuvial - published on , updated on

Organisateurs : Mélisande Albert, Dominique Bontemps, Pierre Neuvial

Jour et lieu habituels : le mardi à 11h15 en salle 106 (bâtiment 1R1).




  • Monday 11 June 2018 16:00-17:00 - Olivier Roustant - Mines Saint Etienne

    Group kernels for Gaussian processes with categorical inputs

    Résumé : Gaussian processes (GP) are widely used to approximate time-consuming computer codes. A reason for their success is their ability in providing probabilistic models which interpolate the data in various frameworks. This is mostly done by choosing an appropriate covariance function, or kernel.
    We focus on problems involving categorical inputs, with a potentially large number L of levels (typically several tens), partitioned in G << L groups of various sizes. We investigate parsimonious kernels defined by block covariance matrices T with constant covariances between pairs of blocks and within blocks. First, we prove that the validity of such kernels is equivalent to the positive definiteness of a smaller matrix of size G, obtained by averaging each block. Second, the hierarchical group/level structure, equivalent to a nested Bayesian linear model, provides a parameterization of valid block matrices T; In particular, the whole range of admissible negative correlations is covered. We also exhibit a wider class of kernels, obtained by relaxing the within-block structure, for which the same analysis can be done.
    The model is applied to a problem in nuclear waste analysis, where one of the categorical inputs is atomic number, which has more than 90 levels. We end by giving some connections with other hierarchical / multi-resolution GPs and next steps for future research.
    Keywords: Gaussian process, Categorical data, Hierarchical model, Multi-resolution, Computer experiment.

    Lieu : Salle 106, Bat 1R1


  • Tuesday 12 June 2018 11:00-12:00 - Charlotte Laclau - Laboratoire de Probabilités, Statistique et Modélisation, Paris

    Unsupervised learning through Rank-one Approximation

    Résumé : Optimal transportation (OT) problem is a powerful technique for aligning probability distributions that has recently found its application in various areas of machine learning including, for instance, computer vision, music unmixing and information retrieval.
    In this talk, I will present an algorithmic idea that we proposed in machine learning based on OT, that aims at discovering homogeneous groups of data objects and features by grouping them simultaneously. This approach uses the entropy regularized OT between empirical measures defined on data
    objects and features in order to obtain an estimated joint probability density function represented by the optimal coupling matrix.
    Following this work, I will introduce a novel unsupervised learning framework called rank-one co-clustering and show that several popular unsupervised algorithms can be seen as instances of this general framework, notably the algorithm for co-clustering based on entropy regularized optimal transport.
    The goal of this framework is to provide a new point of view for several unsupervised learning techniques that helps to gain a deeper understanding about the general mechanisms behind clustering.

    Lieu : Bat 1R1, Salle 106


  • Tuesday 26 June 2018 11:00-12:00 - Stéphane Gaiffas - LPSM Université Paris-Diderot

    Forêts aléatoires en ligne : borne de regret, vitesses de convergence optimales et aspects algorithmiques

    Résumé : Random Forest (RF) est l’un des algorithmes de choix dans de nombreuses applications d’apprentissage supervisé.
    L’attrait pour cette méthode vient d’une combinaison de plusieurs avantages: une précision remarquable dans une variété de tâches, quasiment aucun paramètre à régler et un temps de calcul et une scalabilité compétitive.
    Cependant, RF est un algorithme fondamentalement "batch", difficile à adapter dans un contexte "en ligne", ou les données arrivent séquentiellement, ou de façon équivalente lorsque l’on ne peut utiliser chaque point de donnée qu’une seule fois lors de l’entraînement de l’algorithme. Par ailleurs, l’analyse théorique des versions de RF les plus couramment utilisées est limitée.
    Dans cet exposé, nous présentons un algorithme de RF en ligne combinant des forêts de Mondrian et un algorithme d’aggrégation. Nous montrons qu’il est possible d’effectuer efficacement une agrégation de tous les sous-arbres, ce qui permet de construire un algorithme sans paramètre, réellement en ligne, et qui s’adapte à la régularité inconnue de la fonction de régression. Des expériences numériques montrent que notre algorithme est compétitif par rapport aux forêts aléatoires originales de Breiman dans un cadre en ligne.

    Lieu : Salle 106, Bat 1R1


  • Tuesday 18 September 2018 11:00-12:00 - Marc Lavielle - Inria Saclay et CMAP (Ecole Poytechnique)

    Tests d’hypothèse et algorithmes de construction de modèle pour les modèles à effets mixtes

    Résumé : Construire un modèle à effets mixte et le valider sont des tâches généralement difficiles et laborieuses pour le modélisateur. Il faut en effet trouver le "meilleur" modèle de covariables, c’est-à-dire identifier quelles covariables expliquent de façon significatives la variabilité de certains paramètres individuels, identifier le "meilleur" modèle de corrélation des effets aléatoires, ou encore trouver le "meilleur" modèle d’erreur résiduellle pour des données continues.
    Je présenterai une extension de l’algorithme EM qui permet de construire un modèle linéaire à effets mixtes en optimisant un critère de vraisemblance pénalisé (AIC, BIC) de façon itérative. Je présenterai également l’algorithme SAMBA (Stochastic Approximation for Model Building Algorithm), une extension de cette méthode pour les modèles non linéaires à effets mixtes.
    Une fois le modèle construit, il faut le valider, c’est-à-dire tester chacune des hypothèses faites sur le modèle (modèle de covariables, structure de corrélation des effets aléatoires, distribution des effets aléatoires, distribution des erreurs résiduelles…). Je montrerai qu’il est possible de construire des tests d’hypothèses sans biais en utilisant des statistiques de test basées sur les observations et sur les effets aléatoires simulés avec leurs lois conditionnelles.
    Ces méthodes de construction et validation de modèles à effets mixtes sont implémentées dans le package Rsmlx (http://rsmlx.webpopix.org/). Je les illustrerai par des applications en pharmacocinétique de population.

    Lieu : Bat 1R1, Salle 106


  • Tuesday 25 September 2018 11:00-12:00 - Grégory Nuel - Laboratoire de Probabilités, Statistique et Modélisation, Paris

    An Adaptive Ridge Procedure for L0 Regularization and Applications

    Résumé : We present here a recently published approach (Frommlet and N., 2016) which purpose is to perform L0-penalized maximization by iteratively solving a weight ridge problem. The approach is very similar in the spirit and method to the (multi-step) adaptive LASSO, with the noticeable difference that the ridge problem is generally much easier to solve than the lasso one. We illustrate the method on simple generalized linear models and then consider various more sophisticated applications: estimation of piecewise constant hazard model in survival analysis, irregular histograms, and image segmentation.

    Lieu : Bat 1R1, Salle 106


  • Tuesday 2 October 2018 -

    Journée des doctorants ESP

    Résumé : Programme prévisionnel (à permutation près à l’intérieur de chaque session):
    09h00 - 10h30 : BOULFANI Fériel, DIET Ambre, NGUYEN Phuong, ALBERTUS Mickael, VARVENNE Maylis
    10h30 - 11h00 : Pause café
    11h00 - 12h30 : PROD’HOMME Maxime, CHAMPION Camille, MONTEGUT Fabien, SARAZIN Gabriel
    12h30 - 14h00 : Buffet
    14h00 - 15h30 : STEINER Clément, HALFORD Max, OÇAFRAIN William, BUI Thi Thien Trang
    15h30 - 16h00 : Pause café
    16h00 - 17h30 : ARREDONDO SOTO Armando, LAWRENCE Eva, CASTIEL Eyal, MARTIN Jessica, RANDRIAMIHAMISON Nathanaël
    Programme détaillé: https://synapse.math.univ-toulouse.fr/s/DNgOyAQ2IOYs6WJ

    Lieu : Amphi Schwartz


  • Tuesday 9 October 2018 11:00-12:00 - Oleksandr Zadorozhnyi - Institüt für Mathematik, Potsdam Universität

    Concentration of weakly dependent Banach-valued sums with applications to statistical learning methods

    Résumé : We obtain a new Bernstein-type inequality for sums of
    Banach-valued random variables satisfying a weak dependence assumption
    of general type and under certain smoothness assumptions of the
    underlying Banach norm. We use this inequality in order to investigate
    in asymptotical regime the error upper bounds for the broad family of
    spectral regularization methods for reproducing kernel decision rules,
    when trained on a sample coming from a \tau-mixing process.
    https://arxiv.org/abs/1712.01934

    Lieu : Bat 1R1, Salle 106


  • Tuesday 16 October 2018 11:00-12:00 - Giovanni Migliorati - Laboratoire Jacques-Louis Lions - Sorbonne Université

    Approximation adaptative par moindres carrés pondérés en dimension élevée

    Résumé : Dans cet exposé, nous présentons quelques résultats sur la stabilité et l’erreur d’approximation de la méthode des moindres carrés pondérés, qui est utilisée pour approcher une fonction qui dépend d’un nombre arbitraire (potentiellement élevé) de paramètres. L’estimateur par moindres carrés pondérés est construit à partir d’évaluations de la fonction, et les points d’évaluation sont tirés au hasard en fonction d’une certaine mesure de probabilité. En dimension quelconque, quand le nombre d’évaluations est linéairement proportionnel (à un logarithme près) à la taille de l’espace d’approximation, l’estimateur est stable et donne une erreur d’approximation optimale. Ensuite, nous présenterons des résultats récents sur l’approximation adaptative par moindres carrés pondérés, et discuterons le développement des méthodes numériques adaptatives avec des espaces de polynômes et ondelettes.

    Lieu : Salle 106, Bat 1R1


  • Tuesday 23 October 2018 11:00-12:00 - Alix Rigal - Centre National de Recherches Météorologiques

    Evolution of daily Temperature due to global change

    Résumé : We consider the problem of estimating non-stationary temperature normals (the mean), at a daily timescale, which take into account deformations due to the global change of the annual cycle.
    In a second step, we consider not only the mean, but the whole distribution. Thus, we will present our methodological choices in a quantile regression framework to acquire the evolution of centiles throughout the 21st century.
    Although this technique provides a very convenient and powerful tool for studying changes in the distribution of a climate variable, this point of view raises issues that need to be addressed, such as quantile crossing.

    Lieu : Salle 106, Bat 1R1


  • 1 | 2 | 3 | 4 | 5

iCal