Journée ``Modèles à arbres de contexte'' à l'ENST

organisée par Aurélien Garivier et Eric Moulines

Lundi 19 novembre 2007

Ecole Nationale Supérieure des Télécommunications, site Dareau (plan d'accès) en salle DB 312.

Depuis leur introduction par Rissanen en 1983 dans le champ de la théorie de l'information, les modèles à arbre de contextes (ou VLMC, pour Variable Length Markov Chains) ont suscité un intérêt constant d'un point de vue tant pratique que théorique. Ces modèles présentent en effet un double intérêt particulièrement remarquable : comme généralisation des chaînes de Markov, ils héritent de leur pouvoir d'approximation de tout processus stationnaire ergodique et leur gestion tant algorithmique que théorique est très efficace (cf. les procédés de simulation exacte présentés par Antonio Galves); en autorisant l'ordre markovien à dépendre du passé, ils prennent en compte l'inhomogénéité de la mémoire et proposent bien plus de modèles pour le même nombre de paramètres.

On comprend dès lors leur puissance tant pour la compression données (Aurélien Garivier parlera de l'algorithme Context Tree Weighting) que pour le traitement des séquences biologiques (cf. les exposés de Bernard Prum et Pierre-Yves Bourguignon) ou la classification de textes (via les méthodes à noyau, cf. les travaux de Jean-Philippe Vert). En ce qui concerne en particulier l'estimation de la structure de mémoire d'un processus, l'étude de convergence asymptotique entamée par Rissanen de l'algorithme ``Context'' est depuis peu complétée par d'importants travaux sur les vitesses de convergence (cf. les exposés de Florencia Leonardi et Véronique Maume-Deschamps) aboutissant à l'obtention de bornes exponentielles.

Programme de la journée :

09h30: Aurélien Garivier (CNRS, ENST)
Redondance de l'algorithme CTW sur les processus de renouvellement
10h30: Antonio Galves (Instituto de Matemática e Estatística - Universidade de São Paulo)
Schéma régénératif visible et simulation parfaite des chaînes stochastiques à mémoire de longueur variable
11h30: Bernard Prum (Genopole Evry)
L'emploi des modèles de contexte dans l'analyse des séquences biologiques
14h00: Véronique Maume-Deschamps (ISFA - Université Lyon 1)
Inégalités exponentielles pour les arbres empiriques de VLMC
15h00: Jean-Philippe Vert (Mines de Paris)
Noyaux pour séquences avec Context Tree Weighting.
16h00: Pierre-Yves Bourguigon (CEA - Institut des Sciences Génomiques) : arbres de contexte parcimonieux
17h00: Florencia Leonardi (Instituto de Matemática e Estatística - Universidade de São Paulo)
On the rate of convergence of penalized likelihood context trees estimators (en anglais)

Exposés de 45 minutes en français suivis de discussions informelles. Table ronde sur les perspectives de recherche à partir de 17h30.

Aurelien Garivier 2007-11-08