Les mini-révolutions dans le domaine de la technologie de l'ADN ont débuté il y a environ 45 ans avec la structure de la double hélice par l'emploi des rayons X. Depuis lors, plusieurs progrès technologiques incluant la technologie de séquençage et la réaction en chaîne par l'ADN polymérase (PCR) ont généré toujours plus d'enthousiasme et d'excitation tant au niveau fondamental que dans l'application de ces technologies au service de l'homme. A l'aube du 21eme siècle, se présente un autre prodigieux saut technologique illustré par la puce à ADN qui apparaît consécutivement au décryptage de génomes entiers. L'idée conceptuelle de la puce à ADN est en réalité très simple. Il s'agit du greffage sur une surface fonctionnalisée de quelques centimètres carrés de fragments d'ADN de taille variable ou d'oligonucléotides (appelé sondes) discrètement espacés de quelques micromètres. Ce micro-dispositif est ensuite mis au contact d'autres fragments d'acides nucléiques (dénommés cibles), au préalable marqués radio-activement ou par un fluorochrome. Ce contact entre cibles et sondes conduit à la formation par hybridation d'hétéroduplexes selon la règle d'appariement de Watson et Crick. La détection des hybridations (capture des signaux radioactifs ou fluorescents) génère des milliers de données qui sont enregistrées collectivement. Le traitement, l'archivage et l'interprétation font appel à des programmes de traitement d'image, d'analyse statistique et bi-informatiques spécifiques. La relative complexité cette technologie est source de nombreux artéfacts, qu'il s'agit de tracquer et de quantifier.
Notre propos est de décrire sommairement les différentes étapes technologiques conduisant à la fabrication de la puce à ADN (la bio-chip) en identifiant les points critiques de cette technique qui font l'objet de développements technologiques et d'efforts structurels pour rendre leur utilisation plus simple, plus fiable et plus accessible (tant techniquement que financièrement) à tout laboratoire de recherche public. D'autre part, nous décrirons les activités de production de 'puce à ADN' et de développement pour la normalisation et les traitements statistiques actuellement disponibles pour nos utilisateurs. Enfin, a titre d'exemple d'utilisation des biopuces, nous présenterons une étude récente de l'influence des variations génétiques naturelles sur l'expression des gènes. Les biopuces ont en effet permis de suivre à la fois la transmission de régions chromosomiques et celle de niveaux d'expression dans un croisement de deux souches de levure, permettant ainsi d'identifier des regulateurs transcriptionnels.
Les données issues du transcriptome et en particulier
les cDNA microarrays, sont fortement bruitées. Dans cet exposé, il ne
sera question que des cDNA microarrays et pas des membranes ni des
oligo-microarrays qui posent des problèmes assez différents. Pour
extraire le signal du bruit il est nécessaire de comprendre le mieux
possible la structure de ce dernier. Les sources peuvent être rangées
en plusieurs catégories : erreur de mesure comprenant des effets
mécaniques, optiques et biologiques et erreur expérimentale proprement
dite, de nature biologique. Cette analyse des sources de variabilité
est utile pour la construction du dispositif expérimental et pour
l'analyse statistique des données. Dans cet exposé on détaillera les
dispositifs expérimentaux les plus utilisés et les méthodes de
normalisation. Certains effets systématiques sont plus ou moins bien
corrigés par l'étape de normalisation. Après la normalisation il reste
à modéliser la variabilité aléatoire pour construire une
statistique "réduite" par gène qui sert de base pour les étapes
suivantes : détection des gènes différentiellement exprimés,
clustering et classification supervisée.
Mots-clés : cDNA microarray, bruit de fond, dye-swap, loess,
normalisation, plans d'expériences, spotting effect, statistiques de
type student
Références :
Les puces à ADN permettent d'étudier parallèlement l'expression de plusieurs milliers de gènes. De très nombreuses sondes moléculaires sous la forme de produits de PCR sont fixées sur une surface de quelques centimètres carrés par des pointes métalliques équivalentes à des micro-pipettes (spotter). Ces sondes correspondent à un panel de gènes dont on veut analyser le niveau d'expression dans des situations biologiques données. Deux populations de cibles venant de deux situations biologiques différentes, sous la forme d'ADNc, vont être couplées à des fluorochromes différents (classiquement rouge et vert). Les deux populations de cibles étant déposées en même temps sur la puce, elles rentrent en compétition pour s'hybrider avec les différentes sondes. L'expression d'un gène dans une situation donnée est donc en corrélation directe avec la quantité de fluorochrome présent sur le spot correspondant.
A partir de données normalisées, les méthodes classiques sont fondées sur une modélisation stochastique des niveaux d'expression des fluorochromes et diffèrent surtout sur la nature des hypothèses probabilistes faites sur la loi du couple de couleurs. Ces méthodes permettent de décider si un gène particulier est (sur ou sous-) exprimé. Pour chacune de ces méthodes et pour chaque lame comprenant des milliers de gènes, le nombre de comparaisons effectuées est très grand, avec des chances très élevées de décider à tort qu'un gène est différentiellement exprimé (faux positif).
Notre approche est sensiblement différente : nous recherchons le plus grand ensemble de gènes non différentiellement exprimé. Pour cela nous utilisons une procédure séquentielle (sur le nombre de gènes). Par analogie avec l'analyse de variance, à chaque étape, nous utilisons une statistique qui correspond à la somme des contributions de chacun des gènes. Cette statistique est de la forme Tk=3D\sum_i^kZi où Zi correspond à la contribution du gène i à la statistique. La première étape consiste donc à tester l'hypothèse nulle qu'aucun gène n'est différentiellement exprimé. Si cette hypothèse est rejetée, on soustrait le plus grand des Zi et nous proposons un test de l'hypothèse qu'aucun gène sauf un (celui correspondant au plus grand des Zi) n'est différentiellement exprimé. On continue la procédure jusqu'au moment où l'hypothèse nulle testée n'est pas rejetée. L'étape k consiste donc à tester qu'aucun gène sauf les k qui contribuent le plus à la statistique Tk n'est différentiellement exprimé.
Les propriétés statistiques (niveau global exact, FDR) et leurs implications pratiques seront présentées et illustrées sur un jeu de données classiques.
L'analyse des données de Biopuces par des méthodes de classification des gènes (non supervisée dans ce qui suivra et même souvent hiérarchique ascendante) jouit d'une grande popularité auprès des biologistes. Nous allons nous attacher à expliciter certaines raisons de cette popularité, discuterons de l'adéquation de ces méthodes aux questions posées, signalerons certains écueils spécifiques à ces données, et présenterons des résultats obtenus sur données réelles.
Pourquoi les approches de classification
rencontrent un tel succès :
La popularité des approches de
classification pour l'étude des données d'expression tient d'une part
à la familiarité des biologistes moléculaires avec les représentations
en arbres, et d'autre part à l'apparente facilité de mise-en-oeuvre de
ces approches.
Les théories évolutionnistes ont conduit rapidement les biologistes moléculaires à représenter l'arbre de la vie. Avec les arbres de classification les biologistes se sentent donc en terrain connu. D'autre part le papier fondateur de Eisen et la suite logicielle, si aisée d'usage, qu'il propose, font de la classification hiérarchique une méthode incontournable du domaine.
Quelles sont les questions posées ?
En
première approche, lorsqu'on reçoit d'un biologiste les données
d'expression qu'il vient de produire, ce que l'on recherche c'est
``tout''.
Gènes candidats
Par la suite, il apparaît
que la recherche de gènes-candidats est l'une de ses
motivations. Cette recherche peut reposer sur une question comme
``quels sont les gènes activés (inactivés) dans mes expériences ?
''. L'approche classification semble alors peu efficace.
La recherche de gènes-candidats peut être autrement formulée : ``quels sont les gènes qui se comportent comme ce groupe là que je connais ?'' , `` quels sont les groupes, et examinons si certains gènes connus se rassemblent''. Les méthodes de classification sont alors adéquates.
Gènes co-régulés
La question là, est très
proche de la question précitée ``quels sont les groupes, et
examinons si certains gènes connus se rassemblent'', mais
ici on ne s'intéressera plus uniquement aux groupes dans lesquels on
connaît un ou plusieurs gènes.
La recherche de gènes co-régulés implique tout d'abord de bien définir ce qu'on entend par ``co-régulés''. En particulier il s'agit de préciser si l'on veut tenir compte du niveau absolu d'expression ou seulement du niveau relatif, et si des mouvements inverses doivent être considérés comme des produits de co-régulations. Ces questions vont se trouver au centre des problématiques de reconstruction des réseaux de régulation.
Quelques écueils
Les données
manquantes
Pour qui se propose d'expérimenter les méthodes de
classification sur des données réelles, deux sources sont possibles :
Soit se tourner vers des collègues biologistes, soit se tourner vers
le web, en particulier vers le site de Stanford.
Si les données de Stanford sont immédiates d'accès, assez fournies et très étudiées, elles ne sont pas très documentées par ceux-là même qui les ont produites et mises à disposition. A l'opposé, les questions sur les données produites par des collègues sont assurées de trouver une réponse sincère et rapide.
Cette différence de statut va influer considérablement sur le traitement des données manquantes ou aberrantes. En effet, s'il est possible d'adapter les algorithmes pour ne pas tenir compte des manquants ou des points aberrants dans le cas des données du web, les biologistes ne sont pas toujours prêts à perdre une valeur qui leur paraît importante et pour laquelle une information qualitative est disponible.
Risques dimensionnels
L'interprétation
des résultats doit tenir compte de la forme particulière du tableau de
données (très étiré dans une direction), et ce d'autant plus que les
colonnes ne sont aucunement indépendantes.
Présentation des résultats
Si les
biologistes sont familiers de la représentation en arbres, ils le sont
moins de l'idée de partition. Aussi, vont ils avoir tendance à
percevoir le résultat d'une classification comme quelque chose qui
ressemble à un ordre sur les gènes. Il est donc nécessaire,
tout-à-la-fois de faire un travail pédagogique sur les interprétations
que l'on peut faire d'une classification mais aussi de prendre garde,
lorsque cela est numériquement possible, à la manière dont les noeuds
sont orientés lors de la représentation finale.
Les résultats Les résultats ne sont que des produits intermédiaires d'une chaîne de traitement. Aussi le seul moyen de les valider est la satisfaction du biologiste. Certains résultats validés de cette manière seront présentés.
Les puces à ADN nous renseignent sur le niveau d'expression de l'ensemble des gènes en mesurant les quantités d'ARN messagers respectives. L'un des objectifs de l'analyse des données d'expression est de classer les profils en fonction de leur différence d'expression selon certains facteurs biologiques. Mais les méthodes classiques de classification se heurtent à la grande variabilité des données. Cette variabilité est telle que les biologistes reproduisent les expériences de manière à obtenir des données répétées. Actuellement, les approches de classification utilisées pour ces analyses ne tiennent pas compte de cette variabilité et n'utilisent pas l'information contenue dans les répétitions. Nous avons conçu un modèle de classification tirant partie de cette information.
Tout d'abord, nous interprétons les mesures associées à un gène comme les réalisations d'un modèle mixte [1] témoignant de la variabilité. Dans ce contexte, la classification est modélisée par un mélange [2] de modèles linéaires mixtes. Plus précisément, considérant le gène comme l'unité statistique à classer, ses différentes mesures de niveaux d'expression sont des réalisations d'un modèle linéaire mixte. La problématique est alors d'estimer l'ensemble des paramètres d'un mélange de modèles mixtes où chaque composant correspond à un modèle linéaire mixte différent.
Dans cette présentation, nous détaillerons comment
les modèles mixtes et les modèles de mélange sont combinés, ainsi que
l'estimation des paramètres de ce type de modèle par le maximum de
vraisemblance via l'algorithme EM. Suivant les hypothèses faites sur
les effets aléatoires et sur la complexité du mélange, plusieurs
modèles seront mis en compétition.
Références :
Pratiquement toutes les réactions chimiques qui permettent à un organisme ou une cellule de se maintenir dans un état vivant, se reproduire, communiquer ou résister à des variations dans son environnement, sont catalysées par des enzymes, c'est-à-dire des molécules (protéines) synthétisées par l'organisme lui-même. L'activité biochimique d'une cellule à un instant et dans des conditions données est donc controlée de manière très précise par la quantité d'enzymes disponibles, ce qui fournit un moyen à la cellule de l'ajuster en contrôlant la synthèse et la dégradation des enzymes. Les enzymes étant des protéines synthétisées par traduction d'ARN messager, une manière de réguler leurs concentrations consiste à réguler l'expression des gènes correspondant, c'est-à-dire la quantité des ARN correspondants.
La technique des puces à ADN fournit une estimation de la concentration d'un grand nombre d'ARN d'un génome à un instant donné. En ne regardant que les ARN qui codent des enzymes, il est donc possible d'observer la régulation des quantités d'enzyme au niveau de la transcription.
Indépendamment, un grand nombre de réactions chimiques ayant lieu dans les cellules vivantes ont été mises en évidence au cours du 20e siècle. Les réactions chimiques faisant partie du métabolisme (synthèse ou dégradation de molécules) sont généralement arrangées en voies métaboliques, c'est-à-dire en successions de plusieurs réactions permettant de passer d'un composé A à un composé B en plusieurs étapes. Par exemple, le cycle de Krebs est une voie métabolique permettant de transformer de l'acétate en bicarbonate via une dizaine de réactions chimiques catalysées par autant d'enzymes. L'ensemble des voies métaboliques connues, ainsi que les enzymes servant de catalyseurs, ont été intégrés dans des bases de données telles KEGG (Kanehisa et al., 2002).
Lorsqu'une voie métabolique telle le cycle de Krebs est activée, la cellule doit s'assurer que la dizaine d'enzymes qui catalysent les réactions successives sont présentes simultanément. Il est donc vraisemblable que les gènes correspondant soient co-régulés, et que leurs profiles d'expression révèlent l'activité de la voie métabolique sous-jaçantes.
Nous présentons une méthode pour vérifier cette hypothèse et fournir un outil permettant d'observer l'activité des voies métaboliques à partir de données de puces à ADN. Etant donnée une série de mesures d'expressions de gènes par puces à ADN, chaque enzyme est caractérisée par un profil d'expression. Parallèlement, chaque enzyme catalyse une ou plusieurs réactions dans les voies métaboliques connues. Ces voies métaboliques peuvent être représentées comme des chemins sur un graphe dont les noeuds sont les enzymes, et les arètes des composés chimiques; ainsi, deux enzymes sont liées si elles catalysent deux réactions chimiques dont le produit de l'une est le substrat de l'autre. La méthode que nous proposons vise à détecter une forme de corrélation entre les enzymes vues comme des profiles d'expression d'une part, et des noeuds d'un graphe d'autre part. Typiquement, nous voudrions détecter le fait que les profiles d'expression des gènes qui catalysent une voie métabolique (et forment donc un chemin connexe sur le graphe) sont corrélés avec l'activité de la voie métabolique (elle-même inobservable directement).
Intuitivement, notre méthode fonctionne de la manière suivante. Pour un profil candidat censé représenter l'activité d'une voie métabolique, le coefficient de corrélation entre ce candidat et le profil d'expression de chaque gène est calculé. Les nombres obtenus (entre -1 et +1) sont ensuite projetés sur le graphe de gènes représentant les voies métaboliques, et la régularité de ces nombres par rapport à la structure du graphe est étudiée. Notre intuition étant qu'un bon profil candidat sera corrélé avec les profils d'expression de plusieurs gènes proches les uns des autres sur le graphe, la régularité de la fonction de corrélation sur le graphe via un calcul de sa transformée de Fourier discrète permet de quantifier si un profil est un bon candidat ou non. Via cette quantification, il est alors possible de rechercher les ``meilleurs'' profils candidats, et ensuite de vérifier dans quels régions du graphe ils semblent particulièrement corrélés avec les expression des gènes pour identifier les voies métaboliques concernées.
Plus techniquement, l'algorithme que nous présentons permet de directement calculer les meilleurs profils candidats. Cet algorithme repose sur le formalisme des méthodes à noyau (Schölkopf and Smola, 2002), grâce auquel on peut montrer que les meilleurs profils candidats peuvent être obtenus par une forme généralisée d'analyse de corrélation canonique entre les gènes projetés dans deux espaces de Hilbert auto-reproduisants (Bach and Jordan, 2002), définis par un noyau de diffusion sur le graphe (Kondor and Lafferty, 2002) d'une part, et un noyau linéaire sur les profiles d'expression d'autre part. Plus de détails sont disponibles dans (Vert and Kanehisa, 2003).
Nous illustrerons la méthode par une analyse de
données publiques d'expression des gènes de la levure
S. Cerevisia lors de cycles cellulaires.
Références :