# Examen de Modélisation pour M1SID (2019-2020)

La partie TD avec des questions théoriques sera présentée à l'oral après le dépot. Les questions de TP requiérant un commentaire simple sont à donner dans le corps de ce fichier.

## Exercice I: Loi Gamma et modélisation d'orages

La loi Gamma de paramètres $\alpha>0$ et $\beta>0$, notée $\gamma(\alpha,\beta)$, admet pour densité la fonction
$$
f : x\in \mathbb{R} \longmapsto \frac{1}{\Gamma(\alpha)}\beta^{\alpha}x^{\alpha-1}e^{-\beta x}\,\mathbf{1}_{\{x>0\}}.
$$
Les deux premiers moments d'une variable aléatoire $Z$ de loi Gamma $\gamma(\alpha,\beta)$ valent $\mathbb{E}(Z)=\alpha/\beta$ et $\mathbb{E}(Z^{2})=\alpha(\alpha+1)/\beta^2$. Nous supposons que nous disposons d'un échantillon iid $(z_1, z_2, \dots, z_n)$ suivant cette loi.

Questions théoriques (TD):

1. Donner les estimateurs $\hat\alpha_{MM}$ et $\hat\beta_{MM}$ de $\alpha$ et $\beta$ obtenus par la méthode des moments. On présentera très succinctement le modèle paramétrique tel qu'indiqué sur [la page Wikipédia](https://fr.wikipedia.org/wiki/M%C3%A9thode_des_moments_(statistiques)).
2. Montrer que la (log-)vraisemblance de l'échantillon est $(z_1, z_2, \dots, z_n)$ est:
$$ \ell_{\alpha, \beta}(z_i)
 = n \alpha \log \beta - n \log \Gamma(\alpha)
   - \beta \left( \sum_{i=1}^n z_i \right)
   + (\alpha-1) \left( \sum_{i=1}^n \log z_i \right) \ .
$$
En déduire que les estimateurs du maximum de vraisemblance $\hat\alpha_{ML}$ et $\hat\beta_{ML}$ de $\alpha$ et $\beta$ satisfont:
$$ \hat\beta_{ML}
 = \hat\alpha_{ML} \frac{n}{\sum_{i=1}^n z_i} \ ,
$$
$$ \hat\alpha_{ML}
 = \textrm{Argmax}_{\alpha} \left[
   \alpha \log \alpha - \alpha - \log \Gamma(\alpha)
   + \alpha \log \left( \frac{n}{\sum_{i=1}^n z_i} \right)
   + (\alpha-1) \frac{\sum_{i=1}^n \log z_i}{n} \right] \ .
$$

Les lois Gamma sont utilisées pour modéliser une grande variété de phénomènes aléatoires, lorsque les variables mesurées sont positives (données de survie, données météorologiques, données financières, etc...). Dans cet exercice, les données étudiées sont des quantités d'eau de pluie (en $\textit{inches}$) mesurées lors de $n=223$ orages survenus dans l'état de l'Illinois entre 1960 et 1964 (publiées par Le Cam et Neyman en 1967). Ces données sont accessibles à travers [ce lien](https://www.math.univ-toulouse.fr/~rchhaibi/teaching/2019/M1SID/Orages.txt) et on pourra importer le fichier txt grâce à la commande $\texttt{numpy.loadtxt}$.

Questions pratiques  (TP):

3. Représenter les données à l'aide d'un histogramme normalisé avec 16 classes. 
4. Calculer la valeur de la moyenne empirique ? de la médiane empirique ? Pourquoi ces deux valeurs différent-elles autant ?
5. Calculer les valeurs des estimateurs  $\hat\alpha_{MM}$, $\hat\beta_{MM}$ obtenus par méthode des moments.
6. Calculer les valeurs des estimateurs, $\hat\alpha_{ML}$ et $\hat\beta_{ML}$. Pour ces derniers, on pourra utiliser les fonctions $\texttt{scipy.special.gamma}$ (fonction Gamma d'Euler) et $\texttt{scipy.optimize.minimize}\_\texttt{scalar}$. Attention  (minimise une fonction réelle ; la valeur de l'argmin est alors obtenu par $\texttt{minimize}\_\texttt{scalar(fun).x}$, avec $\texttt{fun}$ la fonction à minimiser).
7. Tracer sur un même graphique l'histogramme et la densité de la loi gamma de paramètres $\hat\alpha_{MM}$ et $\hat\beta_{MM}$. Faire de même avec la fonction de répartition empirique et la fonction de répartition de la loi gamma. La loi gamma ainsi ajustée est-elle un bon modèle pour la loi des données ?
8. Répéter la dernière question avec les estimateurs du maximum de vraisemblance.

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as scs
import scipy as sp

# Réponses à l'exercice 1
Orages = np.loadtxt('Orages.txt')

# Question 3: Histogramme

# Question 4: Moyenne et médiane empirique

# Commentaire: TODO

# Question 5: méthode des moments
amm=0 #Estimateur de alpha
bmm=0 #Estimateur de beta

# Question 6: maximum de vraisemblance
aml,bml = 0,0

# Question 7: tracés

# Question 8: tracés

## Exercice II: Risque d'estimateurs et borne de Cramér-Rao.

Soit $X_{1},\ldots,X_{n}$ un échantillon de loi $\mathcal{N}(\theta,\theta^2)$, où $\theta$ est un réel
strictement positif. La densité correspondante est notée $p_{\theta}(x)$.

Questions théoriques (TD):

1. Donner deux estimateurs "naturels" pour estimer le paramètre $\theta$.
2. Calculer la log-vraisemblance $l_{\theta}(x) = \ln p_\theta(x)$ associée aux observations pour le paramètre $\theta$ et en déduire que l'estimateur de maximum de vraisemblance $\hat{\theta}_{n}$ est défini par :
$$\hat{\theta}_{n}=-\frac{\overline{X_{n}}}{2}+\sqrt{\overline{X_n^2}+\frac{1}{4}\overline{X_{n}}^2}~,$$
où $\overline{X_{n}}=\frac{1}{n}\sum_{i=1}^{n}X_{i}$ et $\overline{X_n^2}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^2$
désignent respectivement la moyenne empirique et le moment empirique
d'ordre 2.
3. Montrer que l'estimateur $\hat{\theta}_{n}$ est consistant et asymptotiquement sans biais.

On rappelle que le $\textit{risque}$ d'un estimateur $\Theta_n$ de $\theta$ est la quantité
$$
R(\hat\theta_n,\theta) = \mathbb{E}[(\Theta_{n}-\theta)^2].
$$
On souhaite étudier numériquement le risque de l'estimateur $\hat{\theta}_{n}$ ainsi que des estimateurs de la première question.

Questions pratiques (TP):
4. Montrer qu'on peut se ramener à $\theta = 1$. On va supposer par la suite que $\theta = 1$.
5. Tracer $M=5$ réalisations de l'estimateur $\hat{\theta}_{n}$, pour $n=1,\ldots,1000$. Pourquoi cela illustre-t-il la consistance ?
6. Pour $n=2^3,\ldots,2^{10}$, simuler $M=1000$ réalisations de l'estimateur $\hat{\theta}_{n}$, puis estimer $R(\hat\theta_n,\theta)$ par la moyenne empirique de $(\hat\theta_n-\theta)^2$ ; on obtient alors une valeur estimée $\hat R_n$. Tracer $n\hat R_n$ en fonction de $n$ (on pourra mettre l'abscisse en échelle logarithmique). Faire de même pour les estimateurs de la première question et superposer les tracés.
7. En vue des résultats de la dernière question, comparer les estimateurs.

In [2]:
# Question 4

# Réponse: TODO

# Question 5

# Question 6:

# Question 7:

# Réponse: TODO

Questions avancées (TD et TP) :
Notons $\dot{l_{\theta}}(x)=\frac{\partial}{\partial\theta} l_{\theta}(x)$. Cette quantité s'appelle {\textit{fonction score}} pour l'estimation de $\theta$. On note aussi
$I_{\theta}=\mathbb{E}[(\dot{l_{\theta}}(X))^2]$, où $X$ suit la loi $\mathcal{N}(\theta,\theta^2)$. Cette
quantité est l'{\em information de Fisher} associée au modèle au point $\theta$. 
La \emph{borne de Cramér-Rao} stipule que le risque d'un estimateur non-biaisé $\Theta_n = \Theta_n(X_1,\ldots,X_n)$ de $\theta$ admet la borne inférieure suivante:
$$
R(\hat\theta_n,\theta) \ge \frac{1}{n I_\theta}.
$$

8. (TD) Montrer que $I_\theta = 3/\theta^2$.
9. (TP) Déduire des calculs numériques (Question 6) que l'estimateur $\hat\theta_n$ atteint asymptotiquement la borne de Cramér-Rao, c'est-à-dire que son risque vaut asymptotiquement
$$
R(\hat\theta_n,\theta) = \mathbb{E}[(\hat{\theta}_{n}-\theta)^2] \sim \frac{1}{n I_\theta},\quad n\to\infty.
$$
10. (TP) On soupçonne que $\sqrt{n I_\theta}(\hat\theta_n-\theta)$ converge en loi vers la loi normale standard quand $n\to\infty$. Illustrer ce fait numériquement.
11. (TD) Déduire de la dernière question un intervalle de confiance asymptotique de niveau de confiance $1-\alpha$ pour $\theta$.
12. (TP) Calculer l'intervalle de confiance en Python. Faire 10 essais et compter le nombre de fois que $\theta$ est inclus dans l'intervalle de confiance (avec $\alpha=0.2$, par exemple).

In [3]:
# Question 9: Risque asymptotiques numériquement

# Question 10: 

# Question 11:

# Question 12:


Pour continuer (optionnel):
- Démontrer l'asymptotique de $R(\hat\theta_n,\theta)$ ainsi que la limite en loi de la question 10.
- Etudier (théoriquement et/ou num\'eriquement) les risques des estimateurs de l'Exercice 1.
- Essayer de démontrer la borne de Cramér-Rao.