Introduction à bootstrap

Principe

Plusieurs questions liées à la distribution de $\widehat\theta$

Simuler suivant $F_\theta$ ou $f_\theta$

Exemple : supposons que $X \sim \mathcal N(\theta, 1)$ où $\theta = 2$

Une petite parenthèse : générateur de nombres aléatoires

La loi de base que l'on simule est la loi uniforme sur $[0, 1]$, un tel générateur est inclus dans tous les langages de programmation et dans tous les logiciels.

Inversion de la fonction de répartition

On veut générer des nombres aléatoires suivant une loi données par sa fonction de répartition $F$. Comment procéder ?

On va s'intéresser à la loi exponentielle $\mathcal E\big(\lambda\big)$ où $\lambda = 2$

Simuler une loi normale : Box-Muller

Soit, $U$ et $V$ deux variables aléatoires uniformes sur $[0, 1]$ indépendantes, les variables \begin{equation*} X = \cos(2\pi U) \sqrt{\big(-2 \log(V)\big)} \quad \text{et} \quad Y = \sin(2\pi U) \sqrt{\big(-2 \log(V)\big)} \end{equation*} sont indépendantes et suivent une loi normale $\mathcal N(0, 1)$.

Alternative : rééchantillonnage

$F_\theta$ est en général inconnue !

Le bootstrap consiste donc à faire une simulation à partir de la loi empirique $F_n$ observée (i.e. l'échantillon au lieu de la vraie loi $F_\theta$, qui est inconnue.

Courbe ROC

Le code suivant permet de tracer la courbe ROC associée à la régression logistique

  1. Écrire une fonction boot_threshold_auc(X, y, size) qui permet de produire size réplications bootstrap du seuil optimal et size réplications de l'aire sous la courbe ROC.

  2. Proposer un intervalle de confiance empirique de l'aire sous la courbe ROC