Convergence de variables aléatoires

Dans la théorie des probabilités, il existe différentes notions de convergence de variables aléatoires. La convergence (dans un des sens décrits ci-dessous) de suites de variables aléatoires est un concept important de la théorie des probabilités utilisé notamment en statistique et dans l'étude des processus stochastiques. Par exemple, la moyenne de $n$ variables aléatoires indépendantes et identiquement distribuées converge presque sûrement vers l'espérance commune de ces variables aléatoires (si celle-ci existe). Ce résultat est connu sous le nom de loi forte des grands nombres.

Dans cet article, on suppose que $(X n)$ est une suite de variables aléatoires réelles, que $X$ est une variable aléatoire réelle, et que toutes ces variables sont définies sur un même espace probabilisé $(\Omega ,{\mathcal {F}},\mathbb {P} )$ . D'éventuelles généralisations seront discutées.

Les différents modes de convergence

Il existe plusieurs notions de convergence de variables aléatoires. Elles ont toutes en commun le fait qu'elles sont insensibles face à d'éventuelles modifications négligeables des variables aléatoires. Plus précisément, si $(X_{n})$ converge vers $X$ (selon n'importe lequel des sens ci-dessous) et si $Y,Y_{1},Y_{2},\dots$ sont d'autres variables aléatoires telles que $\mathbb {P} (Y_{n}=X_{n})=1$ pour tout $n$ et $\mathbb {P} (Y=X)=1$ , alors $(Y_{n})$ converge aussi vers $Y$ .

Convergence essentiellement uniforme (ou L^∞)

Rappelons qu'une variable aléatoire réelle $Y$ est dite essentiellement bornée s'il existe un nombre $M>0$ , appelé borne essentielle, tel que $\mathbb {P} (|Y|\leq M)=1$ . Dans ce cas on définit $||Y||_{L^{\infty }}$ comme la borne inférieure de l'ensemble des bornes essentielles de $Y$ .

Définition (convergence essentiellement uniforme) — On dit que ( $X n$ ) converge vers $X$ essentiellement uniformément, ou encore en norme L^∞ si, pour tout n, $X n$ et $X$ sont essentiellement bornées et si

\lim _{n\rightarrow \infty }||X_{n}-X||_{L^{\infty }}=0

Dans ce cas on note $X_{n}\xrightarrow {L^{\infty }} X$ .

Remarques :

Le fait que $X_{n}$ et $X$ soient essentiellement bornées implique que $X_{n}-X$ l'est aussi. Ainsi la quantité $||X_{n}-X||_{L^{\infty }}$ est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur $(\Omega ,{\mathcal {F}},\mathbb {P} )$ essentiellement bornées est un espace vectoriel réel pour lequel la fonction $||\cdot ||_{L^{\infty }}$ est une semi-norme. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient, $||\cdot ||_{L^{\infty }}$ induit une norme.

Par abus de langage on parle parfois de « convergence uniforme » au lieu de « convergence essentiellement uniforme ». Cependant il ne faut pas s'y tromper, la notion de convergence donnée ci-dessus est plus faible que la convergence uniforme au sens strict. En effet, il se pourrait que les variables $X_{n}-X$ soient toutes essentiellement bornées mais non bornées au sens strict auquel cas la convergence uniforme au sens strict n'aurait pas de sens. La raison pour laquelle on considère la convergence essentiellement uniforme plutôt que la convergence uniforme au sens strict et celle donnée plus haut : on veut que la convergence soit insensible face aux modifications négligeables des variables aléatoires. Ce ne serait pas le cas si on prenait la convergence uniforme au sens strict. Donnons un exemple concret : prenons $\Omega =\{0,1\}$ muni de la tribu ${\mathcal {F}}=\{\emptyset ,\{0\},\{1\},\Omega \}$ et de la probabilité définie par $\mathbb {P} (\{0\})=0$ et $\mathbb {P} (\{1\})=1$ . Prenons les variables définies par $X(0)=0$ , $X(1)=1$ , $X_{n}(0)=n$ et $X_{n}(1)=1+1/n$ pour tout n. Il est clair que $(X_{n})$ ne converge pas uniformément vers $X$ au sens strict puisque pour tout n, $\sup _{\Omega }|X_{n}-X|=n$ . En revanche $(X_{n})$ converge essentiellement uniformément vers $X$ puisque pour tout n, $||X_{n}-X||_{L^{\infty }}=1/n$ .
Si $(X_{n})$ converge essentiellement uniformément vers $X$ alors il existe un évènement $E$ de probabilité 1 tel que, restreint à $E$ , $(X_{n})$ converge uniformément vers $X$ au sens strict. Plus précisément, $\sup _{\Omega }|\mathbf {1} _{E}X_{n}-\mathbf {1} _{E}X|$ tend vers 0, où $\mathbf {1} _{E}$ est la variable aléatoire qui vaut 1 sur $E$ et 0 ailleurs (elle est donc presque-sûrement égale à 1).
La convergence essentiellement uniforme se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.

Convergence en moyenne d'ordre p (ou L^p)

Rappelons qu'une variable aléatoire réelle $Y$ est dite avoir un moment d'ordre p > 0 fini si $\mathbb {E} (|Y|^{p})<+\infty$ . Dans ce cas on définit $||Y||_{L^{p}}:=\mathbb {E} (|Y|^{p})^{1/p}$ .

Définition (convergence en moyenne d'ordre p) — Soit $p > 0$ . On dit que ( $X n$ ) converge vers $X$ en moyenne d'ordre p ou encore en norme L^p si, pour tout $n$ , $X n$ et $X$ ont un moment d'ordre p fini et si

\lim _{n\rightarrow \infty }\vert \vert X_{n}-X\vert \vert _{L^{p}}=0

ou de manière équivalente, si

\lim _{n\rightarrow \infty }\mathbb {E} \left[\vert X_{n}-X\vert ^{p}\right]^{\frac {1}{p}}=0

.

Dans ce cas on note $X_{n}\xrightarrow {L^{p}} X$ .

Remarques :

Le fait que $X_{n}$ et $X$ aient un moment d'ordre p fini implique que $X_{n}-X$ aussi (pour p ≥ 1 cela est une conséquence de l'inégalité de Minkowski). Ainsi la quantité $||X_{n}-X||_{L^{p}}$ est bien définie. Plus précisément l'ensemble des variables aléatoires réelles définies sur $(\Omega ,{\mathcal {F}},\mathbb {P} )$ ayant un moment d'ordre p fini est un espace vectoriel réel pour lequel la fonction $||\cdot ||_{L^{p}}$ est une semi-norme, quand p ≥ 1, et est une semi-quasi-norme, quand 0 < p < 1. Attention ce n'est pas une norme, en général on quotiente par le sous-espace des variables aléatoires presque-sûrement nulles. Sur cet espace quotient, $||\cdot ||_{L^{p}}$ induit une norme quand p ≥ 1 et induit une quasi-norme quand 0 < p < 1.
Pour p = 1, on parle simplement de convergence en moyenne et pour p = 2 de convergence en moyenne quadratique.

La convergence en moyenne d'ordre p se généralise à des variables aléatoires à valeurs dans un espace vectoriel normé muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré.

Pour r =2, on a le résultat suivant :

Propriété — Soit $c$ une constante réelle. On a alors

X_{n}{\xrightarrow {\mathbb {L} ^{2}}}c

si et seulement si

\lim _{n\to \infty }\mathbb {E} [X_{n}]=c\qquad {\text{et}}\qquad \lim _{n\to \infty }\operatorname {Var} [X_{n}]=0

Démonstration

Cela découle l'identité suivante :

\mathbb {E} \left[(X_{n}-c)^{2}\right]=\operatorname {Var} (X_{n})+\left(\mathbb {E} [X_{n}]-c\right)^{2}

Convergence presque sûre

On rappelle qu'un ensemble négligeable de l'espace probabilisé $(\Omega ,{\mathcal {F}},\mathbb {P} )$ est un sous-ensemble $N\subset \Omega$ tel qu'il existe $A\in {\mathcal {F}}$ vérifiant $\mathbb {P} (A)=0$ et $N\subset A$ . Autrement dit, un ensemble négligeable est un sous-ensemble de $\Omega$ inclus dans un ensemble de probabilité nulle.

Définition (convergence presque sûre) — On dit que ( $X n$ ) converge presque sûrement vers $X$ si

\mathbb {P} \left(\lim _{n\rightarrow \infty }X_{n}=X\right)=1

ou de manière équivalente, s'il existe un ensemble négligeable $N \subset Ω$ tel que

\forall \omega \in \Omega \setminus N,\qquad X_{n}(\omega ){\xrightarrow[{n\to \infty }]{}}X(\omega )

Dans ce cas on note $X_{n}{\xrightarrow {p.s.}}X$ .

Remarques :

L'ensemble $\{\lim _{n\to \infty }X_{n}=X\}=\{\omega \in \Omega \,|\,\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\}$ appartient bien à la tribu ${\mathcal {F}}$ , donc sa probabilité est bien définie. En effet cela peut se voir en écrivant $\{\lim _{n\to \infty }X_{n}=X\}=\bigcap _{m\geq 1}\bigcup _{N\geq 1}\bigcap _{n\geq N}\{|X_{n}-X|\leq 1/m\}$ et en utilisant les propriétés de stabilité d'une tribu.

La convergence presque sûre est équivalente à la condition :

\forall \varepsilon >0,\qquad \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1

ainsi qu'à la condition :

\forall \varepsilon >0,\qquad \mathbb {P} \left(\limsup _{n}\{|X_{n}-X|>\varepsilon \}\right)=0

où ces limites inférieure et supérieure de suites d'ensembles sont définies par

\liminf _{n}\{|X_{n}-X|<\varepsilon \}:=\bigcup _{N\in \mathbb {N} }\bigcap _{n\geq N}\{|X_{n}-X|<\varepsilon \}=\{|X_{n}-X|<\varepsilon \ \mathrm {{\grave {a}}\ partir\ d'un\ certain\ rang} \}

et

\limsup _{n}\{|X_{n}-X|>\varepsilon \}:=\bigcap _{N\in \mathbb {N} }\bigcup _{n\geq N}\{|X_{n}-X|>\varepsilon \}=\{|X_{n}-X|>\varepsilon \ \mathrm {infiniment\ souvent} \}

.

La convergence presque sûre est utilisée dans la loi forte des grands nombres.
La convergence presque sûre se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence presque partout.

Convergence en probabilité

Définition (convergence en probabilité) — On dit que ( $X n$ ) converge vers $X$ en probabilité si

\forall \varepsilon >0,\qquad \lim _{n\rightarrow \infty }\mathbb {P} \left(\left|X_{n}-X\right|\geq \varepsilon \right)=0.

Dans ce cas on note $X_{n}{\xrightarrow {\mathbb {P} }}X$ .

Remarques :

La convergence en probabilité se généralise à des variables aléatoires à valeurs dans un espace métrique muni de sa tribu borélienne. Dans ce cas il faut remplacer $|X_{n}-X|$ par $d(X_{n},X)$ dans la définition, où $d$ désigne la distance. Il est même possible de généraliser cette notion de convergence à des fonctions mesurables sur un espace mesuré, on parle alors de convergence en mesure.

Convergence en loi

Article détaillé : Convergence en loi.

Définition (convergence en loi) — On dit que ( $X n$ ) converge vers $X$ en loi si pour toute fonction $f$ à valeurs réelles, continue et bornée

\lim _{n\rightarrow \infty }\mathbb {E} \left[f(X_{n})\right]=\mathbb {E} \left[f(X)\right].

Dans ce cas on note $X_{n}\xrightarrow {\mathcal {L}} X$ ou encore $X_{n}\Rightarrow X$ .

Remarques :

Le fait que $f$ soit continue nous assure qu'elle est mesurable, donc par composition, $f(X_{n})$ et $f(X)$ aussi. De plus, le fait que $f$ soit bornée implique que $f(X_{n})$ et $f(X)$ sont aussi bornées. Ainsi les quantités $\mathbb {E} \left[f(X_{n})\right]$ et $\mathbb {E} \left[f(X)\right]$ sont bien définies.
Dans le cas de variables aléatoires à valeurs entières, la convergence en loi est équivalente à :

\lim _{n\rightarrow \infty }\mathbb {P} (X_{n}=m)=\mathbb {P} (X=m),

pour tout entier

m

.

Dans le cas de variables aléatoires à valeurs réelles, il existe un critère de convergence en loi important faisant appel aux fonctions de répartition. Plus précisément, soient $F 1, F 2, ...$ la suite des fonctions de répartition associées aux variables aléatoires réelles $X 1, X 2, ...$ et $F$ la fonction de répartition de la variable aléatoire réelle $X$ . Autrement dit, $F n$ est définie par $F n (x) = P(X n \leq x)$ , et $F$ par $F (x) = P(X \leq x)$ . La suite ( $X n$ ) converge vers $X$ en loi si et seulement si

\lim _{n\rightarrow \infty }F_{n}(a)=F(a),

pour tout réel

a

où

F

est continue.

Puisque

F (a) = P(X \leq a)

, cela signifie que la probabilité que

X

appartienne à un certain intervalle est très proche de la probabilité que

X n

soit dans cet intervalle pour

n

suffisamment grand.

Un autre résultat important donnant des critères équivalents de convergence en loi est le théorème porte-manteau.
Le théorème de convergence de Lévy donne une équivalence entre la convergence en loi et la convergence, en tout point, des fonctions caractéristiques.
La convergence en loi se généralise à des variables aléatoires à valeurs dans un espace topologique muni de sa tribu borélienne.

Exemples

Convergence en loi

Théorème central limite :

La moyenne d'une suite de variables aléatoires centrées et de carré intégrable, indépendantes et de même loi, une fois renormalisée par $\sqrt n$ converge en loi vers la loi normale

{\sqrt {n}}{\bar {X}}_{n}{\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,\sigma ^{2}).

Convergence de la loi de Student :

La loi de Student de paramètre $k$ converge, lorsque $k$ tend vers $+\infty$ , vers la loi de Gauss :

\mathrm {t} (k){\xrightarrow {\mathcal {L}}}{\mathcal {N}}(0,1).

Dans ce cas, on peut aussi utiliser le lemme de Scheffé, qui est un critère de convergence d'une suite de variables aléatoires à densité vers une variable aléatoire à densité.

Loi dégénérée :

La suite^[1] ${\mathcal {N}}\left(0,{\frac {1}{n}}\right)$ converge en loi vers une variable aléatoire $X 0$ dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée $δ 0$ ) :

\mathbb {P} (X_{0}\leq x)=\delta _{0}\left(]-\infty ,x]\right)={\begin{cases}0&{\text{ si }}x<0,\\1&{\text{ si }}x\geq 0.\end{cases}}

Convergence d'une fonction d'une variable aléatoire

Un théorème très pratique, désigné en anglais généralement sous le nom de mapping theorem (en), établit qu'une fonction $g$ continue appliquée à une variable qui converge vers $X$ convergera vers $g (X)$ pour tous les modes de convergence :

Théorème — (Mapping theorem^[2]) Soit $g:\mathbb {R} ^{k}\to \mathbb {R} ^{m}$ une fonction continue en tout point d'un ensemble $C$ tel que $\mathbb {P} (X\in C)=1$ :

Si $X_{n}{\xrightarrow {\mathcal {L}}}X{\text{ alors }}g(X_{n}){\xrightarrow {\mathcal {L}}}g(X)$ ;
Si $X_{n}{\xrightarrow {p}}X{\text{ alors }}g(X_{n}){\xrightarrow {p}}g(X)$ ;
Si $X_{n}{\xrightarrow {p.s}}X{\text{ alors }}g(X_{n}){\xrightarrow {p.s.}}g(X)$ .

Exemple :

En statistiques, un estimateur convergent de la variance $σ 2$ est donné par :

s_{n-1}^{2}\equiv {\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}

.

On sait alors par le continuous mapping theorem que l'estimateur ${\sqrt {s_{n-1}^{2}}}$ de l'écart type $σ = \sqrt σ 2 est convergent, car la fonction racine est une fonction continue.$

Liens entre les différents modes de convergence

Convergences L^∞ et L^p

Propriété (L^∞ implique L^p) — Soit $p>0$ . Si $(X_{n})$ et $X$ sont essentiellement bornées et si $X_{n}\xrightarrow {L^{\infty }} X$ alors $X_{n}\xrightarrow {L^{p}} X$ .

Démonstration

Il suffit de remarquer que $\vert \vert X_{n}-X\vert \vert _{L^{p}}\leq \vert \vert X_{n}-X\vert \vert _{L^{\infty }}$ .

À noter que si $(X_{n})$ et $X$ sont essentiellement bornées, alors elles admettent un moment d'ordre p fini. Il est donc légitime de parler de la convergence en norme $L^{p}$ .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires $(X_{n})$ à valeurs dans $\{0,1\}$ telles que $\mathbb {P} (X_{n}=1)=1/n$ pour tout $n\geq 1$ . Alors, pour tout $p>0$ , $(X_{n})$ converge vers 0 en norme $L^{p}$ car $\vert \vert X_{n}\vert \vert _{L^{p}}=(1/n)^{1/p}$ . Pourtant elle ne converge pas en norme $L^{\infty }$ car $\vert \vert X_{n}\vert \vert _{L^{\infty }}=1$ .

Convergences L^p et L^q

Propriété (L^p implique L^q pour p > q ≥ 1) — Soit $p>q\geq 1$ . Si $(X_{n})$ et $X$ sont dans $L^{p}$ et si $X_{n}\xrightarrow {L^{p}} X$ alors $X_{n}\xrightarrow {L^{q}} X$ .

Démonstration

C'est une simple application de l'inégalité de Jensen avec la fonction convexe $x\mapsto x^{p/q}$

À noter que si $(X_{n})$ et $X$ ont un moment d'ordre p fini, alors elles ont aussi un moment d'ordre q fini. Il est donc légitime de parler de la convergence en norme $L^{q}$ .

La réciproque du résultat est fausse. Par exemple, prenons une suite de variables aléatoires $(X_{n})$ à valeurs dans $\mathbb {R} _{+}$ telles que $\mathbb {P} (X_{n}=0)=1-1/n^{p}$ et $\mathbb {P} (X_{n}=n)=1/n^{p}$ pour tout $n\geq 1$ . Alors $(X_{n})$ converge vers 0 en norme $L^{q}$ car $\vert \vert X_{n}\vert \vert _{L^{q}}^{q}=n^{q-p}$ . Pourtant elle ne converge pas en norme $L^{p}$ car $\vert \vert X_{n}\vert \vert _{L^{p}}=1$ .

Convergences L^p et en probabilité

Propriété (L^p implique en probabilité) — Soit $p\geq 1$ . Si $(X_{n})$ et $X$ sont dans $L^{p}$ et si $X_{n}\xrightarrow {L^{p}} X$ alors $X_{n}\xrightarrow {\mathbb {P} } X$ .

Démonstration

C'est une application directe de l'inégalité de Markov pour les variables aléatoires réelles admettant un moment d'ordre p :

\mathbb {P} \left(\vert X_{n}-X\vert \geq \varepsilon \right)\leq {\frac {\operatorname {E} \left[\vert X_{n}-X\vert ^{p}\right]}{\varepsilon ^{p}}}

La réciproque du résultat est fausse. Par exemple, prenons $Y$ une variable aléatoire de loi uniforme sur $[0,1]$ et posons $X_{n}:=n{\textbf {1}}_{\{Y\leq 1/n\}}$ . Alors $(X_{n})$ converge vers 0 en probabilité car $\mathbb {P} (\vert X_{n}\vert \geq \varepsilon )=1/n$ pour $n\geq \varepsilon$ . Cette suite converge même presque sûrement vers 0. Pourtant elle ne converge pas en norme $L^{1}$ car $\vert \vert X_{n}\vert \vert _{L^{1}}=1$ . Le théorème de Lebesgue-Vitali et le lemme de Riesz-Scheffé^[3] donnent chacun une condition suffisante pour que la convergence en probabilité donne la convergence en moyenne d'ordre p. La condition du premier est l'uniforme intégrabilité et la condition du second est la convergence des moments d'ordre p.

Théorème (Lebesgue-Vitali) — Soit $p\geq 1$ . Supposons que les trois propriétés suivantes sont vérifiées.

La suite $(X_{n})$ est dans $L^{p}$ .
La suite $(X_{n})$ converge vers $X$ en probabilité.
La suite $(X_{n}^{p})$ est uniformément intégrable.

Dans ces conditions on a $X$ est dans $L^{p}$ et $X_{n}\xrightarrow {L^{p}} X$ .

Lemme (Riesz-Scheffé) — Soit $p\geq 1$ . Supposons que les quatre propriétés suivantes sont vérifiées.

La variable $X$ est dans $L^{p}$ .
La suite $(X_{n})$ est dans $L^{p}$ .
La suite $(X_{n})$ converge vers $X$ en probabilité.
On a $\lim _{n\to \infty }\mathbb {E} [\vert X_{n}\vert ^{p}]=\mathbb {E} [\vert X\vert ^{p}]$ .

Dans ces conditions on a $X_{n}\xrightarrow {L^{p}} X$ .

Convergences L^∞ et presque sûre

Propriété (L^∞ implique presque sûre) — Si $(X_{n})$ et $X$ sont essentiellement bornées et si $X_{n}\xrightarrow {L^{\infty }} X$ alors $X_{n}\xrightarrow {p.s} X$ .

La réciproque du résultat est fausse. Par exemple, prenons $Y$ une variable aléatoire de loi uniforme sur $[0,1]$ et posons $X_{n}:={\textbf {1}}_{\{Y\leq 1/n\}}$ . Alors la suite $(X_{n})$ converge vers 0 presque sûrement mais elle ne converge pas vers 0 dans $L^{\infty }$ car $\vert \vert X_{n}\vert \vert _{L^{\infty }}=1$ pour tout $n$ . Le théorème d'Egoroff donne une réciproque partielle : s'il y a convergence presque sûre, alors il y a convergence uniforme sur des évènements de probabilité aussi proche de 1 que l'on souhaite (sans jamais atteindre 1 exactement).

Théorème (Egoroff) — Supposons que $(X_{n})$ converge vers $X$ presque sûrement. Alors pour tout $\varepsilon >0$ il existe un évènement $A$ tel que $\mathbb {P} (A)\geq 1-\varepsilon$ et tel que $(X_{n})$ converge uniformément vers $X$ sur $A$ . Autrement dit,

\lim _{n\to \infty }\sup _{A}\vert X_{n}-X\vert =0

.

À noter que dans le théorème d'Egoroff la convergence est uniforme ce qui est plus fort que la convergence essentiellement uniforme.

Convergence presque sûre et en probabilité

Propriété (presque sûre implique en probabilité) — Si $(X_{n})$ converge vers $X$ presque sûrement alors $(X_{n})$ converge vers $X$ en probabilité.

Démonstration

Par le lemme de Fatou, on a pour tout $ε > 0$ :

\liminf _{n}\mathbb {P} (|X_{n}-X|<\varepsilon )\geq \mathbb {P} \left(\liminf _{n}\{|X_{n}-X|<\varepsilon \}\right)=1

La réciproque du résultat est fausse. Par exemple prenons $Y$ une variable aléatoire de loi uniforme sur $[0,1]$ . On crée les intervalles $I_{1}:=[0,1]$ , $I_{2}:=[0,1/2]$ , $I_{3}:=[1/2,1]$ , $I_{4}:=[0,1/4]$ , $I_{5}:=[1/4,2/4]$ , $I_{6}:=[2/4,3/4]$ , $I_{7}:=[3/4,1]$ , $I_{8}:=[0,1/8]$ , ... Plus explicitement, pour tout $n\in \mathbb {N} ^{*}$ on pose $k_{n}:=\lfloor \log _{2}(n)\rfloor$ et $a_{n}:=n-2^{k_{n}}$ . On crée alors $I_{n}:=[a_{n}/2^{k_{n}},(a_{n}+1)/2^{k_{n}}]$ . On définit ensuite $X_{n}:=\mathbf {1} _{\{Y\in I_{n}\}}$ . Alors la suite $(X_{n})$ converge en probabilité vers 0. Elle converge même dans $L^{p}$ pour tout $p>0$ car $\mathbb {E} [\vert X_{n}\vert ^{p}]=1/2^{k_{n}}$ . Pourtant cette suite ne converge pas presque sûrement vers 0 car presque sûrement il existe une infinité de $n$ tels que $Y\in I_{n}$ . Il est également possible de trouver des suites qui convergent en probabilité mais qui converge ni presque sûrement, ni dans $L^{p}$ comme le montre l'exemple suivant.

Exemple :

Soit $p > 0$ . On considère $(X n) n \geq 1$ une suite de variables aléatoires indépendantes telle que

\mathbb {P} (X_{n}=n^{1/p})={\frac {1}{n}}\qquad {\text{et}}\qquad \mathbb {P} (X_{n}=0)=1-{\frac {1}{n}}

La suite $(X n) n$ converge en probabilité vers 0 car

\forall \varepsilon >0,\qquad \forall n\geq \varepsilon ,\qquad \mathbb {P} (\vert X_{n}\vert \geq \varepsilon )=\mathbb {P} (X_{n}=n^{1/p})={\frac {1}{n}}\to 0

En revanche, elle ne converge pas dans $\mathbb {L} ^{p}$ car $\mathbb {E} [X_{n}^{p}]=1\nrightarrow 0$

Montrons qu'elle ne converge pas non plus presque sûrement. Si c'était le cas sa limite presque sûre serait nécessairement sa limite en probabilité, à savoir 0. Or, comme $\sum _{n}\mathbb {P} (X_{n}=n^{1/p})=+\infty$ et comme les variables aléatoires $X n$ sont indépendantes, on a par la loi du zéro-un de Borel :

\mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/p}\}\right)=1

i.e. presque sûrement $X n = n 1/ p$ pour une infinité de $n$ . Donc, presque sûrement, $\limsup _{n}X_{n}=+\infty .$ A fortiori $X n$ ne converge pas presque sûrement vers 0.

Exemple :

Dans l'exemple précédent, pour éviter le recours à la loi du zéro-un de Borel, on peut définir explicitement la suite $X n$ de la façon suivante. On choisit $Ω = [0,1]$ muni de sa tribu borélienne et de la mesure de Lebesgue. On pose $a_{1}:=0$ , $a_{n}:={\frac {1}{2}}+\cdots +{\frac {1}{n}}{\pmod {1}}$ pour $n\geq 2$ , puis

I_{n}:=\left\{{\begin{matrix}\left[a_{n-1},a_{n}\right]&{\text{si }}a_{n-1}<a_{n}\\\left[0,a_{n}\right]\cup \left[a_{n-1},1\right]&{\text{si }}a_{n-1}>a_{n}\end{matrix}}\right.

Enfin on définit

X_{n}(\omega ):=\left\{{\begin{matrix}n^{1/p}&{\text{si }}\omega \in I_{n}\\0&{\text{si }}\omega \notin I_{n}\end{matrix}}\right.

Les $X n$ ainsi définis ne sont pas indépendants mais ils vérifient comme dans l'exemple précédent

\mathbb {P} \left(\limsup _{n}\{X_{n}=n^{1/p}\}\right)=1

Les trois propriétés suivantes donnent des réciproques partielles. La première dit que la convergence en probabilité implique la converge presque sûre d'une sous-suite. La deuxième est une conséquence du théorème de Borell-Cantelli et dit que si la convergence en probabilité a lieu assez rapidement alors la convergence presque sûre a lieu également. Enfin, la troisième dit que la convergence en probabilité est équivalente à la convergence presque sûre pour une somme de variables aléatoires indépendantes^[4]^,^[5].

Propriété — Si $(X_{n})$ converge vers $X$ en probabilité, alors il existe une extraction $\varphi$ telle que $(X_{\varphi (n)})$ converge vers $X$ presque sûrement.

Propriété — Si pour tout $\varepsilon >0$

\sum _{n}\mathbb {P} (\vert X_{n}-X\vert \geq \varepsilon )<\infty

,

alors $(X_{n})$ converge vers $X$ presque sûrement.

Propriété — Si les $(X_{n})$ sont indépendantes et si on note $S_{n}:=X_{1}+X_{2}+\dots +X_{n}$ pour tout $n$ , alors la suite $(S_{n})$ converge presque sûrement si et seulement si elle converge en probabilités.

Convergence en probabilité et en loi

Lemme — Si l'on a les convergences suivantes, respectivement dans $(E, d)$ et dans $\mathbb {R}$

X_{n}{\xrightarrow[{}]{\mathcal {L}}}X\qquad {\text{et}}\qquad d(X_{n},Y_{n}){\xrightarrow[{}]{\mathcal {L}}}0

alors on a

(X_{n},Y_{n}){\xrightarrow[{}]{\mathcal {L}}}(X,X)

dans l'espace $E \times E$ muni de la distance infinie.

Démonstration

Soit $F$ un fermé de $E \times E$ . Pour tout $ε > 0$ on note

F_{\varepsilon }:=\{(x,y)\in E\times E:d_{\infty }((x,y),F)\leq \varepsilon \}

Alors

\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X_{n},X_{n})\in F_{\epsilon })+\mathbb {P} (d(X_{n},Y_{n})\geq \epsilon )

En passant au $limsup$ on obtient, en utilisant les deux hypothèses et le 3^e point du théorème porte-manteau

\limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F_{\epsilon })

puis en faisant tendre $ε$ vers 0, comme F est fermé

\limsup _{n}\mathbb {P} ((X_{n},Y_{n})\in F)\leq \mathbb {P} ((X,X)\in F

On conclut en utilisant à nouveau le 3^e point du théorème porte-manteau.

Propriété — Si $X n$ converge vers $X$ en probabilité alors $X n$ converge vers $X$ en loi.

Démonstration

C'est une conséquence du lemme précédent en prenant $X n = X$ et en remarquant que la convergence en loi

d(X,Y_{n}){\xrightarrow[{}]{(d)}}0

dans $\mathbb {R}$ équivaut à la convergence en probabilité

Y_{n}{\xrightarrow[{}]{\mathbb {P} }}X

dans $(E, d)$ .

Sinon, on peut procéder comme suit. Commençons par énoncer un lemme.

Lemme — Soient $X$ , $Y$ des variables aléatoires réelles, $c$ un réel et $ε > 0$ . Alors

\mathbb {P} (Y\leq c)\leq \mathbb {P} (X\leq c+\varepsilon )+\mathbb {P} (X-Y>\varepsilon )

En effet, il suffit de remarquer que :

\{Y\leq c\}\subset \{X\leq c+\varepsilon \}\cup \{X>c+\varepsilon ,Y\leq c\}

L'inégalité en découle naturellement.

Pour tout $ε > 0$ , en raison de ce lemme, on a :

\mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )

\mathbb {P} (X\leq a-\varepsilon )\leq \mathbb {P} (X_{n}\leq a)+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )

On a donc

\mathbb {P} (X\leq a-\varepsilon )-\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )\leq \mathbb {P} (X_{n}\leq a)\leq \mathbb {P} (X\leq a+\varepsilon )+\mathbb {P} (\left|X_{n}-X\right|>\varepsilon ).

Soit $a$ un point de continuité de $F X$ . On fixe un réel $ε' > 0$ . Par continuité de $F X$ en $a$ , il existe un réel $ε > 0$ tel que

|\mathbb {P} (X\leqslant a+\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '\mathrm {et} |\mathbb {P} (X\leqslant a-\varepsilon )-\mathbb {P} (X\leqslant a)|<\varepsilon '

.

De la convergence de $(X n) n$ en probabilité vers $X$ , on peut en déduire l'existence d'un entier $N$ tel que : $\mathbb {P} (\left|X_{n}-X\right|>\varepsilon )<\varepsilon '$ si $n \geq N$ .

D'où : $\forall n\in \mathbb {N} ,n\geqslant N\Rightarrow |\mathbb {P} (X_{n}\leqslant a)-\mathbb {P} (X\leqslant a)|<2\varepsilon '$ .

Théorème de Slutsky — Si $X n$ converge en loi vers $X$ , et si $Y n$ converge en probabilité vers une constante $c$ , alors le couple $(X n, Y n)$ converge en loi vers le couple $(X, c)$ .

Convergence presque sûre et en loi

La convergence presque sûre implique la convergence en loi, puisqu'elle implique la convergence en probabilité et cette dernière implique celle en loi. La réciproque est fausse. Le théorème de représentation de Skorokhod donne une réciproque partielle.

Diagramme résumant les liens entre les différents modes de convergences de variables aléatoires. Une double flèche représente une implication. Une flèche simple représente une «réciproque partielle» ou un résultat permettant, sous certaines hypothèses, de passer d'un mode de convergence à un autre mode plus fort.

Notes et références

↑ Pour plus de détails sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.
↑ Vaart 1998, p. 7.
↑ (en) N Kusolitsch, « Why the theorem of Scheffé should be rather called a theorem of Riesz », Periodica Mathematica Hungarica, vol. 61,‎ 2010, p. 225-229 (lire en ligne)
↑ (en) « how to show convergence in probability imply convergence a.s. in this case? », sur StackExchange, 2011
↑ (en) Kai Lai Chung, A Course in Probability Theory, Academic Press, 3^e éd. (lire en ligne), p. 126 (Théorème 5.3.4)

Bibliographie

Russell Davidson et James McKinnon, Estimation and Inference in Econometrics, New York, Oxford University Press, 1993, 874 p. (ISBN 978-0-19-506011-9, LCCN 92012048), p. 874
(en) G. R. Grimmett et D. R. Stirzaker, Probability and Random Processes, Oxford, Clarendon Press, 1992, 2^e éd. (ISBN 0-19-853665-8), p. 271-285
(en) Adrianus Willem van der Vaart (trad. de l'allemand), Asymptotic Statistics, Cambridge, Cambridge University Press, 1998, 1^re éd., 443 p., relié (ISBN 978-0-521-49603-2, LCCN 98015176), p. 443

Liens externes

[1] : cours de l’école centrale de Paris de 1e année sur la convergence des variables aléatoires

Portail des probabilités et de la statistique

[1] Pour plus de détails sur cet exemple, voir Davidson et McKinnon 1993, chap. 4.

[2] Vaart 1998, p. 7.

[3] (en) N Kusolitsch, « Why the theorem of Scheffé should be rather called a theorem of Riesz », Periodica Mathematica Hungarica, vol. 61,‎ 2010, p. 225-229 (lire en ligne)

[4] (en) « how to show convergence in probability imply convergence a.s. in this case? », sur StackExchange, 2011

[5] (en) Kai Lai Chung, A Course in Probability Theory, Academic Press, 3^e éd. (lire en ligne), p. 126 (Théorème 5.3.4)

[1]

[2]

[3]

[4]

[5]

Les différents modes de convergence

Convergence essentiellement uniforme (ou L∞)

Convergence en moyenne d'ordre p (ou Lp)

Convergence presque sûre

Convergence en probabilité

Convergence en loi

Exemples

Convergence en loi

Convergence d'une fonction d'une variable aléatoire

Liens entre les différents modes de convergence

Convergences L∞ et Lp

Convergences Lp et Lq

Convergences Lp et en probabilité

Convergences L∞ et presque sûre

Convergence presque sûre et en probabilité

Convergence en probabilité et en loi

Convergence presque sûre et en loi

Notes et références

Bibliographie

Liens externes

Convergence essentiellement uniforme (ou L^∞)

Convergence en moyenne d'ordre p (ou L^p)

Convergences L^∞ et L^p

Convergences L^p et L^q

Convergences L^p et en probabilité

Convergences L^∞ et presque sûre