ThéoriesEspaces probabilisés

Dans ce cours, on appellera « expérience aléatoire », toute expérience dont le résultat dépend du « hasard ». Nous allons donner quelques exemples.

Espace fondamental

Définition

Une expérience aléatoire sera mathématiquement identifiée à l’ensemble, noté $\Omega$, de tous les résultats $\omega$ possibles de l’expérience. Cet ensemble sera appelé l’espace fondamental de l’expérience.

Exemple
  1. $\Omega:=\left\{\omega_1,\omega_2,\ldots,\omega_N\right\} $ est un ensemble fini :
    • on réalise un jet d’une pièce : $\Omega:=\left\{\text{Pile},\text{Face}\right\}$ qui peut être aussi $\left\{0,1\right\}$ si on adopte un codage binaire du résultat ;
    • on effectue un jet d’un dé à 6 faces : $\Omega=\left\{1,\ldots,6\right\}$ où le résultat est le numéro de la face visible.
  2. $\Omega$ est un ensemble infini dénombrable $\Omega=\{\omega_i,i\in\N\}$, $\N$, $\Z$, etc. :
    • le compteur de véhicules sur une autoroute, la durée de vie d’un système exprimée en heures entières,… :$\Omega:=\N$
  3. $\Omega$ est un espace fondamental continu :
    • l’erreur d’observation d’une mesure physique : $\Omega:=[a,b]$ ou $\Omega:=\R$ ;
    • on tire sur une cible circulaire de rayon $R$ : $\Omega:=D(0,R)$.
  4. $\Omega$ est un ensemble de fonctions :
    • l’expérience consiste en l’observation d’une trajectoire d’un avion sur un intervalle de temps $[0, T]$. On peut supposer la trajectoire continue, d’où $\Omega:=\mathcal{C}^0 [0,T]$ l’ensemble des fonctions continues sur l’intervalle $[0,T]$.
    Le modèle probabiliste correspondant est appelé un processus stochastique. Ce cadre sera abordé dans des enseignements plus avancés.

Nous aurons très régulièrement à considérer un contexte de répétitions d’une des quelconques précédentes expériences d’espace fondamental $\Omega_1$. Alors à l’issue de $n$ répétitions, on dispose d’une expérience aléatoire d’espace fondamental : $\Omega_n:=\Omega_1^n$. C’est à dire, un résultat de ces $n$ répétitions est la donnée de $n$ résultats $\omega_1,\ldots,\omega_n$ où $\omega_i\in\Omega_1$ est le résultat de la répétition $i$ de l’expérience d’espace $\Omega_1$.

Deux types d’espaces fondamentaux nous intéresseront dans ce chapitre :

  1. un espace fondamental discret lorsque $\Omega$ est un ensemble discret à savoir un ensemble fini ou infini dénombrable (c’est à dire que les éléments de $\Omega$ peuvent être énumérer sous la forme d’une suite $\{\omega_i,i\in\N\}$) ;
  2. un espace fondamental continu si $\Omega$ n’est pas un ensemble discret. On se concentrera sur le cas de sous-ensembles de $\R^d$ avec $d\ge 1$.

Événement

Définition

Un événement est une assertion logique relative à l’expérience aléatoire d’espace fondamental $\Omega$.

Mathématiquement, il sera représenté par le sous-ensemble $A$ de $\Omega$ constitué des résultats $\omega$ de l’expérience garantissant que l’assertion logique est satisfaite. Autrement dit, un événement sera identifié à une partie ou un sous-ensemble $A$ de $\Omega$.

Définition
  • La partie vide $\emptyset$ est l’événement dit impossible et $\Omega$ est l’événement dit certain.
  • La partie $\overline{A}:=\left\{\omega\in\Omega\mid\omega\notin A\right\}$ complémentaire de $A$ dans $\Omega$ : l’événement contraire de $A$ ou encore, la négation de l’assertion logique associée à $A$.
  • La réunion $A\cup B=\left\{\omega\in\Omega\mid\omega\in A\text{ ou }\omega\in B\right\}$ de $A$ et $B$: $A$ ou $B$ se réalise ( « ou » non exclusif).
  • L’intersection $A\cap B=\left\{\omega\in\Omega\mid\omega\in A\text{ et }\omega\in B\right\} $ de $A$ et $B$ : $A$ et $B$ sont réalisés.
    Lorsque $A\cap B=\emptyset,$ on dit que les événements sont incompatibles et dans ce cas la réunion de $A$ et $B$ est notée $A\uplus B.$
    Pour tout événement $A$, on a $A\cup\overline{A}=A\uplus\overline{A}$.
  • La famille $\left\{A_i,i\in I\right\}$ avec $I\subset\N $ est une partition de $\Omega$ si et seulement si :\begin{equation*}\left\{\begin{array}{ll}A_i\cap A_j=\emptyset &\text{pour }i\neq j \\\cup_{i\in I}A_i=\Omega\end{array}\right.\quad\text{ou encore}\quad\uplus_{i\in I}A_i=\Omega.\end{equation*}Pour tout événement $A$, la famille $\left\{A,\overline{A}\right\}$ forme une partition de $\Omega$.
  • L’inclusion $A\subset B$ signifie que « si $A$ est réalisé alors $B$ est réalisé ».
  • La différence $A\setminus B$ signifie que « $A$ est réalisé sans que $B$ le soit » ou encore « $A$ est réalisé et $B$ ne l’est pas » et est égal à $A\cap\overline{B}$.
RemarqueChoix de l'ensemble des événements considérés, noté $\mathcal{E}$
  • Si $\Omega$ est discret alors $\mathcal{E}:=\cP(\Omega)$l’ensemble de toutes les parties de $\Omega$. En particulier, cela inclut $\emptyset$.
  • Si $\Omega$ est un sous-ensemble continu de $\R^d$ alors $\mathcal{E}:=\mathcal{B}(\R^d)$ désigne une famille de parties de $\R^d$ contenant tous les pavés de la forme $]{-}\infty,x_1]\times\cdots\times]{-}\infty,x_d]$ avec $(x_1,\ldots,x_d)\in\R^d$ et qui est stable par passage au complémentaire et union dénombrable. Lorsque $d:=1$, on pourra vérifier que ces deux opérations ensemblistes permettent de construire tous les intervalles de $\R $.

La famille $\mathcal{E}$ des événements associés à un espace fondamental $\Omega$ est choisie de sorte que :

  1. $\Omega\in\mathcal{F}$ ;
  2. elle est stable par passage au complémentaire ;
  3. elle est stable par union dénombrable.

Une telle famille est appelée une $\sigma$-algèbre associée à $\Omega$. Notons que la propriété #3 peut être remplacée par la stabilité par intersection dénombrable. Ces propriétés sont nécessaires pour garantir que les opérations standards sur les événements évoquées en début de section produisent des événements.

Probabilité et espace probabilisé

Définition

Une probabilité sur le couple $\left(\Omega,\mathcal{E}\right) $ est une application $\P$ de $\mathcal{E}$ dans $[0,1] $ telle que :

  1. Pour toute famille $\{A_i,\ i\in I\subset\N\}$ d’événements deux à deux disjoints, on a\[\P\left(\uplus_{i\in I}A_i \right)=\sum_{i\in I}\P(A_i).\]
  2. $\P\left(\Omega\right)=1$.
Propriété
  1. $\P(\overline{A})=1-\P(A)$ ;
  2. Si $A\subset B$ alors $\P(B\setminus A)=\P(B)-\P(A)$ et $\P(A)\leq\P(B)$ ;
  3. $\P(A\cup B)=\P(A)+\P(B)-\P(A\cap B)\leq\P(A)+\P(B)$ ;
  4. Si $\{A_n, n\in\N\}$ est une suite croissante d’événements (c’est à dire $\forall n\in\N,\ A_n\subset A_{n+1}$) alors :\[\P\big(\cup_{n\in\N}A_n \big)=\lim_{n\to+\infty}\P(A_n)\ ;\]
  5. Si $\{B_n, n\in\N\}$ est une suite décroissante d’événements (c’est à dire $\forall n\in\N,\ B_{n+1}\subset B_n$) alors :\[\P\big(\cup_{n\in\N}B_n \big)=\lim_{n\to+\infty}\P(B_n).\]

Le point commun aux preuves de ces propriétés est de décomposer les événements concernés en la réunion disjointe d’événements pour pouvoir utiliser les deux propriétés caractéristiques d’une probabilité.

  1. $\Omega=A\uplus\overline{A}$
  2. $B=A\uplus (B\setminus A)$
  3. $A\cup B=(A\setminus B)\uplus (A\cap B)\uplus (B\setminus A)$
  4. Si on pose $A_{-1}=\emptyset\in\mathcal{E}$ alors $\cup_{n\in\N}A_n=\uplus_{n\in\N}(A_n\setminus A_{n-1})$
  5. $\cap_{n\in\N}B_n=\overline{\cup_{n\in\N}\overline{B_n }}$ et $\{\overline{B_n},\ n\in\N\}$ est une suite croissante d’événements à laquelle on applique la propriété #4.
Définition

Le triplet $(\Omega,\mathcal{E},\P)$ est appelé un espace probabilisé. Il est dit discret si $\Omega$ est discret, et continu dans le cas contraire.

Espace probabilisé discret

Théorème et définition

Toute probabilité sur $\bigl(\Omega,\cP(\Omega)\bigr)$ avec $\Omega$ discret est spécifiée par une famille de réels positifs $\left\{p_\omega\ge 0,\ \omega\in\Omega\right\}$ telle que\[\begin{equation}\label{eq:P_omega}\sum_{\omega\in\Omega} p_\omega=1\end{equation}\]et\[\begin{equation}\label{eq:P(A)}\forall A\in\cP(\Omega),\quad\P (A):=\sum_{\omega\in A}p_\omega.\end{equation}\]

Si $\P$ est donnée alors $\forall\omega\in\Omega,\ \{\omega\}\in\cP(\Omega)$ et la famille $\left\{p_{\omega}:=\P\bigl(\{\omega\}\bigr),\ \omega\in\Omega\right\}$ convient.
Réciproquement, si on se donne une famille satisfaisant $\eqref{eq:P_omega}$ alors en posant\[\forall A\in\cP(\Omega), \ \quad\P (A):=\sum_{\omega\in A}p_\omega\]on vérifie que $\P$ satisfait les deux propriétés caractérisant une probabilité sur $\bigl(\Omega,\cP(\Omega)\bigr)$.

Dans le cas où $\Omega\subset\R $, il existe une autre manière de caractériser une probabilité à travers la notion de fonction de répartition. Nous l’introduisons dans notre cadre $\Omega$ discret par cohérence avec le cas d’un espace fondamental continu. Cependant, cette notion apporte très peu à la compréhension des probabilités dans le cas discret. Par contre, elle joue un rôle important dans le cas d’un espace fondamental continu.

Théorème et définition

Sur un espace probabilisé $(\Omega,\mathcal{E},\P)$ discret avec $\Omega\subset\R $, la fonction définie par\[\forall t\in\R,\ F(t):=\P\{\omega\in\Omega:\omega\le t\}=\sum_{\omega\in\Omega:\omega\le t}\P\{\omega\}\]est appelée la fonction de répartition de $\P$. Elle caractérise la probabilité $\P$.

$F(t)$ donne une idée de la part occupée, dans la probabilité $\sum_{\omega\in\Omega}\P\{\omega\}=1$, par l’ensemble des résultats de l’expérience plus petit ou égal à $t$. Nous donnerons un certain nombres de propriétés de cette fonction de répartition dans le cours avancé de probabilité.

Ici, pour $\Omega$ discret, on se contentera de dire que\[\lim_{t\to+\infty} F(t)=\sum_{\omega\in\Omega}\P\{\omega\}=1,\]et que la fonction $F$ est une fonction en escalier croissante (cf dessin). En effet, sur l’intervalle $[\omega_1,\omega_2[$ avec $\omega_1,\omega_2$ deux résultats consécutifs dans $\Omega$, la valeur de $F$ n’évolue pas et vaut la somme associée à $F(\omega_1)$, et en $t:=\omega_2$ la somme $F(\omega_2)$ vaut $F(\omega_1)+\P\{\omega_2\}$.
Il est clair que la donnée de $F$ caractérise bien une probabilité sur un ensemble discret au sens de la définition donnée (car pour tout $\omega_2\in\Omega$, $\P\{\omega_2\}=F(\omega_2)-F(\omega_1)$ avec les notations précédentes).

Remarque
  1. La spécification d’une probabilité sur $(\Omega,\cP(\Omega))$ avec $\Omega$ discret consiste simplement à affecter une probabilité $p_{\omega}$ à chaque résultat $\omega$ de l’expérience de sorte que $\sum_{\omega\in\Omega} p_{\omega}=1$.
  2. Dans le cas où $\Omega\subset\N $, les formules \eqref{eq:P_omega} ou \eqref{eq:P(A)} font apparaître clairement le rôle technique des séries (ici à termes positifs). Notons que l’objectif dans ce cours sera souvent de calculer la somme de séries dont on aura préalablement vérifiée la convergence. En général, les difficultés ne viendront pas de l’étude de la convergence mais du calcul de la somme. C’est tout à fait complémentaire d’un cours sur les séries. Par ailleurs, les séries invoquées seront souvent à termes positifs ou si tel n’est pas le cas, on leur demandera d’être absolument convergentes (voir le calcul de moments). Par conséquent, toutes les opérations nécessaires aux calculs sont autorisées : somme par paquets, permutation de somme, …
  3. On utilisera par la suite, le terme de « modèle de probabilité » pour se référer à certains choix spécifiques des $p_{\omega}$ dans la formule \eqref{eq:P_omega}. Un certain nombre d’exemples vont être proposés ci-dessous. Notons que le terme modèle n’est pas innocent dans le sens où la formule \eqref{eq:P_omega} requiert un choix à effectuer pour analyser une situation concrète.
Exemple

Modèle uniforme sur un ensemble $\Omega=\{\omega_1,\ldots,\omega_N\}$ fini. Si on pense que tous les résultats de l’expérience aléatoire ont la même vraisemblance d’être observés, on pose\[\forall\omega_i\in\Omega,\quad\P\bigl(\{w_i\}\bigr)=\P\bigl(\{w_1\}\bigr)\]et la condition $\cP(\Omega)=1$ impose que\[\forall\omega\in\Omega,\quad\P\bigl(\{w\}\bigr)=\frac{1}{N}=\frac{1}{\Card(\Omega)}\]La famille $\left\{\P\bigl(\{w\}\bigr),\ \omega\in\Omega\right\}$ définit une probabilité sur $\bigl(\Omega,\cP(\Omega)\bigr)$ qui est appelée probabilité uniforme sur $\Omega$. On parle de modèle d’équi-probabilité ou d’équi-répartition des $N$ résultats.

Pour toute partie $A$ de $\Omega$, on a donc\[\begin{align*}\P\left(A\right)&=\sum_{w_i\in A}\P\bigl(\{w_i\}\bigr)=\frac{\Card(A)}{\Card(\Omega)} \\&\equiv\frac{\text{nombre de « cas favorables » à la réalisation de $A$}}{\text{nombre total de « cas »}}.\end{align*}\]Autrement dit, dans ce contexte d’équiprobabilité des résultats, le calcul de la probabilité d’un événement revient à dénombrer les résultats réalisant $A$. L’objectif est de limiter au maximum le développement de calculs de dénombrement qui ne relève pas directement de compétences en probabilité et modélisation aléatoire.

Remarque

D’après la formule du binôme (cf. pré-requis) dans le cadre d’un espace fondamental fini à $N$ éléments, on dénombre $\Card\bigl(\cP(\Omega)\bigr)=2^N$ événements distincts.

En effet, si on se restreint à la seule formule $\Card\bigl(\cP(\Omega)\bigr)=2^N$, on notera que l’interprétation de $C_n^k$ comme le nombre de sous-ensembles de $\Omega$ à $k$ éléments, indique clairement que la somme sur $k=0,1,\ldots,N$ donne le nombre total de parties de $\Omega$ (cela inclut $\emptyset$ qui est associé à $k=0$).

Il est instructif de relier la formule du binôme à notre contexte de dénombrement. Le développement littéral de ${(a+b)}^N$ produit une liste de mots, tous de longueur $N$, et écrit à l’aide de l’alphabet à deux symboles $\{a,b\}$. Il n’est pas difficile de vérifier que l’ensemble des mots obtenus est $\{a,b\}^N$. Le nombre total de mots ainsi obtenus est donc ${\bigl|\{a,b\}\bigr|}^N=2^N$.

La relation de commutation $ab=ba$ permet d’identifier tous les mots de longueur $N$ comportant le même nombre de $a$ (ou de $b$) à un seul mot. Combien de mots sont-ils identifiées dans cette procédure ? Pour un nombre $k$ de $a$ fixé dans le mot finalement retenu ($k\in\{0,\ldots,N\}$), il faut comptabiliser le nombre de mots de taille $N$ que l’on peut construire à partir des symboles $a,b$ et contenant exactement $k$ symboles $a$ (et donc $N-k$ symboles $b$). On voit que pour en construire un il suffit de choisir les $k$ positions parmi les $N$ disponibles qui vont accueillir les $k$ symboles $a$. On dispose que $C_N^k$ possibilités de choix des $k$ places. La somme sur $k$ des $C_N^k $ donne le nombre total de mots de longueur $N$ écrits à partir de l’alphabet réduit à $\{a,b\}$.

Exemple

Supposer que 100 étudiants assistent à un cours de probabilité dans un amphithéâtre. Parmi ces 100 personnes, plusieurs d’entre elles peuvent présenter la même date de naissance. On souhaite évaluer les chances qu’une telle situation se présente. On peut modéliser cette situation, en première approximation, par 100 tirages aléatoires avec remise dans l’ensemble fini $\{1,\ldots,365\}$ des 365 jours d’une année. Un modèle de probabilité plus réaliste devrait prendre en compte les années bissextiles, ainsi que les variations saisonnières du taux de natalité, etc. À partir du modèle uniforme sur l’ensemble $\Omega=\{1,\ldots,365\}^{100}$, la probabilité qu’au moins deux personnes dans l’amphithéâtre aient leur anniversaire le même jour est au moins de $0{,}9999996$ !

Exemple
  1. Modèle uniforme sur un ensemble fini $\Omega=\{\omega_1,\ldots,\omega_N\}$\[i=1,\ldots,N,\quad\P(\{\omega_i\}):=\frac{1}{N}\tag{$\mathrm{U}\{\omega_1,\ldots,\omega_N\}$}\]
  2. Modèle de Bernoulli de paramètre $p\in[0,1]$ : $\Omega=\{0,1\}$\[\begin{array}{rc}&\P(\{1\}):=p\text{ et }\P(\{0\}):=1-p \\\iff &\omega\in\{0,1\}:\ \P\bigl(\{\omega\}\bigr):=p^{\omega}(1-p)^{1-\omega}\end{array}\tag{$\mathrm{Ber}(p)$}\]
  3. Modèle Binomial de paramètres $(n,p)\in\N^*\times [0,1]$: $\Omega=\{0,\ldots,n\}$\[\forall\omega\in\{0,\ldots,n\},\quad\P\bigl(\{\omega\}\bigr):=C_n^{\omega}\,p^{\omega}(1-p)^{n-\omega}\tag{$\mathrm{Bin}(n,p)$}\]
  4. Modèle géométrique de paramètre $p\in]0,1]$ : $\Omega=\N^{\ast}$\[\forall\omega\in\N^{\ast},\quad\P\bigl(\{\omega\}\bigr):=(1-p)^{\omega-1} p.\tag{$\mathrm{Géo}(p)$}\]
  5. Modèle de Poisson de paramètre $\lambda\gt 0$ : $\Omega=\N $\[\forall\omega\in\N,\quad\P\bigl(\{\omega\}\bigr):=\exp(-\lambda)\,\frac{\lambda^{\omega}}{\omega!}\tag{$\mathrm{Pois}(\lambda)$}\]
Remarque

Notons que dans le cas où $\Omega\subset\N $ alors toute série à termes positifs $\sum u_n$ peut servir de base de construction d’un modèle de probabilité selon $\eqref{eq:P_omega}$. En effet, il suffit de poser :\[\forall n\ge 0,\ p_n=\frac{u_n}{\sum_{n=0}^{+\infty} u_n}\]Par exemple, la série géométrique $\sum r^n$ est convergente ssi $|r|\lt 1$ et, dans ce cas, de somme $1/(1-r)$. On propose le modèle géométrique $\mathrm{Géo}(p)$ pour $p\in]0,1]$ en posant $u_0=0$ et pour $n\ge 1$, $u_n=(1-p)^{n-1}$. De même, si on utilise $u_n=\lambda^n/n!$ alors on retrouve le modèle de Poisson $\mathrm{Pois}(\lambda)$. Notons que si $\eqref{eq:P_omega}$ est associée à une série numérique $\sum p_n$, on requiert la convergence de cette série donc\[\lim_{} p_n=0.\]En particulier, on rappelle que la série de Riemann de référence $\sum 1/n^{\alpha}$ converge ssi $\alpha\gt 1$. Autrement dit la suite $(1/n^{\alpha})_{n\ge 1}$ doit converger vers 0 suffisamment vite. Un modèle de probabilité sur $\Omega\subset\N $ non-fini requiert que les probabilités associées aux grandes valeurs du résultat tendent vers 0 assez vite. Autrement dit, pour les nombreux modèles sur $\N $, l’essentiel de la confiance est concentrée plutôt sur les « premiers » résultats. Si on revient au modèle géométrique, la convergence de $(p_n)_{n\ge 1}$ vers 0 est en $(1-p)^n$ donc d’autant plus rapide que $1-p$ est proche de 0, ou encore que $p$ est proche de $1$. Cette tendance sera à mettre en relation avec l’usage habituel de ce modèle (cf premier instant de succès). Elle peut être évaluée facilement en déterminant $n_0$ tel que pour $\varepsilon\gt 0$ fixé,\[\forall n\ge n_0,\quad p_n=p(1-p)^{n-1}\le\varepsilon.\]

Cette remarque amène deux visions différentes du même objectif : aller vers un environnement de travail plus exploitable.

  • Du point de vue « mise en oeuvre
    Pour un modèle de probabilité sur $\Omega\subset\N$ non fini, si un calcul à la main n’est pas possible ou peu engageant, la mise en oeuvre numérique passe par une restriction de l’ensemble des résultats à un ensemble fini (éventuellement grand). Le contrôle de la vitesse de convergence de $p_n$ vers 0 doit permettre au moins dans un premier temps le contrôle de l’approximation réalisée en remplaçant le modèle initial pour un $\Omega$ infini à modèle associé à un $\Omega’\subset\Omega$ fini.
  • Du point de vue mathématique
    Les difficultés analytiques rencontrées dans la manipulation d’un modèle sur un $\Omega$ fini (dénombrement, calcul de sommes finies, …) pousse souvent le mathématicien à proposer des modèles sur un $\Omega’=\N $ pour « simplifier les calculs analytiques » à l’aide d’outils adaptés. Autrement dit, d’un point de vue mathématique, l’emploi de modèles avec un $\Omega$ dénombrable est plutôt vue comme un piste de simplification contrairement le plus souvent au sentiment premier d’un étudiant.
Notation

Pour alléger les écritures $\P\bigl(\{\cdots\}\bigr)\equiv\P\{\cdots\}$