Probabilité conditionnelle
On réalise un jet de dé à $6$ faces. On suppose que le dé et le lancer ne sont pas biaisés (dé « équilibré », main « innocente », …). La probabilité d’obtenir $ A=\{2\} $ vaut intuitivement $1/6$. Maintenant supposez que vous n’êtes pas l’observateur de l’expérience (le jet a été effectué dans une autre pièce) et que l’observateur vous dise que le résultat est un nombre pair (autrement dit l’événement $ B=\{2,4,6\} $ est réalisé). Quelle est la probabilité noté $\P(A\mid B)$ que l’on obtienne $2$, sachant maintenant que le résultat est pair ?
Intuitivement, on a envie de répondre que $\P(A\mid B)\neq\P(A)$ et $\P(A\mid B)=1/3$.
Pour représenter cette modification de notre niveau d’information, on va introduire un nouveau modèle de probabilité $\P(\cdot\mid B)$ sur $(\Omega,\mathcal{E})$ en imposant que\[\begin{equation}\P(B\mid B)=1,\ \forall A\in\mathcal{E},\ \P(A\mid B)=\P(A\cap B\mid B),\label{eq:contraintes_cond}\end{equation}\]c’est à dire, au vu de notre niveau d’information, on se « désintéresse » des résultats de $\Omega$ qui ne réalisent pas $B$.
Soit $A$ et $B$ deux événements associés à $(\Omega,\mathcal{E},\P)$ tels que $\P(B)\gt 0$.
La probabilité conditionnelle de l’événement $A$ sachant que $B$ est réalisé est\[\P(A\mid B)=\frac{\P(A\cap B)}{\P(B)}.\]La quantité $\P(A\mid B)$ peut être interprétée comme une évaluation de la vraisemblance de réalisation de l’événement $A$ sachant que $B$ est réalisé.
L’événement $B\in\mathcal{E}$ étant fixé, l’application\[\begin{align*}\P(\cdot\mid B):&&\mathcal{E}\longrightarrow[0,1] \\&& A\longmapsto\P(A\mid B)\end{align*}\]est une probabilité sur $\left(\Omega,\mathcal{E}\right)$ vérifiant les égalités $\eqref{eq:contraintes_cond}$.
Nous avons à vérifier les deux propriétés caractéristiques d’une probabilité :
- $\P(\Omega\mid B)=\P(\Omega\cap B)/\P(B)=\P(B)/\P(B)=1$.
- Pour une famille dénombrable d’événements 2 à 2 disjoints $\{A_i\}_{i\in\N}$ de $\mathcal{E}$, comme $\P$ est une probabilité, on a :\[\P(B\cap\uplus_{i\in\N} A_i)=\P(\uplus_{i\in\N}B\cap A_i)=\sum_{i\in\N}\P(B\cap A_i).\]On en déduit que :\[\begin{align*}\P(\uplus_{i\in\N} A_i\mid B)&=\P(B\cap\uplus_{i\in\N} A_i)/\P(B) \\&=\sum_{i\in\N}\P(B\cap A_i)/\P(B) \\&=\sum_{i\in\N}\P(A_i\mid B).\end{align*}\]
Si on reprend l’exemple introductif avec $B=\{2,4,6\}$ de probabilité $\P(B)=1/2$, on obtient avec la définition que\[\P\bigl(\{\omega\}\mid B\bigr)=\begin{cases}0 &\text{si $\omega\notin B$} \\\frac{\P\bigl(\{\omega\}\bigr)}{\P(B)}=\frac{1/6}{1/2}=\frac{1}{3} &\text{si $\omega\in B$}.\end{cases}\]
- Il est naturel de penser que l’ajout d’une information sur la réalisation (ou non) d’un événement $B$ dans un contexte initial de réalisation de l’expérience devrait aboutir à ce que $\P(A\mid B)$ soit plus simple à évaluer que $\P(A)$. Le conditionnement doit donc être vu comme un outil de simplification du travail à réaliser.
- La définition précédente reprend $\Omega$ comme espace fondamental (et $\mathcal{E}$ comme ensemble d’événements), ce qui peut paraître étrange au vu des motivations qui conduisent à la formule définissant une probabilité conditionnelle. Il n’y a pas de contradiction car la probabilité (conditionnelle) $A\mapsto\P(A\mid B)$ sur $(\Omega,\mathcal{E})$ est également une probabilité sur l’espace fondamental « restreint » $\Omega_B=B$ avec comme ensemble d’événements $\mathcal{E}_B:=\{A\cap B, A\in\mathcal{E}\}$ (la trace des éléments de $\mathcal{E}$ sur $B$). En effet $\P(\Omega_B\mid B)=1$ et $\forall\,C:=A\cap B\in\mathcal{E}_B$, $\P(C\mid B)=\P(A\mid B)$.
Cela formalise l’idée, qu’avec la connaissance de la réalisation de $B$, à savoir le résultat de l’expérience est dans $B$, on peut se désintéresser des résultats de $\Omega$ qui ne réalisent pas $B$ (on pourra reprendre l’exemple introductif où $\P(\cdot\mid B)$ est un modèle uniforme sur $\Omega_B=B$). Cependant, pour éviter des difficultés de manipulation de probabilités pouvant découler de plusieurs sources de conditionnement, il est plus adapté de conserver l’espace fondamental initial (voir par exemple la formule des probabilités totales).
- Si $A\subset B$ alors $\P(A\mid B)=\P(A)/\P(B)$ et $\P(B\mid A)=1$.
- $\forall (A,B)\in\mathcal{E}\times\mathcal{E}$, $\P(A\cap B)=\P(A\mid B)\times\P(B)=\P(B\mid A)\times\P(A)$.
Vérifications directes à partir des définitions.
Une fois introduite la propriété d’indépendance de deux événements $A$ et $B$, la seconde propriété est souvent source de confusion pour justifier l’expression de la probabilité $\P(A\cap B)$ comme un produit de deux probabilités. Il faut noter qu’ici les égalités proposées sont satisfaites pour tout couple d’événements.
Pour toute partition $\big\{A_i,i\in I\big\}$ ($I\subset\N$) de $\Omega$ :\[\begin{align*}\forall B\in\mathcal{E},\ &\P(B)=\sum_{i\in I}\P(B\cap A_i) \\&\P(B)=\sum_{i\in I}\P(B\mid A_i)\,\P(A_i)\quad\text{(formule des probabilités totales)}\end{align*}\]La seconde formule requiert que $\P(A_i)\gt 0$ pour tout $i$.
La première formule est une conséquence directe du fait que $\Omega=\uplus_{i\in I} A_i$ et de la propriété d’additivité de la probabilité $\P$:\[\begin{align*}\forall B\in\mathcal{E},\ \P(B) &=\P(B\cap\Omega)=\P(B\cap\uplus_{i\in I} A_i) \\&=\P(\uplus_{i\in I}B\cap A_i)=\sum_{i\in I}\P(B\cap A_i).\end{align*}\]
La formule des probabilités totales découle directement de la première égalité en utilisant le fait que $\P(B\cap A_i)=\P(B\mid A_i)\,\P(A_i)$.
La formule des probabilités totales consiste à évaluer la probabilité que $B$ se réalise par la procédure :
- se donner une partition $\big\{A_i,i\in I\subset\N\big\}$ de $\Omega$ ou encore en termes de « logique », ce qu’on appelle un ensemble d’alternatives exclusives (pas de réalisation simultanée de plusieurs d’entre elles) et exhaustives (car elles recouvrent l’ensemble des possibles) ;
- évaluer la probabilité $\P(B\mid A_i)$ pour que $B$ se réalise sachant que l’alternative $A_i$ est réalisée ;
- faire la somme pondérée des probabilités $\P(B\mid A_i)$, chacune d’elle étant pondérée par la probabilité que l’alternative $A_i$ soit réalisée.
S’il est naturel de penser que l’ajout d’une information sur la réalisation (ou non) d’un événement $A_i$ dans un contexte initial de réalisation de l’expérience devrait aboutir à ce que $\P(B\mid A_i)$ soit plus simple à évaluer que $\P(B)$, la question initiale reste la valeur de $\P(B)$. La formule des probabilités totales permet de revenir à la question initiale pour un choix approprié de l’information ajoutée.
Dans le cas présent, la famille $\big\{A_i,i\in I\big\}$ est une partition de $\Omega$. Bien entendu, il reste à choisir une partition judicieuse pour la question posée et à déterminer les $\P(A_i)$.
L’utilisation de la formule des probabilités totales est très naturelle dans un grand nombre de contextes où l’expérience à analyser repose sur une dynamique « temporelle ». En effet, il sera très naturel d’évaluer ce qui va se passer à l’instant $n+1 $ à partir de ce qui s’est passé à l’instant $n$. En particulier, c’est souvent le cas avec un jeu où ce qui se passe lors de la partie $(n+1)$ dépend du résultat de la partie $n$ et des règles du jeu qui dressent les possibilités d’action à partir de la connaissance de l’issue de la partie $n$.
On effectue deux tirages au hasard sans remise dans une urne à $N$ boules, dont $b$ sont rouges et $N-b$ sont noires. On peut considérer qu’un résultat de cette expérience est une liste (ordonnée) sans répétition de longueur 2. Soit $\Omega$ l’ensemble de toute ces listes. Il est de cardinal $A^2_N=N(N-1)$. Les conditions suggèrent le choix d’un modèle uniforme sur $\Omega$ : $\forall\omega\in\Omega,\P\bigl(\{\omega\}\bigr)=1/A^2_n=1/N(N-1)$.
On se pose deux questions :
- quelle est la probabilité d’obtenir une rouge au second tirage ?
- quelle est la probabilité d’obtenir exactement une rouge à l’issue des 2 tirages ?
Soit $R_2$ et $R_{12}$ les deux événements associées.
Au vu de l’expérience, il est clair que connaître le résultat du premier tirage, nous amène à appréhender le second comme un tirage au hasard dans l’urne avec les deux nouvelles caractéristiques : l’urne ne contient plus que $N-1$ boules, et la valeur du premier tirage donne la répartition exacte entre boules rouges et noires de l’urne. Si le fait d’obtenir une boule rouge au premier tirage est noté $A_1$ alors $A_1,\overline{A_1}$ est une partition de $\Omega$ et\[\begin{align*}\P(R_2\mid A_1)&=(b-1)/(N-1),\\\P(R_2\mid\overline{A_1})&=b/(N-1).\end{align*}\]Comme $\P(A_1)=b/N$, on a $\P(\overline{A_1})=1-b/N=(N-b)/N$.
La formule des probabilités totales donne :\[\begin{align*}\P(R_2)&=\P(R_2\mid A_1)\P(A_1)+\P(R_2\mid\overline{A_1})\P(\overline{A_1}) \\&=\frac{b-1}{N-1}\frac{b}{N}+\frac{b}{N-1}\frac{N-b}{N} \\&=\frac{(N-1)b}{N(N-1)}=\frac{b}{N}.\end{align*}\]En introduisant la même information du résultat du premier tirage, on obtient que\[\begin{align*}\P(R_{12}\mid A_1)&=(N-b)/(N-1),\\\P(R_{12}\mid\overline{A_1})&=b/(N-1),\end{align*}\]d’où avec la formule des probabilités totales :\[\begin{align*}\P(R_{12})&=\P(R_{12}\mid A_1)\P(A_1)+\P(R_{12}\mid\overline{A_1})\P(\overline{A_1}) \\&=\frac{N-b}{N-1}\frac{b}{N}+\frac{b}{N-1}\frac{N-b}{N} \\&=2\frac{b(N-b)}{N(N-1)}=\frac{C^1_b C^1_{N-b}}{C^2_N}.\end{align*}\]Bien entendu, comme on a choisit un modèle uniforme sur $\Omega$, on peut effectuer le calcul de $\P(R_2)$ et $\P(R_{12})$ directement à partir d’argument de dénombrement :
- $R_2$ regroupe toutes les listes de longueur 2 qui se terminent par une boule rouge et $\P(R_2)=\Card(R_2)/\Card(\Omega)$.
Pour chaque boule rouge positionnée en seconde position, il suffit de positionner une boule de n’importe quelle couleur en première : on peut en constituer $N-1$. Comme on dispose de $b$ possibilités de placer une rouge en seconde, on a un total de $b\times (N-1)$ telles listes.
Ainsi $\P(R_2)=b\times (N-1)/\bigl(N(N-1)\bigr)=b/N$.- On peut procéder de la même façon pour $R_{12}$ et retrouver l’expression $2 b(N-b)/\bigl(N(N-1)\bigr)$.
Une particule $\Pi$ peut évoluer au cours du temps entre deux positions $A$ et $B$. Au temps $n=0$, $\Pi $ est en $A$.
- Pour $n\geq 1,$ on note $A_n $ (resp $B_n)$ l’événement : « $\Pi$ est en $A$ (resp $B)$ au temps $n$ » et\[\alpha_n=\P(A_n)\qquad\beta_n=\P(B_n).\]
- On suppose qu’il existe $\theta\in\left] 0,1\right[$ tel que $\P(A_{n+1}\mid A_n)=\P(B_{n+1}\mid B_n)=\theta$.
Déterminer une relation de récurrence entre $\alpha_n$ et $\alpha_{n+1}$, et calculer la limite de la suite $(\alpha_n)_{n\geq 1}$.
Soit $(\Omega,\mathcal{E},\P)$ un espace probabilisé.
- Pour tout couple d’événements $A,B\in\mathcal{E}$ on a :\[\P(A\mid B)=\frac{\P(B\mid A) \ \P(A)}{\P(B)}\]
- Pour toute partition $\left\{A_i,i\in I\right\} $ ($I\subset\N $) de $\Omega$, on a :\[\forall i\in I,\qquad\P(A_i \mid B)=\frac{\P(B\mid A_i) \ \P(A_i)}{\sum_{i\in I}\P(B\mid A_i) \ \P(A_i)}\]
- Découle de la définition de probabilité conditionnelle et du fait que $\P(A\cap B)=\P(B\mid A)\P(A)$.
- Utiliser le point #1 pour $A\equiv A_i$ et la formule des probabilités totales pour calculer $\P(B)$.
Un cadre usuel dans les exercices : les événements $A_i$ sont un ensemble d’alternatives susceptibles de produire un effet $B$ avec une probabilité $\P(B\mid A_i)$. Ayant observé l’effet $B$, on calcule la probabilité pour que la cause $A_i $ ait produit l’effet observé $B$. L’exercice suivant propose une illustration.
Cette méthode est en particulier très présente dans des problèmes de classification, comme par exemple en reconnaissance de forme où on cherche à reconnaître une forme à partir de la mesure d’une famille $\mathcal{F}$ de caractéristiques.
On dispose d’un catalogue de formes qui liste l’ensemble (fini) de toutes les classes $\{\mathcal{C}_i,i=1,\ldots,N\}$ auxquelles peut appartenir une forme. En général, on a pu estimer la probabilité (a priori) d’appartenance d’une forme à chacune de ces classes. À l’intérieur de chaque classe, on dispose des répartitions suivant les caractéristiques de $\mathcal{F}$. Le problème est alors de classer une forme qui se présente sur la base de la seule connaissance de ces caractéristiques de $\mathcal{F}$. La procédure dite du maximum a posteriori (ou MAP) consiste à affecter la forme à la classe de plus forte probabilité a posteriori, c’est dire $\max(\P(\mathcal{C}_i\mid\mathcal{F}), i=1,\ldots, N)$. Cette procédure a la propriété de ne pas requérir le calcul de la constante de normalisation $\P(\mathcal{F})$ dans les probabilités a posteriori.
On s’intéresse à la production d’une puce électronique par l’usine du fabricant Sonia localisée à Puceland. Cette usine comporte trois chaînes de production $A$, $B$ et $C$ qui assurent respectivement 50%, 30% et 20% de la production. Des études de contrôle de qualité ont été pratiquées pour chacune des chaînes. On estime que le pourcentage de pièces défectueuses issues de chacune de ces machines est respectivement de 3%, 4% et 5%.
Le PDG de Sonia achète une puce de marque Sonia. Il se rend compte qu’elle est défectueuse. Le seule information qu’il est capable d’identifier sur l’emballage est qu’elle a été fabriquée par l’usine de Puceland. Par ailleurs, il dispose d’un dossier reportant les résultats des contrôles de qualité de l’usine évoqués précédemment. Il souhaite licencier le responsable de la chaîne qui a produit la puce. Il lui faut donc concevoir une procédure permettant de déterminer la chaîne impliquée avec un risque minimal de se tromper.
Une pièce est caractérisée par l’étiquette $A,B,C$ de la machine l’ayant produite et son caractère défaillant ou non codée 1 et 0 respectivement. Ainsi, l’ensemble fondamental associé à un achat d’une puce est\[\Omega:=\{(A,0), (A,1), (B,0), (B,1), (C,0), (C,1)\}.\]
- Pour un modèle de probabilité $\P$ donné sur $(\Omega,\P(\Omega))$ :
- Au vu des données de production, quelles devraient être la valeur des probabilités qu’une pièce achetée provienne de la chaîne $A$, $B$ ou $C$ ?
- Les données de contrôle de qualité permettent de fixer quelles probabilités ?
- En déduire un modèle de probabilité $\P$ compatible avec les choix précédents. Dans toute la suite, il s’agira du modèle de référence.
- Déterminer la probabilité qu’une pièce achetée soit défectueuse.
- Calculer les trois probabilités, dites a posteriori, que la puce ait été produite par $A$, $B$ ou $C$ sachant qu’elle est défectueuse.
- Le PDG décide de sanctionner le responsable de la chaîne associée à la plus forte probabilité a posteriori de production de la puce incriminée.
- Quel responsable est finalement licencié ?
- La règle de décision dépend-elle de la valeur de $\P(D)$ ?
- Déterminer la probabilité de réaliser un licenciement injustifié. Montrer que la procédure utilisée par le PDG minimise l’erreur commise.
Cet exercice n’est pas aussi artificiel qu’on pourrait le penser car il peut être vu comme une présentation dans un contexte simple.
La puce joue le rôle de forme, les trois machines celui de trois classes. La caractéristique mesurable sur la forme c’est son caractère défectueux ou non. Les probabilités de la question (1a) sont les probabilités a priori pour que la forme appartienne à l’une des trois classes, celles du (2a) les probabilités a posteriori, et en (3a), on reconnaît la procédure du MAP.
Il est classique en classe Terminal d’introduire la notion « d’arbre » avec celle de probabilité conditionnelle. Le principe est que les noeuds de l’arbre sont associées à des événements de l’expérience. La racine est par définition $\Omega$. Les branches issues d’un noeud associée à un événement $C$ ont pour extrémités une partition de l’ensemble $\Omega$, disons $\{A_i,i\in I\text{ fini}\}$. La branche conduisant de $C$ à $A_i$ est étiqueté par la probabilité conditionnelle $P(A_i\mid C)$. Ainsi la somme des probabilités associées aux branches issues d’un noeud $C$ vaut toujours 1.
Image en cours de réalisation…
Dans le cas où $C=\Omega$ alors $\P(A_i\mid\Omega)=\P(A_i)$. La feuille correspond à l’événement « intersection de tous les événements associés aux noeuds traversés pour parvenir à la feuille ». La probabilité obtenue en multipliant toutes les probabilités étiquetant les branches traversées est la probabilité de l’intersection d’événements associée à la feuille. Ainsi la formule des probabilités totales (avec $I=\{1,2,3\}$, est codée dans dans l’arbre de la Figure précédente. Par exemple, le chemin associé à la séquence de noeuds $\Omega, A_3,B$ donne une feuille associée à l’événement $\Omega\,\cap A_3\cap B=A_3\cap B$ de probabilité le produit $\P(A_3)\times\P(B\mid A_3)=\P(A_3\cap B)$. Pour calculer $\P(B)$ il suffit d’additionner les probabilités associées à tous les chemins allant de $\Omega$ à une feuille étiquetée $B$ : $\sum_{i=1}^ 3\P(A_i)\times\P(B\mid A_i)$ c’est à dire la formule des probabilités totales appliquées avec la partition $\{A_1,A_2,A_3\}$. Cette représentation sous forme d’arbre ne sera pas reprise dans la suite de ce cours.
Indépendance d’événements
Intuitivement, l’indépendance de deux événements $A$ et $B$ correspond à l’absence de liaison entre leurs vraisemblances respectives de réalisation.
Une manière de coder cette propriété est d’imposer que si $\P(B)>0$, alors $\P(A\mid B)=\P(A)$ ou encore\[\frac{\P(A\cap B)}{\P(B)}=\P(A)\iff\P(A\cap B)=\P(A)\,\P(B).\]Le même raisonnement si $\P(A)\gt 0$ conduit à la même relation $\P(A\cap B)=\P(A)\,\P(B)$.
- Deux événements $A$ et $B$ de $(\Omega,\mathcal{E},\P) $ sont indépendants ssi\[\P(A\cap B)=\P(A)\times\P(B).\]
- Une famille finie d’événements $\{A_i\}_{i=1}^n $ de $(\Omega,\mathcal{E},\P) $ sont dits mutuellement indépendants si\[\forall I\subset\{1,\ldots,n\},\ \P\big(\cap_{i\in I}A_i\big)=\prod_{i\in I}\P(A_i)\]
On notera que la formule définissant l’indépendance de deux événements $A$ et $B$ est symétrique en $A$ et $B$, ce qui est cohérent avec le support intuitif du concept d’indépendance. Par ailleurs, cette formule est valable quelle que soit les valeurs des probabilités de $A$ et $B$.
- $A$ et $B$ sont indépendants ssi ($\overline{A}$ et $B$) ou ($\overline{B}$ et $A$) ou ($\overline{A}$ et $\overline{B}$) sont indépendants.
- $\{A_i\}_{i=1}^n $ sont mutuellement indépendants ⇒ 2 à 2 indépendants.
La réciproque est fausse en général.
Exemples d’espace probabilisé discret
Une épreuve de Bernoulli de paramètre $p\in[0,1]$ est une expérience aléatoire dont les deux résultats possibles sont codés par $0$ et $1$ (codage binaire). On associe à cette expérience la probabilité $\P_1$ définie par\[\omega\in\{0,1\}\ :\ \P_1\{\omega\}=p^{\omega}\,(1-p)^{1-\omega}\quad 0\leq p\leq 1.\]La terminologie classique associe les termes échec et succès respectivement aux résultats $0$ et $1$. Le modèle de Bernoulli est donc donné par :\[\Omega_1=\{0,1\}\quad\mathcal{E}_1=\P\bigl(\Omega_1\bigr)=\bigl\{\emptyset,\{0\},\{1\},\{0,1\}\big\},\P_1\tag{$\mathrm{Ber}(p)$}\]
Toute expérience conduisant à deux résultats possibles $\omega_1,\omega_2 $ peut être identifiée à une épreuve de Bernoulli, en recodant par exemple $\omega_1$ par $0$ et $\omega_2$ par $1$.
C’est le nombre de succès obtenus à l’issue de $n$ répétitions indépendantes d’une épreuve de Bernoulli
On réalise $n$ répétitions indépendantes d’une épreuve de Bernoulli de paramètre $p$.
- L’espace fondamental : $\Omega_n=\{0,1\}^n={\Omega_1 }^n$.
- L’ensemble des événements considérés $\mathcal{E}_n=\P\left(\Omega_n\right)$.
- Pour respecter l’indépendance entre les résultats consécutifs, on définit la probabilité $\P_n$ sur $\Omega_n$ par :\[\begin{align*}\forall\omega\in\Omega_n,\ \P_n\bigl\{\omega=(\omega_1,\ldots,\omega_n)\bigr\}&:=\prod_{i=1}^n\P_1\{\omega_i\} \\&=\prod_{i=1}^n p^{\omega_i}(1-p)^{1-\omega_i} \\&=p^{\sum_{i=1}^n w_i}\ (1-p)^{n-\sum_{i=1}^n w_i}.\end{align*}\]Si la séquence $\omega$ contient $k$ fois $1$ ou $k$ succès et donc $(n-k)$ fois $0$, on a $\P_n\big\{\omega\}=p^k\left(1-p\right)^{n-k}$.
Notons que, dans le modèle $\P_n$, $\P_n\{\text{obtenir $\omega_i$ au tirage $i$}\}=\P_1\{\omega_i\}$, $i=1,\ldots,n$.
On s’intéresse maintenant au nombre $k$ de succès obtenus à l’issue des $n$ répétions de l’épreuve de Bernoulli :
- valeurs possibles : $k=0,\ldots,n$.
- On introduit l’événement $A_k$ « obtenir exactement $k$ succès à l’issue des $n$ épreuves » :\[A_k=\left\{\omega\in\Omega_n\mid k\text{ composantes exactement sont à 1}\right\},\]et on a :\[\P_n(A_k)=\sum_{w\in A_k}\P_n\{w\}=\sum_{w\in A_k}p^k{(1-p)}^{n-k}=\Card(A_k)\,p^k\,(1-p)^{n-k}.\]Il reste à utiliser le fait que $\Card(A_k)=C_n^k$ le nombre de possibilités de positionner les $k$ symboles 1 dans la séquence de $n$ symboles.
On appelle modèle binomial, la probabilité sur $\{0,\ldots,n\} $ définie, pour $n\ge 1$ et $0\le p\le 1$, par\[\forall k\in\{0,\ldots,n\},\quad\P\{k\}=C_n^k\,p^k (1-p)^{n-k}.\tag{$\text{Bin}(n,p)$}\]
Conclusion : Le modèle binomial $\mathrm{Bin}(n,p)$ intervient donc naturellement pour quantifier les incertitudes sur le nombre de succès obtenus à l’issue de $n$ répétitions indépendantes d’une épreuve de Bernoulli de paramètre $p$, où $p$ est la probabilité de succès à une épreuve.
C’est le nombre de répétitions de l’épreuve de Bernoulli nécessaires à l’obtention d’un premier succès
On répète « indéfiniment », de manière indépendante, uneépreuve de Bernoulli de paramètre $p$ :
- l’espace fondamental est $\Omega_{\infty}=\left\{0,1\right\}^{\N^*}\mathbb{\,}$ l’ensemble de toutes les suites binaires. C’est un ensemble continu.
- On peut démontrer (hors du cadre de ce cours) que l’on peut définir un ensemble d’événements $\mathcal{E}_{\infty}$ sur $\Omega_{\infty}$ et une probabilité $\P_{\infty}$ telles que\[\begin{align*}\forall n\geq 1,\ &\P_{\infty}(\text{les $n$ premiers termes de la suite $\omega$ sont $\omega_1,\omega_2,\ldots,\omega_n$}) \\&=\P_n\bigl\{(\omega_1,\ldots,\omega_n)\bigr\} \\&=p^k\left(1-p\right)^{n-k}\quad\text{si la séquence finie $(\omega_1,\ldots,\omega_n)$ présente exactement $k$ succès.}\end{align*}\]
Autrement dit, sous $\P_{\infty}$, la probabilité de tout événement n’invoquant que $n$ répétitions de l’épreuve de Bernoulli coïncide avec celle donnée par le modèle $\P_n$ associée à ces $n$ répétitions.
On s’intéresse maintenant au nombre de répétitions nécessaires pour obtenir un premier succès. C’est une quantité qui dépend du hasard et qui potentiellement peut prendre toutes les valeurs entières $k\geq 1.$
Introduisons l’événement $B_k $ : « le premier succès a lieu lors de la répétition $k$ » alors :\[\begin{align*}\forall k\ge 1,\ \P_{\infty}(B_k)&=\P_{\infty}\bigl\{\omega\in\Omega_{\infty}\mid(\omega_1,\ldots,\omega_{k-1},\omega_k)=(0,0,0,\ldots,0,1)\bigr\} \\&=\P_k\big\{(0,0,0,\ldots,0,1)\big\}=(1-p)^{k-1}p.\end{align*}\]
Conclusion : La probabilité géométrique sur les entiers $\N^{\ast}$ quantifie l’incertitude sur le nombre de répétitions indépendantes d’une épreuve de Bernoulli de paramètre $p$ (probabilité de succès de l’épreuve) nécessaires à l’obtention du premier succès. On parle parfois du temps d’attente du premier succès.