Origine de la théorie des probabilités mathématiques
La théorie des probabilités, a été développée à partir de débuts très modestes. Ses racines se trouvent dans une simple théorie mathématique des jeux de hasard qui a été fondée il y a près de trois siècles.
Dans la société française de 1650, le jeu était un divertissement régulier et à la mode, et apparemment pas très soumis aux restrictions légales. Un joueur passionné, le Chevalier de Meré, a eu l’idée de consulter à Paris le mathématicien et philosophe Blaise Pascal pour des questions liées à certains jeux de hasard ; ce qui a donné lieu à une correspondance entre Pascal et quelques de ses amis mathématiciens, en particulier Pierre Fermat de Toulouse. Cette correspondance est à l’origine de la théorie moderne de la probabilité. Pendant le reste du XVIIème siècle, les questions posées par De Méré et d’autres du même type ont été l’objet des discussions entre les mathématiciens.
Dans tous les jeux actuels de hasard avec des dés, des cartes, des roulettes et autres appareils similaires, chacune doit donner un résultat d’un des nombres possibles, représenté par les six faces d’un dé, les 37 cases de la roulette, les 52 cartes d’un jeu de carte, etc. Si l’appareil de jeu est fait correctement et le jeu a lieu de façon adéquate, il est peu probable de prévoir à l’avance lequel de ces résultats possibles pourraient être obtenu dans une partie déterminée. Cette même impossibilité de prédiction constitue « l’aléatoirité« , l’élément qui caractérise l’incertitude, c’est à dire le hasard du jeu. Par ailleurs, il existe entre les différents résultats possibles, une symétrie réciproque qui nous fait considérer ces résultats comme équivalents du point de vue du jeu. En d’autres termes, nous considérons qu’il est aussi favorable pour un joueur de risquer son pari ou n’importe lequel des autres résultats possibles.
Supposons un jeu dans lequel ces conditions soient remplies. Par conséquent, chaque fois qu’une partie est faite, il sera obtenu un résultat parmi un certain nombre d’entre eux, ou cas possibles, et parmi ceux-ci il y a une symétrie mutuelle de ce genre qu’on vient d’indiquer. Soit $n$ le nombre total de ces cas possibles. Supposons en plus que du point de vue d’un certain joueur $A$, le nombre total $n$ des cas possibles peut être divisé en un groupe de cas favorables, contenant $r$ cas, et un autre sous-ensemble des cas défavorables incluant les cas restants $(n-r)$. Nous entendons par là que selon les règles du jeu, la présence de l’un des cas favorables $r$ ferait implicitement gagner $A$, tandis que la présence de l’un des cas défavorables $(n-r)$ impliquerait que $A$ soit perdant. Si nous nous intéressons à l’estimation de la probabilité qu’a $A$ de gagner, il semble donc naturel de considérer le quotient $\frac rn$ entre le nombre $r$ des cas favorables et le total $n$ des cas possibles, en considérant ce quotient comme une mesure de probabilité.
Eh bien, c’est précisément ce qu’ont fait les auteurs classiques qui traitent ce sujet. La principale difficulté consistait à calculer réellement des nombre $r$ et $n$ des cas favorables et possibles à chaque partie. Dès que ces nombres étaient connus pour le jeu donné, on formait son quotient : \[P=\frac{r}{n}\]Peu à peu, ce quotient est devenu connu comme la probabilité du fait (probabilité de succès) qui consiste qu’un joueur $A$ gagne. Cette façon de voir les choses a conduit à avoir la célèbre définition classique de probabilité suivante :
La probabilité d’avoir cet évènement particulier est égal au quotient du nombre de cas qui sont favorables à cet évènement, pour le nombre total de cas possibles, à condition que tous ces cas soient mutuellement symétriques ou également possibles. En raisonnant similairement, la probabilité des cas non favorables (probabilité d’échec) serait : $\dfrac{n-r}{n}=1-P=Q$
Bien qu’il ait beaucoup tardé à apparaitre une formule explicite d’une définition du même genre, elle fut admise à peu près tacitement par Pascal, Fermat et ses contemporains. D’après cette définition, nous devrions dire, par exemple, que la probabilité d’obtenir un six avec un dé correct est $\dfrac 16$, celle de tirer une carte de cœur d’un paquet de 52 cartes est de $\dfrac{13}{52}=\dfrac 14$.
Les probabilités et l’expérience
Déjà dans une première époque, la grande masse d’observations empiriques accumulées en relation avec les divers jeux de hasard avait révélé une forme générale de régularité qui s’est avéré être de la plus haute importance pour le futur développement de ce sujet.
Considérons n’importe quel jeu, dans lequel chaque fois qu’une partie est faite, il y ait $n$ cas possibles qui sont mutuellement symétriques dans le sens indiqué dans le cours précédent. Si ce jeu est répété dans des conditions uniformes un grand nombre de fois, alors il en ressort que tous les $n$ cas possibles vont tendre à la longue à apparaitre le même nombre de fois. Ainsi, à la longue, chaque cas possible sera présent à peu près dans la proportion de $\dfrac 1n$ du nombre total de répétitions.
Si par exemple on jette une pièce de monnaie un grand nombre de fois, nous constatons que les piles et les faces seront présents approximativement le même nombre de fois. De manière analogue, si nous jetons un dé un grand nombre de fois, chacune des six faces sera présente environ $\dfrac 16$ du nombre total de jets. La régularité définit la probabilité.
Si nous acceptons cette régularité comme un fait empirique, nous pouvons faire une importante conclusion. Supposons que notre joueur $A$ fait partie d’un jeu dans lequel à chaque partie, il y a $c$ cas possibles et mutuellement symétriques, parmi lesquels $r$ sont favorables à $A$. Répétez le jeu $x$ fois dans des conditions uniformes, et supposons que $A$ gagne $f$ fois et perde le restant $n-f$. Le nombre $f$ est appelée alors fréquence absolue ou tout simplement fréquence de l’évènement qui consiste en ce que $A$ gagne, tandis que le quotient $\dfrac fx$ recevra la dénomination de fréquence relative ou raison fréquentielle.
Maintenant, si $x$ est un grand nombre, il ressort de notre proportion empirique fondamentale que chacun des cas possibles sera présent approximativement $\dfrac{rx}{n}$ fois au cours de toute la série de $x$ répétitions du jeu. En effet, d’entre eux $r$ sont favorables à $A$, le nombre total $f$ de fois qui gagne sera de manière approximative $rx/n$. Ensuite, nous aurons à peu près $f=\dfrac{rx}{n}$ ; on a donc : \[\frac fx=\frac rn=P\]
Ensuite, d’après notre proposition empirique, la raison fréquentielle $\dfrac fx$ des fois où $A$ gagne au cours d’une longue série de parties sera approximativement égale à la probabilité que $A$ perde.
En proposant quelque chose de plus générale, nous pouvons exprimer ce résultat en disant que n’importe quel évènement va tendre à se présenter avec une fréquence relative approximativement égale à la probabilité de lui même.
Aussi, comme la définition classique de la probabilité, ce principe général a été formulé explicitement après avoir atteint une phase postérieure ; déjà à l’époque du chevalier De Méré il semble cependant qu’il avait été supposé tacitement comme une proportion fondamentale évidente. L’une des questions soulevées par De Méré, était en fait directement liée avec une application de ce principe général à un cas particulier. Dans un certain jeu de hasard, De Méré avait trouvé un désaccord entre les fréquences relatives des fois où il gagnait, observées réellement, et la valeur de la probabilité correspondante de gagner, d’après ses propres calculs. Et précisément il a consulté Pascal pour qu’il lui explique cette apparente contradiction. Cependant, Pascal et Fermat ont pu démontrer que le calcul de la probabilité de De Méré était faux, et que la probabilité calculée correctement était en accord avec les fréquences relatives réellement observées, et c’est pourquoi il n’existait pas de contradiction.
Défaut de la définition classique
Les principales difficultés qu’il a trouvées dans cette première phase de la théorie de la probabilité appartiennent au domaine de l’analyse combinatoire. En commençant par certains cas élémentaires, qui sont censés être complètement symétriques-les six faces d’un dé, les 52 cartes d’un paquet, etc-nous voulons les combiner selon les règles d’un jeu donné pour obtenir les cas qui sont possibles dans ce jeu, tout en préservant la symétrie entre eux. Aussitôt qu’on laisse les types de jeux plus simples, cela peut devenir un peu compliqué et par conséquent, nous trouvons parfois des gens qui, même si ils dominent la logique, se trompent facilement en essayant de résoudre des problèmes de ce type. Ainsi, il n’est pas du tout surprenant de trouver dans la première époque citée, une considérable diversité d’opinions quant à la façon correcte de former les cas possibles et favorables.
A titre d’exemple des polémiques qui ont surgi à ce sujet, considérons un jeu simple intimement liée avec les questions de De Méré. $A$ et $B$ jouent à pile ou face avec une pièce de monnaie qui est censée être parfaitement symétrique, de sorte que chacun des résultats possibles d’une partie ait une probabilité de $\dfrac 12$. Le jeu consiste à lancer 2 fois la pièce. Si c’est face dans au moins l’une de ces parties, $A$ gagne, tandis que dans le cas contraire, $B$ gagne. Quelle est la probabilité que $A$ gagne ?
Si nous représentons les faces par F et les piles par P, les 2 parties devraient donner un, et seulement un, des quatre résultats suivants : FF, FP, PF et PP.
Fermat estimait que ces quatre cas étaient réciproquement symétriques, ou autrement dit, également possibles. Comme tous ces cas, sauf le premier, sont favorables à $A$, il arrivait à la conclusion que la probabilité que $A$ gagne est de $\dfrac 34$. Pascal arrivait à la même conclusion mais d’une autre manière.
Pourtant, un autre mathématicien contemporain, Roberval, a objecté que, dans les deux cas représentés par PF et PP, $A$ a déjà gagné après la première partie ; ainsi, il ne serait pas nécessaire de faire une autre partie. Par conséquent, il a reconnu que les 3 cas possibles suivants : FF, FP et P. Puisque les deux dernier d’entre eux sont favorables à $A$, la probabilité que $A$ gagne serait d’après Roberval égale à $\dfrac 23$ au lieu de $\dfrac 34$.
Des objections similaires contre les règles habituelles de la théorie des probabilités ont été faites plus tard par D’Alembert. Cependant, il semble assez clair que de cette façon on perd la parfaite symétrie entre les cas, ce qui est caractéristique la solution de Fermat.
Les polémiques de ce type montrent que la définition classique de la probabilité n’est pas satisfaisante, puisqu’il manque un critère pour décider quand, dans un jeu particulier, les divers cas possibles peuvent être considérés symétriques ou également possibles. Cependant, pendant longtemps ce défaut de la définition est passé inaperçu, et c’est bien plus tard qu’il a été soumis à une analyse rigoureuse.
Généralisation de la notion de probabilité
En 1700, commence une période de développement rapide pour la théorie des probabilités. A cette époque, deux œuvres fondamentales sont apparues sur ce sujet, écrites respectivement par James Bernoulli et Abraham de Moivre. Le premier appartient à la célèbre famille de mathématiciens suisses Bernoulli ; il a écrit un livre intitulé Ars conjectandi qui a été publié en 1713 quelques années après sa mort. Dans ce travail, nous trouvons entre autre, l’importante proposition connue sous le nom de théorème de Bernoulli, dans laquelle la théorie des probabilités a été élevée pour la première fois du niveau élémentaire de l’ensemble des solutions de problèmes particuliers à un résultat d’importance générale. Ce théorème, fournit les bases mathématiques de ces propriétés de régularité de certaines raisons fréquentielles sur une longue série de répétitions d’un jeu donné.
De Moivre a été un huguenote français, qui à cause de sa religion, dû partir de France et se réfugier vivre en Angleterre. Son ouvrage The doctrine of chances, avec le sous-titre de « Méthode de calcul des probabilités d’évènements« , est apparu dans trois éditions (1718, 1738 et 1756), ce qui démontre le grand intérêt qu’il y avait à ce sujet à ce moment-là. Notamment, nous trouvons ici le premier énoncé du théorème général connu en tant que règle de multiplication de la théorie des probabilités. Les deux dernières éditions de cet ouvrage remarquable contiennent aussi les premières indications de la distribution normale des probabilités, qui devrait jouer plus tard un rôle extrêmement important dans le développement de ce sujet.
Dans les ouvrages de Bernoulli et De Moivre, la théorie des jeux de hasard continue a être développée sur la base de la définition classique des probabilités (employée plus ou moins tacitement), et elle s’applique à la théorie de plusieurs méthodes d’analyse combinatoire et d’autres techniques mathématiques. L’existence d’un contact intime entre le développement de cette théorie et le progrès mathématique général est caractéristique de la première époque de la théorie des probabilités. Plus tard, une grande partie de ce contact à été perdu, et a été rétabli dans une époque récente avec beaucoup de succès.
A cette époque, il est apparu une nouvelle idée très importante. Il a été constaté que la terminologie et les règles de calcul de la théorie des probabilités, introduites avec l’unique intention de créer une théorie mathématique des jeux de hasard, peuvent s’appliquer avec de bons résultats à divers problèmes de natures très différentes, dont certains tombés complètement en dehors du champ d’action de la définition classique des probabilités.
Ce fut le cas par exemple, des statistiques sur les populations humaines et de la théorie mathématique des assurances vie, deux domaines étroitement liés qui se sont développés vigoureusement au cours du XVIIIème siècle. Par conséquent il semblait très naturel de se référer à la « probabilité qu’un nouveau-né soit un garçon » ou la « probabilité qu’un homme de trente ans meurt au cours de l’année », tout comme nous parlons de « probabilité d’obtenir un six d’un coup avec un dé ordinaire ».
En plus, il semblait aussi naturel d’appliquer à ces nouvelles probabilités toute la terminologie et les règles de calcul utilisées dans la théorie des jeux de hasard. De cette façon, il a rapidement été possible de parvenir sans difficulté à un grand nombre de résultats intéressants et nouveaux d’un point de vue pratique, tels que les méthodes pour le calcul des tables de survie, les valeurs de revenus, les primes d’assurance-vie.
Néanmoins, au cours de cette extension du domaine d’application de la théorie, peu d’attention a été accordée au problème fondamental de la définition élémentaire des probabilités. D’après la définition classique, les probabilités mathématiques sont définies en fonction d’un certain nombre de cas possibles et favorables, qui sont supposées symétriques ou également probables. Le résultat de ce processus d’extension, qui a eu lieu au cours du XVIIIème siècle, a été résumé de manière très intéressante dans les ouvrages de Laplace, en particulier dans son traité classique Théorie analytique des probabilités, publié pour la première fois en 1812. Cet ouvrage contient tout d’abord une exposition systématique et très complète de la théorie mathématique des jeux de hasard. Il inclus en plus, un grand nombre d’applications de la théorie des probabilités à une grande variété de questions scientifiques et pratiques.
Concernant la problématique des définitions élémentaires, Laplace adopte une attitude dépourvue de tout sens critique. En fait, il considère la définition classique des probabilités comme directement applicable à tous les cas, et apparemment, sans éprouver la nécessité de l’examiner plus précisément. Il considère que toute application est parfaitement comparable à un jeu de hasard, dont les résultats possibles sont divisés naturellement par un nombre de cas mutuellement symétriques.
Domaines d’applications
Le travail de Laplace a exercé une profonde influence sur le développement ultérieur de ce sujet. En vue de l’impressionnant appareil mathématique et des importants résultats pratiques déjà obtenus ou facilement susceptible d’être atteint, il était tentant d’ignorer la faiblesse des fondements conceptuels. En conséquence, le champ d’application de la théorie des probabilités a été étendu rapidement et sans interruption pendant le XIXème siècle.
L’énorme développement des assurances vie a été rendue possible grâce au développement de la mathématique actuarielle, qui est fondée sur l’application des probabilités aux statistiques de mortalité. Quételet et son école ont fait de nouvelles applications en démographie et dans d’autres domaines des sciences sociales.
Dans la physique mathématique, la théorie des probabilités a été introduite par le travail de Maxwell, Boltzmann et Gibbs sur la mécanique statistique, qui a été d’une importance fondamentale pour certaines parties de la science physique moderne.
Les méthodes de statistiques mathématiques sont utilisées dans un nombre croissant de domaines de l’activité scientifique et pratique. Aujourd’hui, les applications de la théorie des probabilités comprennent des domaines très variés notamment tels que la génétique, l’économie, la psychologie et l’ingénierie.
Révision critique des bases
La première tentative de surmonter les difficultés consistait à analyser la notion de symétrie ou des cas également probables à l’aide de la définition classique, et essayer d’améliorer cette définition en incluant certains critères appropriés et applicables à cette notion. Parmi les auteurs dont le travail suit cette orientation, on peut notamment mentionner Bertrand et Poincaré.
Il a été adopté une nouvelle orientation en essayant de remplacer la définition classique des probabilités par une toute nouvelle définition, fondée plus ou moins sur les propriétés de stabilité des fréquences relatives. La raison fréquentielle d’un évènement dans une série d’observations a été considérée comme une valeur observée de la quantité hypothétique qui, par définition, a été attribué comme probabilité de l’évènement.
Si la théorie est construite sur une définition des probabilités de ce type, la définition classique perdra évidemment sa position sur la définition fondamentale de la théorie ; elle nous servira uniquement comme règle pratique pour trouver la valeur d’une probabilité, qui sera d’application dès qu’il est possible d’effectuer une division dans des cas également possibles.
Depuis environ 1850, plusieurs tentatives ont été faites pour introduire une définition appropriée des probabilités du type fréquentielle et construire la théorie sur cette définition. Les recherches dans ce domaine ont été plus ou moins influencés par la tendance à l’axiomatisation, qui est un point caractéristique des mathématiques modernes. Selon ce point de vue, la probabilité d’un évènement est conçu comme une quantité numérique associée à cet évènement, et qui est censée avoir certaines propriétés de base exprimées grâces aux axiomes [tooltips] propositions fondamentales qui sont exprimées et sont acceptées sans démonstration [/tooltips]. La définition de la probabilité est alors donnée de manière suivante : une probabilité est une quantité numérique qui satisfait tels et tels axiomes. Comme cela a à voir avec la théorie d’ensembles des évènements, nous verrons une synthèse de celle ci et nous définirons ses concepts et valeurs inhérentes qui vont conduire à préciser ces axiomes.