Proposition: Herleitung der hypergeometrischen Verteilung nach Henze

In der Notiz zur hypergeometrischen Verteilung habe ich meine eigene Herleitung platziert, da ich die Herleitung nach Henze als missverständlich empfunden habe.

Da ich diese jedoch zuerst geführt hatte und die Notiz zur hyp. Verteilung nicht überladen wollte, habe ich die Herleitung nach Henze hierher ausgelagert.

Herleitung mit Beachtung der Reihenfolge (U2)

Um die hypergeometrische Verteilung herzuleiten, suchen wir zunächst die geeigneten Grundbegriffe. Heißt:

  • Einen geeigneten Grundraum.
  • Eine geeignete -Algebra.
  • Ein geeignetes Wahrscheinlichkeitsmaß.
  • Eine geeignete Zufallsvariable.

Haben wir diese Begriffe einmal gefunden, führen sie uns fast wie automatisch^[Das ist zwar eine Übertreibung, aber unter diesen Annahmen landen wir unausweichlich bei der hypergeometrischen Verteilung.] zu der Definition der hypergeometrischen Verteilung

Herleitung des Grundraums

Seien also rote Kugeln in einer Urne.
Und seien schwarze Kugeln in einer Urne.

Insgesamt haben wir also Kugeln.

Normalerweise sind die Kugeln bei Urnenexperimenten nummeriert. Hier haben wir nur Farben gegeben. Daher führen wir jetzt ein Nummerierungsschema wie folgt ein:

Sei die Menge der roten Kugeln.
Sei die Menge der schwarzen Kugeln.

Dann lässt sich jede Ziehung aus Kugeln darstellen als -Permutation

Wobei . Das heißt: die Werte der Variablen aus dem Tupel unterscheiden sich alle voneinander, keine Kugel wird zweimal gezogen.

Für den Grundraum der hypergeometrischen Verteilung gilt also:

Als -Algebra wählen wir . Im Folgenden schreiben wir der Einfachheit halber direkt .

Herleitung des Wahrscheinlichkeitsmaßes

Als Wahrscheinlichkeitsmaß wählen wir die Laplace-Verteilung auf . Also:

Wobei ein Ereignis ist, also eine Menge von Ergebnis-Tupeln.

Diese Annahme ist sinnvoll, da jede der insgesamt Kugeln gleich wahrscheinlich ist. Damit sind auch alle Ergebnisse aus gleich wahrscheinlich.

Beispiel: Seien . Dann ist .

Herleitung der Zufallsvariable

Wir erinnern uns kurz an die ursprüngliche Fragestellung.

Memo - Ursprüngliche Fragestellung

Wie hoch ist die Wahrscheinlichkeit, dass genau gezogene Kugeln rot sind?

Heißt: Unser sollte die Anzahl der entnommenen Kugeln zählen, die rot sind.

Hierzu bietet sich das Konzept der Zählvariable an. Sei also eine Reelle Zufallsvariable mit

𝟙

Wobei diejenigen Ereignisse seien, bei denen die -te gezogene Kugel rot ist. Bei ist also die erste Kugel rot, bei die zweite und so weiter.

Die Indikatorfunktion 𝟙 gibt an, dass das Ereignis eingetreten ist.

Tipp: Kleiner Ausflug zu dem Eintreten von Ereignissen

Das Ereignis tritt genau dann ein, wenn die Kugel an der -ten Stelle rot ist. Was für die anderen Kugeln gilt, ist egal. Sie könnten beispielsweise ebenfalls rot sein.

Beobachten wir also ein Ergebnis , bei dem sich an den Stellen und rote Kugeln befinden, so treten die Ereignisse und alle gemeinsam ein.

Herleitung der Ursprungsfrage

Nun, da wir sowohl als auch definiert haben, wollen wir unserer ursprünglichen Frage auf den Grund gehen:

Memo - die ursprüngliche Frage

. Wie hoch ist die Wahrscheinlichkeit, dass genau gezogene Kugeln rot sind?

Nach der Mengenschreibweise bei Zufallsvariablen gilt:

Im Nenner stehen also alle möglichen Ergebnisse aus dem Grundraum, während im Zähler genau diejenigen Tupel stehen, für die gilt, dass . Heißt: die genau rote Kugeln enthalten.

Um die Wahrscheinlichkeit berechnen zu können, müssen wir daher bestimmen, wie viele Tupel mit genau roten Kugeln es gibt.

Wie viele Tupel gibt es, die genau rote Kugeln enthalten?

Wie setzt sich ein solches Tupel eigentlich zusammen? Na ja, es besteht aus roten und schwarzen Kugeln. Und diese Kugeln sind auf die verschiedenen Stellen bis verteilt.

Um zu bestimmen, wie viele solcher Tupel es gibt, müssen wir also

  1. Bestimmen, wie viele Möglichkeiten es gibt, unsere Kugeln auf den Stellen des Tupels zu verteilen.
  2. Bestimmen, wie viele Möglichkeiten es gibt rote Kugeln zu ziehen.
  3. Bestimmen, wie viele Möglichkeiten es gibt, schwarze Kugeln zu ziehen.

Wie viele Möglichkeiten gibt es, unsere Kugeln auf den Stellen des Tupels zu verteilen?

Wir haben hier genau rote und schwarze Kugeln, die es auf insgesamt Stellen zu verteilen gilt.

Das ist ein Paradebeispiel für den Binomialkoeffizienten. Wir wollen nämlich wissen: wie viele Möglichkeiten gibt es, aus Stellen genau Stellen für die roten Kugeln und Stellen für die schwarzen Kugeln auszuwählen.

Nach diesen Überlegungen gibt es also

Möglichkeiten, unsere roten und schwarzen Kugeln auf den Stellen des Tupels zu verteilen.

Wie viele Möglichkeiten gibt es, rote Kugeln zu ziehen?

Angenommen, wir hätten eine Urne mit genau rote Kugeln. Wir ziehen aus dieser Urne genau Kugeln, wobei wir

  • die Reihenfolge beachten
    (wir platzieren die Kugeln von links nach rechts auf den im letzten Abschnitt ausgewählten Stellen)
  • die Kugeln nicht zurücklegen
    (denn wir können jede Kugel ja auch nur auf eine einzige Stelle verteilen)

Damit handelt es sich bei der Fragestellung um ein Urnenexperiment des Typs U2.

Demnach gibt es genau

Möglichkeiten, rote Kugeln zu ziehen.

Wie viele Möglichkeiten gibt es, schwarze Kugeln zu ziehen?

Hier gelten dieselben Betrachtungen wie bei den roten Kugeln.

Es gibt genau

Möglichkeiten, schwarze Kugeln zu ziehen.

Und wie viele Möglichkeiten gibt es jetzt für Tupel mit genau roten Kugeln?

Wir müssen an dieser Stelle nur noch die Möglichkeiten aus den Gleichungen zusammenmultiplizieren und erhalten:

für die Anzahl Möglichkeiten für Tupel mit genau roten Kugeln.

Nach Gleichung wissen wir jetzt also:

Nun müssen wir nur noch bestimmen - und das ist leicht, denn wir hatten ja gesagt, dass . Nach der Proposition über die Anzahl aller k-Permutationen ohne Wiederholung gilt

Wir erhalten also:

Wir können diesen Term jetzt noch etwas umstellen. (Da es manchmal schwierig ist, längeren Umformungsketten zu folgen, habe ich an einigen Stellen farbliche Markierungen hinzugefügt, die die Transformationen zwischen zwei Schritten stärker hervorheben sollen.) Nach Definition der fallenden Faktorielle und des Binomialkoeffizienten gilt

Was zu zeigen war 🎉