Definition: Hypergeometrisch verteilte Zufallsvariable

Sei die Anzahl möglicher Erfolge.
Sei die Anzahl möglicher Nieten.

Es werde mal gezogen ohne Zurücklegen gezogen, wobei die Reihenfolge irrelevant ist.

Wir bezeichnen die Zufallsvariable als hypergeometrisch verteilt , wenn

Hierbei gilt:

  • gibt an, wie viele Treffer gezogen wurden
  • gibt die Wahrscheinlichkeit dafür an, dass genau Treffer gezogen wurden.

Anmerkung

Interpretation

Wir betrachten die Verteilung nun noch einmal genauer.

Die Wahrscheinlichkeit, beim -fachen Ziehen genau Treffer zu erhalten, entspricht damit:

  • der Anzahl Kombinationsmöglichkeiten, aus den möglichen Treffern genau zu ziehen,
  • multipliziert mit der Anzahl Kombinationsmöglichkeiten, aus den Nieten genau zu ziehen
  • dividiert durch die Anzahl der Kombinationsmöglichkeiten, aus den insgesamt Treffern und Nieten irgendwelche Ergebnisse zu ziehen.

Beispiel: Stabdiagramme nach @henze2019

Herleitung

Achtung

Für die ursprüngliche Herleitung nach Henze, siehe Herleitung der hypergeometrischen Verteilung nach Henze. Einige Teile sind identisch.

Der größte Unterschied besteht darin, dass Henze als Grundraum ein U2 Urnenexperiment annimmt, während ich hier ein U4 Urnenexperiment wähle, das der Ausgangslage (m.M.n.) eher entspricht.

Die Identität entspringt der Herleitung von Henze.

Um die hypergeometrische Verteilung herzuleiten, suchen wir zunächst die geeigneten Grundbegriffe. Heißt:

  • Einen geeigneten Grundraum.
  • Eine geeignete -Algebra.
  • Ein geeignetes Wahrscheinlichkeitsmaß.
  • Eine geeignete Zufallsvariable.

Haben wir diese Begriffe einmal gefunden, führen sie uns fast wie automatisch zu der Definition der hypergeometrischen Verteilung

Herleitung des Grundraums

Seien also rote Kugeln in einer Urne.
Und seien schwarze Kugeln in einer Urne.

Insgesamt haben wir also Kugeln.

Normalerweise sind die Kugeln bei Urnenexperimenten nummeriert. Hier haben wir nur Farben gegeben. Daher führen wir jetzt ein Nummerierungsschema wie folgt ein:

Sei die Menge der roten Kugeln.
Sei die Menge der schwarzen Kugeln.

Dann lässt sich jede Ziehung aus Kugeln darstellen als -Permutation

Wobei . Das heißt: Wir notieren die Kugeln nicht nach Reihenfolge der Ziehung, sondern notieren die gezogene Kugel mit der kleinsten Zahl zuerst, usw., nach dem Schema des Urnenexperimentes U4 (Reihenfolge irrelevant; ohne Zurücklegen).

Für den Grundraum der hypergeometrischen Verteilung gilt also:

Als -Algebra wählen wir . Im Folgenden schreiben wir der Einfachheit halber direkt .

Herleitung des Wahrscheinlichkeitsmaßes

Als Wahrscheinlichkeitsmaß wählen wir die Laplace-Verteilung auf . Also:

Wobei ein Ereignis ist, also eine Menge von Ergebnis-Tupeln.

Diese Annahme ist sinnvoll, da jede der insgesamt Kugeln gleich wahrscheinlich ist. Damit sind auch alle Ergebnisse aus gleich wahrscheinlich.

Beispiel: Seien . Dann ist .

Herleitung der Zufallsvariable

Wir erinnern uns kurz an die ursprüngliche Fragestellung.

Memo - Ursprüngliche Fragestellung

Wie hoch ist die Wahrscheinlichkeit, dass genau gezogene Kugeln rot sind?

Heißt: Unser sollte die Anzahl der entnommenen Kugeln zählen, die rot sind.

Hierzu bietet sich das Konzept der Zählvariable an. Sei also eine Reelle Zufallsvariable mit

𝟙

Wobei diejenigen Ereignisse seien, bei denen die -te Kugel des Tupels rot ist. Bei ist also die erste Kugel rot, bei die zweite und so weiter.

Die Indikatorfunktion 𝟙 gibt an, dass das Ereignis eingetreten ist.

Achtung

Hier geht es nicht um die Zieh-Reihenfolge, denn die Tupel sind ja aufsteigend nach den Nummern der Kugeln sortiert.

Tipp: Kleiner Ausflug zu dem Eintreten von Ereignissen

Das Ereignis tritt genau dann ein, wenn die Kugel an der -ten Stelle rot ist. Was für die anderen Kugeln gilt, ist egal. Sie könnten beispielsweise ebenfalls rot sein.

Beobachten wir also ein Ergebnis , bei dem sich an den Stellen, also rote Kugeln befinden, so treten die Ereignisse alle gemeinsam ein.

Herleitung der Ursprungsfrage

Nun, da wir sowohl als auch definiert haben, wollen wir unserer ursprünglichen Frage auf den Grund gehen:

Memo - die ursprüngliche Frage

. Wie hoch ist die Wahrscheinlichkeit, dass genau gezogene Kugeln rot sind?

Nach der Mengenschreibweise bei Zufallsvariablen gilt:

Im Nenner stehen also alle möglichen Ergebnisse aus dem Grundraum, während im Zähler genau diejenigen Tupel stehen, für die gilt, dass . Heißt: die genau rote Kugeln enthalten.

Um die Wahrscheinlichkeit berechnen zu können, müssen wir daher bestimmen, wie viele Tupel mit genau roten Kugeln es gibt.

Wie viele Tupel gibt es, die genau rote Kugeln enthalten?

Wie setzt sich ein solches Tupel eigentlich zusammen? Na ja, es besteht aus roten und schwarzen Kugeln. Und diese Kugeln sind, aufsteigend nach ihrer Nummer, auf die verschiedenen Stellen bis verteilt.

Um zu bestimmen, wie viele solcher Tupel es gibt, müssen wir also

  1. Bestimmen, wie viele Möglichkeiten es gibt, aus den insgesamt roten Kugeln genau rote Kugeln zu ziehen.
  2. Bestimmen, wie viele Möglichkeiten es gibt, aus schwarze Kugeln zu ziehen.
  3. Bestimmen, wie viele Möglichkeiten es gibt, diese Kugeln auf den Stellen des Tupels zu verteilen.

Der 3. Punkt ist hierbei ganz leicht zu beantworten: es gibt nur eine einzige Möglichkeit, denn die Reihenfolge ist ja durch die Nummern der Kugeln festgelegt und jede Nummer kann nur einmal auftreten.

Die anderen beiden Aspekte schauen wir uns jetzt genauer an:

Wie viele Möglichkeiten gibt es, rote Kugeln zu ziehen? (Ohne Zurücklegen)

Angenommen, wir hätten eine Urne mit genau rote Kugeln. Wir ziehen aus dieser Urne genau Kugeln, wobei die Reihenfolge irrelevant ist und wir gezogene Kugeln nicht zurücklegen.

Damit handelt es sich bei der Fragestellung um ein Urnenexperiment des Typs U4, für das es nach Definition genau Möglichkeiten gibt.

Nach der Proposition über die Anzahl aller k-Kombinationen ohne Wiederholung wissen wir:

Es gibt also genau Möglichkeiten, rote Kugeln zu ziehen.

Wie viele Möglichkeiten gibt es, schwarze Kugeln zu ziehen? (Ohne Zurücklegen)

Hier gelten dieselben Betrachtungen wie bei den roten Kugeln.

Es gibt also genau

Möglichkeiten, schwarze Kugeln zu ziehen.

Tipp

Nach Definition des Binomialkoeffizienten ist , falls . Wenn wir also mehr schwarze Kugeln ziehen müssten, als es überhaupt schwarze Kugeln gibt, dann können wir damit nur scheitern.

Und wie viele Möglichkeiten gibt es jetzt für Tupel mit genau roten Kugeln? (Ohne Zurücklegen)

Wir müssen an dieser Stelle nur noch die Möglichkeiten aus den Gleichungen und zusammenmultiplizieren und erhalten:

für die Anzahl möglicher Tupel mit genau roten Kugeln.

Nach Gleichung wissen wir jetzt also:

Nun müssen wir nur noch bestimmen - und das ist leicht, denn wir hatten ja gesagt, dass . Nach der Proposition über die Anzahl aller k-Kombinationen ohne Wiederholung gilt

Wir erhalten also:

Was zu zeigen war 🎉