Sei eine endliche Menge von Klassen.
Sei eine Menge endlicher Merkmalsräume .
Sei eine Datensatz-Multimenge mit .
Sei ein diskreter Zufallsvektor, der die Datenpunkte generiert hat.
Sei die Zähldichte von .
Als (diskreten) Naiven Bayes-Klassifikator definieren wir:
Ist die Zähldichte nicht gegeben, so können wir sie in der Regel wie folgt aus den beobachteten Daten bestimmen:
die relative Häufigkeit der Klasse in und
die relative Häufigkeit von Beispielen der Klasse , deren -te Merkmalsausprägung gleich sei.
Definition: Naive Bayes-Klassifikation (stetig)
Sei eine endliche Menge von Klassen.
Sei eine Datensatz-Multimenge mit .
Sei ein stetiger Zufallsvektor, der die Datenpunkte generiert hat.
Sei die Dichte von .
Als (stetigen) Naiven Bayes-Klassifikator definieren wir:
Die Schwierigkeit besteht nun darin, eine geeignete Dichte zu bestimmen und zu parametrisieren.
Die Bedingte Wahrscheinlichkeit auf und lässt sich so interpretieren, dass und genutzt werden können, um die Dichte und auch die Parameter von zu bestimmen.
Anmerkung
Anwendbarkeit
Eine der Grundannahmen der Naiven Bayes-Klassifikation ist, dass die Merkmalsausprägungen unabhängig voneinander sind.
Doch auch, wenn diese Grundannahme verletzt ist, kann der Naive Bayes-Klassifikator in der Praxis oft erfolgreich eingesetzt werden.
Im Unterschied zur Bayes-Klassifikation muss hier auch nicht der gesamte, sondern lediglich der Teil des Datensatzes mit Merkmalsausprägungen betrachtet werden.
Naive-Bayes mit scikit-learn
In Python erhalten wir einen (Gaußschen) Naive-Bayes-Klassifikator durch: