Definition: Entscheidungswald

Als Entscheidungswald (en. Random Forest) bezeichnen wir ein Regressions- bzw. Klassifikationsmodell das unter Nutzung von Bagging und Regressions- bzw. Klassifikationsbäumen erstellt wird.

Zusätzlich zum Bagging wird die Auswahlfunktion so angepasst, dass stets nur eine zufällige Teilmenge von möglichen Merkmalen auswählt. Diese Teilmenge wird bei jeder Ausführung der Auswahlfunktion neu bestimmt.

So wird ein evtl. dominantes Merkmal nicht in jedem der gelernten Bäume als Wurzel gewählt und Überanpassung wird noch stärker entgegen gewirkt.

Die Größe ist ein Hyperparameter des Entscheidungswalds, wobei in der Praxis oft gewählt wird, wobei die Gesamtzahl der Merkmale ist.

Definition: Entscheidungswald (Klassifikation)

Sei eine Menge von Klassen.
Sei ein Entscheidungswald mit Klassifikationsbäumen.

Den Klassifikator des Entscheidungswaldes erhalten wir durch:

Der Klassifikator wählt also genau diejenige Klasse, die von der Mehrzahl der Bäume gewählt wurde.

Definition: Entscheidungswald (Regression)

Sei ein Entscheidungswald mit Regressionsbäumen.

Den Regressor des Entscheidungswaldes erhalten wir durch:

Der Regressor berechnet also genau das arithmetische Mittel der Regressionsbäume.

Anmerkung

Random Forest Classifier mit scikit-learn

In Python erhalten wir einen Entscheidungswald (Klassifikation) mit 500 Klassifikationsbäumen durch:

X=((12,7),(10,8),(10,7.5),(15,5),(16,9),(18,8))
y= (5.5,6,7,6.5,7.5,10)
 
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=500).fit(X_train, y_train)
 
clf.predict([(5,10)])