Definition: C4.5-Algorithmus

Der C4.5-Algorithmus ist eine Erweiterung des ID3-Algorithmus.
Er unterscheidet sich von seinem Vorgänger ID3 durch folgende Verbesserungen:

  • Anwendbarkeit auch auf kontinuierliche Attribute durch Anordnung der Merkmalswerte in diskrete Intervalle,
  • Anwendbarkeit auf Trainingsdaten mit fehlenden Attributen durch -Marker. Diese Werte werden bei Berechnung des Informationsgewinns ignoriert.
  • Verringerung der Überanpassung durch Pruning (de. Stutzen) des Klassifikationsbaums nach dessen Erstellung.
  • Jedem Merkmal kann eine Gewichtung des Informationsgewinns mitgegeben werden. Das ist nützlich bei Merkmalen, die bspw. sehr Aufwändig zu bestimmen sind (bspw. Merkmale die sich erst durch eine umfangreichen medizinische Untersuchung ergeben).
  • Nutzung der Information Gain Ratio statt des Informationsgewinns.