Definition: Länge der längsten gemeinsamen Teilfolge

Als Länge der längsten gemeinsamen Teilfolge (en. Longest Common Subsequence, kurz LCS) bezeichnen wir ein gängiges Ähnlichkeitsmaß für Zeichenketten.

Dabei ist nach Definition der Teilfolge zu beachten, dass die Zeichen nicht zusammenhängend sein müssen - ihre Reihenfolge darf aber nicht verändert werden.

Das heißt: ist sowohl Teilfolge der Folge und der Folge .

Die Länge der längsten Teilfolge zweier Teilstrings erhalten wir rekursiv durch

Für die Basisfälle setzen wir:

Anmerkung

Berechnung der LCS mittels Matrixdarstellung

Die Berechnung der LCS können wir ähnlich durchführen wie die Berechnung der Levenshtein-Distanz zwischen zwei Strings.

Für die beiden Wörter BIENE und BEIN erhalten wir beispielsweise:

#BEIN
#00000
B01111
I01122
E01222
N01223
E01223

Die LCS zwischen BIENE und BEIN beträgt also (entweder BIN oder BEN).