Levenshtein-Distanz

Die Levenshtein-Distanz (auch Editierdistanz) zwischen zwei Zeichenketten ist die minimale Anzahl einfügender, löschender und ersetzender Operationen, um die erste Zeichenkette in die zweite umzuwandeln. Benannt ist die Distanz nach dem russischen Wissenschaftler Wladimir Lewenstein (engl. Levenshtein), der sie 1965 einführte. Mathematisch ist die Levenshtein-Distanz eine Metrik auf dem Raum der Symbolsequenzen.

Beispielsweise entspricht die Levenshtein-Distanz zwischen „Bar“ und „Bier“ zwei. Eine mögliche Folge von zwei Operationen ist:

Wort Operation Anzahl
Bar keine (Ausgangswort) 0
Bir Ersetzung (a → i) 1
Bier Einfügung (e) 2

Ein anderes Beispiel ist die Distanz von eins zwischen „uninformiert“ und „uniformiert“

Wort Operation Anzahl
uninformiert keine (Ausgangswort) 0
uniformiert Löschung (n) 1

In der Praxis wird die Levenshtein-Distanz zur Bestimmung der Ähnlichkeit von Zeichenketten beispielsweise zur Rechtschreibprüfung oder bei der Duplikaterkennung angewandt.


© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search