Skip to main content

Fuzzy Search

Was ist Fuzzy Search?

Eine Fuzzy Search, in der Langform auch Fuzzy-String-Search genannt, ist eine Suchtechnik, die es ermöglicht, neben exakten Treffern für den Suchbegriff auch ähnliche Wörter zu finden. So listen Suchmaschinen bei einer Fuzzy-Search mit dem Suchbegriff Onlinemarketing nicht nur Treffer auf, die den Suchbegriff exakt wiedergeben. Daneben erscheinen auch Internetseiten in den Ergebnissen, die für das Wort eine andere Schreibweise, beispielsweise “Online Marketing”, verwenden. Eine andere Bezeichnung für diese Art einer Suchanfrage ist unscharfe Suche. Mithilfe eines mathematischen Algorithmus wird bestimmt, wie verwandt sich ähnlich lautende Wörter sind und ob ihr Ähnlichkeitsgrad ausreicht, sie in die Suchergebnisse aufzunehmen.

Screenshot Google

Verschiedene Ansätze einer unscharfen Suche

Die Herausforderung bei der Implementierung einer Anwendung, die eine Fuzzy Search ermöglicht, ist nicht nur das tatsächliche Auffinden der Suchtreffer. Knackpunkt ist vielmehr der Algorithmus, der die Ergebnisse untereinander gewichtet. Ein häufig dafür genutztes Berechnungsverfahren ist die Levenshtein-Distanz. Hinter der nach dem russischen Wissenschaftler Wladimir Lewenstein benannten Methode steht eine Maßzahl für die Ähnlichkeit von zwei Zeichenketten. Ein Suchbegriff stellt in der Informationsverarbeitung nichts anderes als eine Zeichenkette (englisch: string) dar.

Die Levenshtein-Distanz errechnet, welche Anzahl an Veränderungsoperationen an einer der Zeichenketten minimal ausgeführt werden muss, um zwei gleiche Zeichenketten zu erhalten. Zu den Veränderungsoperationen zählen Buchstabenlöschungen und -verschiebungen sowie Einfügen oder Ersetzen von Zeichen. Je kleiner der ermittelte Wert, umso ähnlicher sind sich die untersuchten Wörter und umso besser eignen sie sich als Suchtreffer einer Fuzzy Search. Die Ähnlichkeitsbeziehung kann man auch über N-Gramme ermitteln. Sie zerlegen Texte in Fragmente und analysieren die einzelnen Teile. Für diese Zerlegungen berechnet man Wahrscheinlichkeiten für nachfolgende Zeichenkombinationen. Der phonetische Ansatz legt den Schwerpunkt nicht auf die in einem Suchbegriff enthaltenen Buchstaben, sondern vergleicht Wörter über ihre klanglichen Eigenschaften. Eines dieser Verfahren ist der für die englische Sprache entwickelte Soundex-Algorithmus. Bei allen Ansätzen erfolgt die Ermittlung der Suchtreffer dynamisch und nicht über im Vorfeld hinterlegte Wortlisten.

Einsatzmöglichkeiten einer Fuzzy Search

Die unscharfe Suchtechnik ist fehlertolerant und bietet sich daher für Suchbegriffe an, für die verschiedene Schreibweisen gängig sind oder wenn der Nutzer die korrekte Schreibweise des Wortes nicht kennt. Auch für Recherchen zu Wörtern, die anfällig für Tippfehler sind, eignet sich eine Fuzzy Search. Ebenso findet sie Flexionen von Wörtern. Die Technik der Fuzzy-String-Search wird sowohl für die Suche in lokalen Datenbanken wie auch für die Suche in Internet-Suchmaschinen eingesetzt. User können auf diese Art Inhalte leichter finden. Wichtig ist, bei der Parametrisierung der Algorithmen zur Ähnlichkeitsbestimmung abzuwägen, wie sich eine höhere Trefferanzahl bei einer verringerten Genauigkeit der Wortübereinstimmungen auf die Qualität der Suchergebnisse auswirkt.

Sie haben noch Fragen?

Kontaktieren Sie uns