Google KELM verbessert Faktengenauigkeit

Veröffentlicht von Florian Müller (GF) 26.05.2021 · Kategorie(n): News, SEO

Google AI kündigte KELM an – eine Möglichkeit, Vorurteile und toxische Inhalte zu reduzieren und die sachliche Genauigkeit zu erhöhen. KELM wird als Methode zur Reduzierung von Verzerrungen in der Suche (Open Domain Question Answering) eingesetzt. Es verwendet eine Methode namens TEKGEN, um Knowledge Graph-Fakten in natürlichsprachlichen Text umzuwandeln. Dieser kann dann zur Verbesserung von Modellen zur Verarbeitung natürlicher Sprache verwendet werden kann. Hier lesen Sie alles über die neue Technologie.

Inhaltsverzeichnis

Was ist Google KELM?

KELM ist ein Akronym für Knowledge-Enhanced Language Model Pre-training. Modelle zur Verarbeitung natürlicher Sprache wie BERT werden normalerweise auf Web und andere Dokumente trainiert. KELM schlägt vor, vertrauenswürdigen faktischen Inhalt zum Sprachmodell-Pre-Training hinzuzufügen, um die faktische Genauigkeit zu verbessern und Verzerrungen zu reduzieren.

Die Google-Forscher schlugen vor, Wissensgraphen zur Verbesserung der Faktengenauigkeit zu verwenden, diese sind schließlich eine vertrauenswürdige Quelle für Fakten.

“Alternate sources of information are knowledge graphs (KGs), which consist of structured data. KGs are factual in nature because the information is usually extracted from more trusted sources, and post-processing filters and human editors ensure inappropriate and incorrect content are removed.”

Faktengenauigkeit in den Google Suchergebnissen

Google hat sich nicht dazu geäußert, ob KELM bereits im Einsatz ist oder nicht. KELM ist ein Ansatz für das Vortraining von Sprachmodellen, der sehr vielversprechend ist und im Google AI Blog zusammengefasst wurde.

Derzeit prüft Google die Suchergebnisse nicht auf Fakten. Sollte KELM eingeführt werden, könnte es eine Auswirkung auf Websites haben, die faktisch falsche Aussagen und Ideen verbreiten. Die Verringerung von Verzerrungen und die Erhöhung der sachlichen Genauigkeit könnten schließlich einen Einfluss darauf haben, wie Websites gerankt werden. Solange KELM nicht eingesetzt wird, gibt es jedoch noch keine Möglichkeit, vorherzusagen, welche Auswirkungen es haben wird.

Google hat zudem angedeutet, dass die nächste Generation des MUM-Algorithmus erst dann veröffentlicht wird, wenn Google sich davon überzeugt hat, dass Voreingenommenheit keinen negativen Einfluss auf die Antworten hat, die er gibt. Der KELM-Ansatz zielt speziell auf die Reduzierung von Verzerrungen ab, was ihn für die Entwicklung des MUM-Algorithmus wertvoll machen könnte.

KELM könnte mehr als nur die Google Suche beeinflussen

Das KELM Corpus wurde unter einer Creative Commons Lizenz (CC BY-SA 2.0) veröffentlicht. Das bedeutet, dass theoretisch auch jedes andere Unternehmen es nutzen kann, um sein Pre-Training für die Verarbeitung natürlicher Sprache zu verbessern. So könnten auch beispielsweise Bing, Facebook oder Twitter von der neuen Technologie profitieren.

Es ist also möglich, dass sich der Einfluss von KELM über viele Such- und Social-Media-Plattformen erstreckt.

Der Google Knowledge Graph

Der Google Knowledge Graph ist eine Sammlung von Fakten in einem strukturierten Datenformat. Strukturierte Daten sind eine Auszeichnungssprache, die bestimmte Informationen in einer Weise kommuniziert, die von Maschinen leicht konsumiert werden kann. In diesem Fall sind die Informationen Fakten über Menschen, Orte und Dinge.

Der Google Knowledge Graph wurde 2012 eingeführt, um Google zu helfen, die Beziehungen zwischen Dingen zu verstehen. Wenn also jemand nach Washington fragt, könnte Google in der Lage sein zu erkennen, ob der Fragesteller nach Washington, der Person, dem Staat oder dem District of Columbia fragt.

Es wurde angekündigt, dass der Wissensgraph von Google aus Daten von vertrauenswürdigen Quellen mit Fakten bestehen würde. In seiner Ankündigung von 2012 bezeichnete Google den Knowledge Graph als einen ersten Schritt zum Aufbau der nächsten Generation der Suche, die wir derzeit genießen.

TEKGEN verbessert die Faktengenauigkeit

Die Forscher stellen fest, dass ein Problem bei der Integration von Wissensbasisinformationen in das Training darin besteht, dass die Wissensbasisdaten in Form von strukturierten Daten vorliegen. Die Lösung besteht darin, die strukturierten Daten des Knowledge Graphs in natürlichsprachlichen Text umzuwandeln. Dafür soll eine natürlichsprachliche Aufgabe namens Daten-zu-Text-Generierung durchgeführt wird. Weil die Daten-zu-Text-Generierung eine Herausforderung ist, wurde eine neue “Pipeline” namens “Text from KG Generator (TEKGEN)” entwickelt, um das Problem zu lösen.

TEKGEN ist die Technologie, die die Forscher entwickelt haben, um strukturierte Daten in natürlichsprachlichen Text umzuwandeln. Dieses Endergebnis, ein faktischer Text, kann verwendet werden, um das KELM-Korpus zu erstellen. Dieses kann dann wiederum als Teil des Vortrainings für maschinelles Lernen verwendet werden, um zu verhindern, dass Verzerrungen in die Algorithmen einfließen.

Die Forscher stellten fest, dass das Hinzufügen zusätzlicher Knowledge Graph Informationen (Korpora) zu den Trainingsdaten zu einer verbesserten faktischen Genauigkeit führte.

Wird Google KELM bald eingesetzt werden?

In dem KELM-Artikel, der auf Googles AI-Blog veröffentlicht wurde, heißt es, dass KELM in der realen Welt Anwendung findet. Insbesondere bei Aufgaben zur Beantwortung von Fragen, die explizit mit Information Retrieval (Suche) und natürlicher Sprachverarbeitung (Technologien wie BERT und MUM) zu tun haben, kann die Technologie eingesetzt werden.

So schließen die Forscher den Artikel über KELM zur Reduzierung von Verzerrungen:

“This has real-world applications for knowledge-intensive tasks, such as question answering, where providing factual knowledge is essential. Moreover, such corpora can be applied in pre-training of large language models, and can potentially reduce toxicity and improve factuality.”

Googles jüngste Ankündigung des MUM-Algorithmus erfordert Genauigkeit. Das ist etwas, wofür das KELM-Korpus geschaffen wurde. Aber die Anwendung von KELM ist nicht auf MUM beschränkt.

Die Tatsache, dass die Reduzierung von Verzerrungen und faktischer Genauigkeit ein kritisches Anliegen in der heutigen Gesellschaft ist und dass die Forscher optimistisch sind, was die Ergebnisse angeht, erhöht die Wahrscheinlichkeit, dass es in Zukunft in irgendeiner Form in der Suche verwendet wird.

Quelle: Search Engine Journal