We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Praktische Anwendungsbeispiele

00:00

Formal Metadata

Title
Praktische Anwendungsbeispiele
Subtitle
K-Nearest Neighbours
Title of Series
Number of Parts
79
Author
License
CC Attribution 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language
Production Year2023
Production PlaceHeinrich-Heine-Universität Düsseldorf

Content Metadata

Subject Area
Genre
Abstract
In diesem Video schauen wir uns zwei konkrete Anwendungsbeispiele für den K-Nearest-Neighbours-Algorithmus an - eines aus der Linguistik und ein Weiteres, das einen kommerziellen Nutzen von KNN herausstellt. Lernziele: Du benennst konkrete Anwendungsbeispiele für KNN
Keywords
JSONXMLComputer animation
Lecture/Conference
InformationInferenceProgramming languageProcess (computing)Scientific modellingArtificial neural networkComputational linguisticsJSONXMLComputer animation
Artificial neural networkPULSETable (information)Product (category theory)Artificial neural networkDepictionRepresentation (politics)Link (knot theory)AlgorithmSystems <München>XMLComputer animation
Common Language InfrastructureComputer animationXML
Transcript: German(auto-generated)
Jetzt, da wir wissen, wie der K-Nearest-Neighbor-Algorithmus oder auch KNN funktioniert, können wir uns zwei konkrete Anwendungsbeispiele angucken. Als erstes werfen wir einen Blick in die Linguistik. Dort werden verschiedene Implementationen für KNN für die Forschung genutzt,
die sich hauptsächlich in ihrem Namen und in der Programmiersprache unterscheiden. Darunter ist auch der Tilburg Memory-Based Learner, Timble. Die Linguistin Sabine Antlappe hat Timble dazu verwendet, die Betonung von zusammengesetzten Nomen im Englischen zu untersuchen.
Dort gibt es nämlich Nomen wie zum Beispiel Opera Glasses, wo die Betonung auf den linken Teil des Nomen fällt, auch Left Stress genannt, aber auch Nomen wie Steel Bridge, wo die Betonung auf den rechten Teil fällt, das nennt man Right Stress. Antlappe hat sich die Frage gestellt, wie viele Informationen gebraucht werden, um die Betonung eines zusammengesetzten Wortes zu bestimmen.
Dazu hat sie verschiedene KNN-Modelle trainiert, die alle unterschiedliche Informationen zur Verfügung hatten, um die Nomen in Right Stress oder Left Stress zu kategorisieren. Die Art der Informationen wurde in abstrakte und in nicht abstrakte Informationen geteilt. Zu abstrakten Eigenschaften gehören Informationen wie ob das Nomen ein Subjekt oder ein Objekt ist,
und die nicht abstrakten Eigenschaften sind Informationen, die direkt zum Nomen gehören, wie orthografische Repräsentation der beiden Bestandteile des Nomes. Die orthografische Repräsentation ist einfach nur, wie der Teil geschrieben wird. Vorherige Forschung zum Thema Betonung zusammengesetzter Nomen im Englischen ließ darauf
schließen, dass die Modelle mit den abstrakteren Informationen besser sein sollten. Diese Experimente, die nicht KNN genutzt haben, konnten die Betonung von Nomen nämlich mit abstrakten Informationen gut klassifizieren. Allerdings wurden diese Erwartungen von den Ergebnissen dieser Studien nicht erfüllt.
Ein Modell, das die orthografische Repräsentation des linken und des rechten Teil des Nomes zur Verfügung hatte, war das beste Modell. Auch nach hinzufügenden abstrakten Informationen wurde dieses Modell nicht besser. Im Endeffekt wurden also gar keine abstrakten Informationen gebraucht. Daraus kann man interessante Schlüsse ziehen, wie Menschen Sprache verarbeiten,
zum Beispiel welche Informationen wir für welche Prozesse der Sprachverarbeitung wirklich benötigen. Für das zweite Beispiel gucken wir uns einen kommerziellen Nutzen von KNN an, wo ein Suchsystem implementiert werden sollte. Bisher hatten die Standorte des Pharmazeutika-Unternehmens Novartis AG separate interne Systeme zum Kauf von Laborprodukten.
Dadurch mussten die Produkte immer einzeln von den MitarbeiterInnen in der Internetseite der AnbieterInnen verglichen werden, um den besten Preis zu finden. Dies führte zu schlechter Organisation und Verzögerung. Das Ziel für ein neues System war es also, einen Katalog mit
vielen verschiedenen Angeboten zu haben, damit dieser von den MitarbeiterInnen durchsucht werden kann. Als erstes braucht man dazu also einen Katalog mit durchsuchbaren Einträgen. Das waren in diesem Fall die Laborprodukte von verschiedenen HändlerInnen. Aus den Produktnamen wurden als erstes Word Embeddings gemacht.
Das sind numerische Repräsentationen von Wörtern, die unter anderem bestimmte Labels darstellen. Beispielsweise wäre in dem Vektor, der das Produkt perfekter Bürostuhl repräsentiert, das Label Möbelstück enthalten. Wenn ihr wissen wollt, wie das genau funktioniert, guckt euch gerne den Link dazu in den weiterführenden Materialien an.
Wenn also jemand etwas in das Suchfeld eingibt, passiert Folgendes. Als erstes wird der Text in einzelne Wörter aufgeteilt. Das nennt sich Tokenization. Dann werden die einzelnen Wörter auch in Word Embeddings umgewandelt. Für die Embeddings von der Suche werden dann mithilfe von KNN die ähnlichsten Produkte herausgesucht.
Anders als bei den Anwendungsbeispielen, die wir bisher gesehen haben, werden hier also nicht Klassifizierungen ausgegeben, sondern einfach nur die nearest neighbors. Es wird sozusagen der letzte Schritt der Klassifizierung weggelassen. Die Firma wollte ihre Suche aber noch weiter verbessern und hat daher zusätzlich zu KNN noch eine Keyword-Suche implementiert.
Bei einer Keyword-Suche werden einfach die Produkte ausgegeben, die das eingegebene Wort enthalten. In diesen beiden Tabellen kann man die Ergebnisse von KNN und der Keyword-Suche für den Suchbegriff Schreibtischstuhl sehen. In der oberen Tabelle sind nur Ergebnisse enthalten, wo das Wort auch tatsächlich enthalten ist.
In der unteren, wo die Ergebnisse von KNN zu sehen sind, sind auch andere Dinge wie Schreibtische enthalten. Wie hier zu sehen ist, bekommt man unterschiedliche Suchergebnisse von den beiden Suchansätzen heraus. Für die kombinierte Suche werden zuerst die passenden Produkte nach Keyword-Suche herausgesucht und dann die Produkte, die laut KNN am passendsten sind.
Diese Auswahl wird von einem anderen Algorithmus nach Relevanz sortiert und dann in dieser Reihenfolge präsentiert. Wir kennen jetzt also zwei Beispiele, wie man den KNN-Algorithmus anwenden kann, sowohl in der Wissenschaft als auch für Vorschläge in einem Suchsystem.