Lerne den k-nächste-Nachbarn Algorithmus durch animierte Grafiken

Showing 178 data points

Die Datenwissenschaft des Weins

Data Science ist ein vielbeachtetes Thema, und das schon seit geraumer Zeit. Mit dieser Seite beginnen wir, einige wichtige Data-Science-Algorithmen vorzustellen. Hier sehen wir, wie der k-nächste-Nachbarn-Algorithmus (kNN) funktioniert, der Datenpunkte anhand ihrer nächsten Nachbarn klassifiziert. Diese Algorithmen gehören auch zum maschinellen Lernen (ML). Die Aufgabe des kNN auf dieser Seite nennt man Klassifikation, neue Daten müssen also einer Klasse zugeordnet werden, basierend auf den vorhandenen, gelabelten Daten. kNN kann auch zur Regression eingesetzt werden, was wir hier aber nicht behandeln.

Oben sehen wir eine Ansicht des Datensatzes, mit dem wir hier arbeiten. Er zeigt die chemische Analyse von Weinen, die in derselben Region Italiens angebaut, aber aus drei verschiedenen Rebsorten gewonnen wurden. Obwohl die Datei 13 Spalten enthält, zeigen wir im Streudiagramm oben nur zwei: den Alkoholgehalt und die Konzentration von Apfelsäure. Wir nehmen die Datenwissenschaft hier nicht allzu ernst und konzentrieren uns auf den Algorithmus selbst.

k-nächste Nachbarn

Das rote Kreuz zeigt einen neuen Datenpunkt, dessen Klasse wir aus den k = 7 nächsten Nachbarn schätzen wollen. Die nächsten Nachbarn werden farbig dargestellt, während die übrigen Daten grau sind. Der neue Datenpunkt wird der häufigsten Klasse unter seinen Nachbarn zugeordnet. Klicken Sie auf Play, um eine Reihe neuer, zu klassifizierender Datenpunkte zu animieren.

Parameter k = 3

Entscheidungsregionen

Anstatt einen einzelnen neuen Punkt zu klassifizieren, können wir fragen, was der Algorithmus für jede Position im Diagramm vorhersagen würde. Färben wir jeden Punkt des Hintergrunds nach der Klasse, für die seine k nächsten Nachbarn stimmen, so entstehen die sogenannten Entscheidungsregionen des Klassifikators. Die getönten Flächen zeigen nun auf einen Blick, wo ein neuer Wein eingeordnet würde, während die Punkte die ursprünglichen Daten darüber sind. Hier haben wir ein kleines k von nur 3 verwendet, und das Ergebnis ist aufschlussreich: die Grenzen sind zackig und reagieren stark auf einzelne Punkte, sodass ein einzelner Ausreißer seine eigene kleine Farbinsel bilden kann.

Parameter k = 9

Der Einfluss von k

Dieses Diagramm entsteht auf genau dieselbe Weise, doch nun lassen wir 9 Nachbarn über jede Position abstimmen. Mehr Nachbarn zu verwenden glättet die Entscheidungsgrenzen und macht den Klassifikator weit weniger empfindlich gegenüber einzelnen verrauschten Punkten, allerdings auf Kosten der feineren Details zwischen den Klassen. Die Wahl von k ist daher eine Gratwanderung: wählt man es zu klein, passt sich das Modell dem Rauschen an (Overfitting), wählt man es zu groß, ignoriert es echte lokale Strukturen. Einen guten Wert für k zu finden ist der Kern eines guten Einsatzes des k-nächste-Nachbarn-Algorithmus.

Auf die Probe gestellt

Bisher haben wir nur die Entscheidungsregionen betrachtet, doch wie gut ist unser Klassifikator wirklich? Um das herauszufinden, halten wir zufällig 10 % der Weine als Testdaten zurück und bilden die Entscheidungsregionen aus den verbleibenden 90 %, den Trainingsdaten. Jeder zurückgehaltene Punkt wird dann auf die Karte gesetzt und durch seine k = 9 nächsten Trainingsnachbarn klassifiziert. Ein Kreuz markiert einen Wein, der korrekt eingeordnet wurde, während ein Karo einen markiert, bei dem der Klassifikator falsch lag. Da das Modell diese Punkte nie sah, während es erstellt wurde, geben sie uns eine ehrliche Einschätzung, wie es bei neuen, ungesehenen Weinen abschneiden würde.

Eine dritte Dimension

Im Panel oben haben wir eine weitere chemische Eigenschaft hinzugefügt, die sogenannte Alkalität der Asche, als dritte Dimension für das Streudiagramm. Sie können das Diagramm mit der Maus drehen. Drei statt zwei Dimensionen bei der Suche nach Nachbarn zu verwenden, könnte die Leistung verbessern, muss es aber nicht zwangsläufig.

Testen in drei Dimensionen

Hier haben wir erneut etwa 10 % der Daten als Testdaten verwendet, und wenn Sie auf Play klicken, wird die Leistung des Klassifikators geschätzt. Meiner Meinung nach ist der Datensatz zu klein, um zu beurteilen, ob wir gute Klassifikatoren haben oder nicht, daher ist dies nur unser Spielbeispiel für diese Seite. Wir haben darauf verzichtet, alle verfügbaren Spalten mit kNN zu nutzen, und uns auf das konzentriert, was wir darstellen können, doch Nachbarn lassen sich mit einer beliebigen Anzahl von Dimensionen bestimmen.

Vielen Dank an die Bereitsteller des Datensatzes, den Sie hier auf Kaggle finden. Das Claude Opus LLM hat bei der Erstellung dieser Seite geholfen. Weitere Algorithmen und Datenstrukturen finden sich auf der Hauptseite.