4 automatische Ausreißererkennungsalgorithmen in Python

Blog

Das Vorhandensein von Ausreißern in einem Klassifikations- oder Regressions-Dataset kann zu einer schlechten Anpassung und einer geringeren Leistung der Vorhersagemodellierung führen.



Identifizieren und Ausreißer entfernen ist mit einfachen statistischen Methoden für die meisten maschinellen Lerndatensätze angesichts der großen Anzahl von Eingabevariablen eine Herausforderung. Stattdessen können in der Modellierungspipeline automatische Ausreißererkennungsmethoden verwendet und verglichen werden, genau wie andere Datenaufbereitungstransformationen, die auf das Dataset angewendet werden können.

In diesem Tutorial erfahren Sie, wie Sie die automatische Erkennung und Entfernung von Ausreißern verwenden, um die Leistung der Vorhersagemodellierung für maschinelles Lernen zu verbessern.



Nach Abschluss dieses Tutorials wissen Sie:

  • Modelle zur automatischen Ausreißererkennung bieten eine Alternative zu statistischen Verfahren mit einer größeren Anzahl von Eingabevariablen mit komplexen und unbekannten Zusammenhängen.
  • So wenden Sie die automatische Ausreißererkennung und -entfernung korrekt auf das Trainings-Dataset an, um Datenverluste zu vermeiden.
  • So evaluieren und vergleichen Sie Pipelines für die Vorhersagemodellierung mit Ausreißern, die aus dem Trainings-Dataset entfernt wurden.

Entdecken Sie Datenbereinigung, Featureauswahl, Datentransformationen, Dimensionsreduktion und vieles mehr in meinem neuen Buch , mit 30 Schritt-für-Schritt-Anleitungen und vollständigem Python-Quellcode.



Lass uns anfangen.

Modellbasierte Ausreißererkennung und -entfernung in Python

Tutorial-Übersicht

Dieses Tutorial ist in drei Teile gegliedert; Sie sind:

  1. Erkennung und Entfernung von Ausreißern
  2. Datensatz und Leistungs-Baseline
  3. Datensatz zur Hauspreisregression
  4. Basismodellleistung
  5. Automatische Ausreißererkennung
  6. Isolationswald
  7. Minimale Kovarianz-Determinante
  8. Lokaler Ausreißerfaktor
  9. Ein-Klassen-SVM

Erkennung und Entfernung von Ausreißern

Ausreißer sind Beobachtungen in einem Datensatz, die irgendwie nicht passen.

Die vielleicht häufigste oder bekannteste Art von Ausreißern sind die Beobachtungen, die weit vom Rest der Beobachtungen oder dem Schwerpunkt der Beobachtungen entfernt sind.

Dies ist leicht zu verstehen, wenn wir eine oder zwei Variablen haben und wir die Daten als Histogramm oder Streudiagramm visualisieren können, obwohl es sehr schwierig wird, wenn wir viele Eingabevariablen haben, die einen hochdimensionalen Eingabe-Feature-Raum definieren.

In diesem Fall können einfache statistische Methoden zum Identifizieren von Ausreißern versagen, wie beispielsweise Methoden, die Standardabweichungen oder den Interquartilsabstand verwenden.

Es kann wichtig sein, Ausreißer aus den Daten zu identifizieren und zu entfernen, wenn maschinelle Lernalgorithmen für die prädiktive Modellierung trainiert werden.

Ausreißer können statistische Maße und Datenverteilungen verzerren und eine irreführende Darstellung der zugrunde liegenden Daten und Beziehungen liefern. Das Entfernen von Ausreißern aus Trainingsdaten vor der Modellierung kann zu einer besseren Anpassung der Daten und damit zu geschickteren Vorhersagen führen.

Glücklicherweise gibt es eine Vielzahl automatischer modellbasierter Methoden zum Identifizieren von Ausreißern in Eingabedaten. Wichtig ist, dass jede Methode die Definition eines Ausreißers auf leicht unterschiedliche Weise angeht und alternative Ansätze zur Vorbereitung eines Trainings-Datasets bietet, das wie jeder andere Datenvorbereitungsschritt in einer Modellierungspipeline ausgewertet und verglichen werden kann.

Bevor wir uns mit Methoden zur automatischen Ausreißererkennung befassen, wählen wir zunächst einen Standard-Datensatz für maschinelles Lernen aus, den wir als Grundlage für unsere Untersuchung verwenden können.

Sie möchten mit der Datenaufbereitung beginnen?

Nehmen Sie jetzt an meinem kostenlosen 7-tägigen E-Mail-Crashkurs teil (mit Beispielcode).

nicht abgefangener Syntaxfehler: ungültige break-Anweisung

Klicken Sie hier, um sich anzumelden und eine kostenlose PDF-Ebook-Version des Kurses zu erhalten.

Laden Sie Ihren KOSTENLOSEN Mini-Kurs herunter

Datensatz und Leistungs-Baseline

In diesem Abschnitt wählen wir zunächst ein Standard-Dataset für maschinelles Lernen aus und legen eine Leistungsbasis für dieses Dataset fest.

Dies wird den Kontext für die Untersuchung der Methode zur Identifizierung und Entfernung von Ausreißern der Datenaufbereitung im nächsten Abschnitt liefern.

#Datenaufbereitung #Algorithmen

Machinelearningmastery.com

4 automatische Ausreißererkennungsalgorithmen in Python

Das Vorhandensein von Ausreißern in einem Klassifikations- oder Regressions-Dataset kann zu einer schlechten Anpassung und einer geringeren prädiktiven Modellierungsleistung führen. Das Identifizieren und Entfernen von Ausreißern ist mit einfachen statistischen Methoden für die meisten maschinellen Lerndatensätze angesichts der großen Anzahl von Eingabevariablen eine Herausforderung. Stattdessen können automatische Ausreißererkennungsmethoden in der Modellierungspipeline verwendet und wie andere Daten verglichen werden