FP-Wachstum: Häufige Mustergenerierung beim Data Mining mit Python-Implementierung

Blog

FP-Wachstum: Häufige Mustergenerierung beim Data Mining mit Python-Implementierung

Einführung

Wir haben den Apriori-Algorithmus vorgestellt und im vorherigen Beitrag auf seine wesentlichen Nachteile hingewiesen. In diesem Artikel wird eine fortgeschrittene Methode namens FP Growth-Algorithmus vorgestellt. Wir werden den gesamten Prozess des FP Growth-Algorithmus durchgehen und erklären, warum er besser ist als Apriori.

Warum ist es gut?

Erinnern wir uns an den vorherigen Beitrag, die beiden größten Mängel des Apriori-Algorithmus sind

  • Die Größe der Kandidaten-Itemsets kann extrem groß sein
  • Hohe Kosten beim Zählsupport, da wir die Itemset-Datenbank immer wieder scannen müssen

Um diese Herausforderungen zu meistern, besteht der größte Durchbruch von Fp Growth darin, dass

Es ist keine Kandidatengenerierung erforderlich!

Alle Probleme von Apriori können gelöst werden, indem man die FP-Baum . Genauer gesagt wird die Itemset-Größe kein Problem mehr sein, da alle Daten in einer viel kompakteren Version gespeichert werden. Darüber hinaus müssen Sie die Datenbank nicht immer wieder scannen. Stattdessen könnte das Durchlaufen des FP-Baums dieselbe Aufgabe effizienter erledigen.

FP-Baum

Der FP-Baum ist das Kernkonzept des gesamten FP-Growth-Algorithmus. Kurz gesagt ist der FP-Baum die komprimierte Darstellung der Itemset-Datenbank. Die Baumstruktur reserviert nicht nur das Itemset in der DB, sondern verfolgt auch die Zuordnung zwischen Itemsets

Der Baum wird erstellt, indem jedes Itemset einzeln einem Pfad im Baum zugeordnet wird. Die ganze Idee hinter dieser Konstruktion ist, dass

Häufiger vorkommende Gegenstände haben bessere Chancen, Gegenstände zu teilen

Dann minen wir den Baum rekursiv, um das häufige Muster zu erhalten. Musterwachstum, so der Name des Algorithmus, wird durch Verketten der häufigen Muster erreicht, die aus den bedingten FP-Bäumen generiert werden.

Gewinnrechner für Krypto-Handel

#python #maschinenlernen #data-science #data-mining #fp-growth

zudatascience.com

FP-Wachstum: Häufige Mustergenerierung beim Data Mining mit Python-Implementierung

In diesem Artikel wird eine fortgeschrittene Methode namens FP Growth-Algorithmus vorgestellt. Wir werden den gesamten Prozess des FP Growth-Algorithmus durchgehen und erklären, warum er besser ist als Apriori.