Eine Einführung in die Dimensionsreduktion

Blog

Eine Einführung in die Dimensionsreduktion

Hintergrund
In der Statistik, dem maschinellen Lernen und der Informationstheorie ist die Dimensionsreduktion der Prozess, bei dem die Anzahl der betrachteten Zufallsvariablen reduziert wird, indem ein Satz von Hauptvariablen erhalten wird.
Ein hochdimensionaler Datensatz ist ein Datensatz mit einer großen Anzahl von Spalten (oder Variablen). In einem solchen Datensatz kann man sich leicht verlieren und zu Herausforderungen wie Overfitting führen. Glücklicherweise sind Variablen (oder Merkmale) oft korreliert, da hochdimensionale Daten oft von einer kleinen Anzahl einfacher Variablen dominiert werden. Wir können eine Teilmenge der Variablen finden, um die gleiche Informationsebene in den Daten darzustellen, oder die Variablen in eine neue Menge von Variablen umwandeln, ohne viele Informationen zu verlieren. Dies ist der Zeitpunkt, an dem Algorithmen zur Dimensionsreduktion nützlich werden.
Der von uns verwendete Datensatz untersucht die Kreditkartenausfälle von Kunden in Taiwan. Es kommt mit freundlicher Genehmigung des UC Irvine Machine Learning Repository.
Der Datensatz verwendete eine binäre Variable, Standardzahlung (Ja = 1, Nein = 0), als Antwortvariable. Es enthält die folgenden 23 Variablen als erklärende Variablen:

#Datenvisualisierung #Künstliche-Intelligenz #Maschinelles Lernen #Datenwissenschaft #Daten

Reaktionsfenster

zudatascience.com

Eine Einführung in die Dimensionsreduktion

In der Statistik, dem maschinellen Lernen und der Informationstheorie ist die Dimensionsreduktion der Prozess, bei dem die Anzahl der betrachteten Zufallsvariablen reduziert wird, indem ein Satz von Hauptvariablen erhalten wird.