Data Lakes, Oracle ADWH und Object Storage

Blog

Data Lakes, Oracle ADWH und Object Storage

Einführung.

Wir schreiben das Jahr 2020, keine Zeit mehr für große und teure Cluster.

In diesen Tagen, a moderner Data Lake , gebaut in einer Cloud-Umgebung, sollte so viel wie möglich nutzen Cloud-native, serverlose Dienste , um das volle zu bekommen Agilität, Elastizität und Effizienz bereitgestellt durch das Public-Cloud-Paradigma.

In diesem Hinweis möchte ich kurz hervorheben, wie ein solcher Data Lake mit Hilfe von . aufgebaut werden kann Oracle Cloud-Infrastruktur (OCI) und wie wir es verwenden können Oracle Autonomous Data Warehouse (ADWH) bereitstellen SQL-Zugriff auf Daten, die im Data Lake gespeichert sind.

Ich werde kurz beschreiben, was die beste Option zum Speichern der Daten ist und welche Dienste zum Extrahieren, Transformieren und Laden der Daten verfügbar sind. Dann gehe ich auf die Schritte ein, die zum Aktivieren des SQL-Zugriffs erforderlich sind.

Ich werde auch einige Dienstprogramme bereitstellen und beschreiben, die nützlich sind, um die Aufgabe zu vereinfachen.

Dateien als Objekte.

In einer Data Lake-Umgebung sollten Sie in der Lage sein, effizient und effektiv elastischen Speicher für alle Datensätze bereitzustellen, die Ihre Data Scientists, BI-Experten und Geschäftsanwender untersuchen und nutzen möchten. Und das solltest du nicht vergessen Schema beim Lesen Anforderung: Wenn Sie die Daten speichern, möchten Sie nicht verpflichtet sein, ein Schema anzugeben.

Objektspeicher ist der perfekte Ort, um alle Ihre Datensätze zu speichern. Sie können sie in verschiedenen organisieren Eimer , indem Sie beispielsweise einen Rohdatenbereich erstellen, in dem die Datensätze so gespeichert werden, wie sie von den Quellsystemen bereitgestellt werden, und einen analysebereiten Bereich, in dem Sie alle verifizierten, gefilterten und aggregierten Datensätze speichern, bereit für Analytics und die Notizbücher Ihrer Data Scientists.

Object Storage kann ohne Planung beliebig skaliert werden und ist kostengünstig genug (ca. 25,5 $ pro Terabyte/Monat), um Petabytes an Daten zu speichern. Außerdem können Sie viele OCI-Funktionen verwenden, um beispielsweise den Lebenszyklus Ihrer Dateien zu verwalten (Sie können Regeln zum Archivieren von Dateien definieren, die älter als eine bestimmte Zeit sind) und sogar Metadaten hinzufügen, um das Auffinden der Daten zu erleichtern Sie für Ihre Arbeit benötigen.

#oracle #data-lake #data-science

zudatascience.com

Data Lakes, Oracle ADWH und Object Storage

Ich möchte kurz hervorheben, wie ein solcher Data Lake mit Oracle Cloud Infrastructure (OCI) aufgebaut werden kann und wie wir Oracle Autonomous Data Warehouse (ADWH) verwenden können, um SQL-Zugriff auf im Data Lake gespeicherte Daten bereitzustellen.