Data Vault – Eine Einführung

Ist Data Vault eine moderne Lösung für bestehende Herausforderungen im Data Warehouse Umfeld?
Entwicklungsgeschwindigkeit (Time to market) und Datenqualität sind einige der dringendsten Probleme im Data Warehouse Bereich. Wir wollen klären was Data Vault ist und welche Vorteile es bringt um die bestehende Probleme zu lösen.

Den Beginn macht die Definition von Data Vault direkt vom “Erfinder” Dan Linstedt:
“The Data Vault is a details oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the need of the enterprise. It is a data model that is architected specifically to meet the needs of enterprise data warehouses.”

Data Vault setzt den Fokus auf die Business Bedürfnisse und ermöglicht flexible und aufwandsarme Anpassung der Data Warehouse Lösung. Typische Data Warehouse Konzepte (Inmon, Kimball) werden im Laufe der Zeit immer komplexer und teurer bei notwendigen Erweiterungen. Wenn das Unternehmen eine Änderung am Data Warehouse anfordert, kommt die IT mit hohen Kosten, umfangreichen Implementierungs- und Testzyklen und eine lange Liste von Abhängigkeiten/Auswirkungen zurück.
In der heutigen Zeit müssen aber die Unternehmen in immer kürzeren Zyklen ihr Geschäft transformieren und den Marktbedürfnissen anpassen. Diese notwendigen Anpassungen am Geschäftsmodell sollten auch schnell im Data Warehouse abbildbar sein. Data Vault unterstützt aufgrund seiner Architektur und Methodik genau diese Anforderungen.

Vorteile von Data Vault

Vorteile für das Business

Data Warehousing ist kein IT Selbstzweck, Ziel ist vielmehr die maximale Unterstützung des Unternehmens mit der Bereitstellung aller notwendigen und integrierten Daten für Analysen und Berichtswesen. Welche Vorteile bietet Data Vault für das Unternehmen:

  • Verwaltung und Einhaltung von Compliance Anforderungen (Basel, BCBS 239)
  • Aufdeckung von Geschäftsproblemen, die vorher nicht sichtbar waren
  • Massive Reduzierung von Entwicklungszeit bei der Implementierung von Business Anforderungen
  • Frühere Return of Investment (ROI)
  • Skalierbares Data Warehouse
  • Nachvollziehbarkeit aller Daten bis zum Quellsystem

Technische Vorteile

Mit folgender Auflistung möchten wir die technischen Vorteile von Data Vault aufzeigen:

  • Near-Real-Time Beladung (neben klassischen Batch Lauf)
  • Big Data Processing (>Terabytes)
  • Nahtlose Integration von NoSQL/unstrukturierten Daten
  • Iterative, agile Entwicklungszyklen mit inkrementellen Ausbau des DWHs
  • Wenige, automatisierbare ETL Patterns

Data Vault Architektur

Data Vault verfolgt einen hybriden Ansatz. Dabei ist es eine Top-Down Architektur aber erlaubt gleichzeitig eine Bottom-Up Implementierung. Damit ist es möglich eine optimale und moderne Architektur zu definieren und zugleich den Implementierungsumfang begrenzt und kontrolliert zu halten, was zu früheren Releases führt (Stichwort: Agile Data Warehouse)

Die Data Vault Architektur besteht im Wesentlichen aus drei Schichten (Layer):

  • Staging Layer (sammelt die Rohdaten aus den Quellsystemen ein)
  • Data Warehouse Layer (modelliert als Data Vault Modell) enthält
    • Raw Data Vault (Speicherung der Rohdaten)
    • Business Data Vault (Enthält harmonisierte und transformierte Daten auf Basis von Geschäftsregeln; optional)
    • Metrics Vault (Speicherung von Laufzeitinformationen; optional)
    • Operational Vault (Speicherung von Daten, welche direkt von operativen Systemen in das DWH geschrieben werden; optional)
  • Information Mart Layer (modelliert als Star Schema und/oder anderen Modellierungsverfahren; stellt Informationen für
  • Analyse und Berichtswesen zur Verfügung)

Data Vault Architecture

Data Vault Komponenten

Folgend eine sehr konzentrierte Erklärung zu den Hauptkomponenten eines Data Vault Modells. In späteren Artikeln gehen wir detaillierter auf die Komponenten ein.

Hub
Speicherung der eindeutigen Business Keys (zum Beispiel Kundennummer, Vertragsnummer)

Link
Physische Repräsentierung der Many-to-Many Beziehungen zwischen zwei oder mehreren Business Keys (Hubs)

Satellite
Speicherung aller deskriptiven Informationen zu einem Business Key (Hub) oder einer Beziehung (Link)
Die Historisierung erfolgt ähnlich wie in einer SCD Type 2

Die Architektur selbst unterstützt neben klassischer Batch Verarbeitung auch Near-Real-Time Loads. Dabei ist es auch möglich unstrukturierte/NoSQL Datenbanken anzubinden. Einer der größten Unterschiede im Vergleich zu typischen Data Warehouse Architekturen (nach Inmon oder Kimball) ist, dass die Geschäftsregeln (Business Rules) im Business Data Vault und im Information Mart Layer eingesetzt und somit möglichst nah zum End-User implementiert werden. Aufgrund der “späten” Abbildung der Geschäftsregeln und der Beladung des Data Warehouses mit Daten exakt wie diese im Quellsystem vorliegen, sprechen wir beim Data Vault von einem “Source of Facts” und nicht “Source of Truth”. Weiterhin erfüllen wir mit dem unveränderten, vollständigen und historisierten Laden der Quelldaten 100%ige Auditfähigkeit.

In Data Vault unterscheiden wir zwischen “Hard business rules” und “Soft business rules”. Vereinfacht folgende Erklärung:

Hard business rule

  • Technische Regeln, die korrekte Datentypen sicherstellen
  • Angewandt, wenn die Daten aus dem Quellsystem extrahiert und in die Staging Area geladen werden
  • Faustregel: Hard business rules ändern niemals die Bedeutung der Daten, nur die Art wie die Daten gespeichert werden

Soft business rule

  • Abbildung der Geschäftsanforderungen
  • Ändert die Bedeutung der Daten, beispielsweise Aggregierung oder Neuberechnung einer KPI
  • Definieren wie die Daten aggregiert und konsolidiert werden
  • Definieren wie die Daten transformiert werden, um die Anforderungen seitens des Unternehmens zu erfüllen

Data Vault Architecture Business Rules

Die in typischen Data Warehouse Systemen früh angewandten Business Rules (Transformationen) können zu umfangreichen Abhängigkeiten führen und sind einer der Gründe, warum Anpassungen oft mit hohen Aufwand und Komplexität verbunden sind. Dies steht im Konflikt mit dem Anspruch, dass das Data Warehouse möglichst zeitnah geänderte Geschäftsprozesse abbilden kann und dem Berichtswesen notwendige Informationen zur Verfügung stellt.
In Data Vault werden neue/geänderte Strukturen in einem neuen Satelliten gespeichert. Der bestehende Satellite bleibt erhalten und stellt die historischen Daten weiterhin zur Verfügung. Auch der ETL Prozess für die historischen Daten bleibt erhalten und ermöglicht weiterhin die Beladung des bereits bestehenden Satellitens (bspw. für den Reload der Daten aus einem Archiv). Die neuen Daten werden in ein neues Ziel geladen (der neu erstellte Satellite) und ist daher eine modifizierte Kopie des “historischen” ETL Jobs. Es ist keine Änderung an bestehenden Prozessen notwendig, somit kein Reengineering und umfangreiches Testen bestehender ETL Jobs notwendig. Es ist nur eine Anpassung im Information Mart Layer notwendig, um Daten aus beiden Satelliten (wenn gefordert) konsolidiert zur Verfügung zu stellen.

Data Vault Vergleich mit anderen DWH Design Ansätzen

Für den Vergleich von Data Vault mit Inmon (3NF) und Kimball verweisen wir auf ein Blog Artikel von Roelant Vos:

Data Vault Comparison

Data Vault comparison Quelle: http://roelantvos.com/blog/?p=580

Zusammenfassung

Diese Artikel gibt Ihnen einen ersten Einblick in das Thema Data Vault. In Zukunft werden wir weitere hierzu veröffentlichen, die auf Teilaspekte im Detail eingehen.

ÜBERLEGEN SIE DATA VAULT EINZUSETZEN?

Wenn Ihr Unternehmen nicht mehr viel Zeit und Geld in die Implementierung Ihres Data Warehouse investieren will, dann nehmen Sie Kontakt mit uns auf. Gerne beraten wir Sie über das Thema Data Vault und finden gemeinsam die passende Lösung für Ihre Herausforderungen.

JETZT KONSTENLOSES ERSTGESPRÄCH VEREINBAREN
By | 2017-08-22T23:55:18+00:00 August 18th, 2017|Data Vault, Data Warehouse|0 Kommentare

Hinterlassen Sie einen Kommentar