Data Engineering in 2017

Im Data Engineering geht es im Allgemeinen darum robuste, fehlertolerante Umgebungen zu implementieren, um jegliche Daten im Unternehmen zu verarbeiten. Dabei spielt nicht nur die reine Speicherung von Daten eine Rolle, sondern auch die Bereinigung, Transformation und Aggregation. Die vielfältigen Anforderungen an das Data Engineering erfordern eine breite Kenntnis von verschiedenen IT-Themen, u.a. Datenbanken (relational, NoSQL), Data-Warehousing, OLAP und Hadoop basierende Technologien (HDFS, Hive, Spark). Somit stellt das Data Engineering die technische Basis für Analysten bereit. In 2017 wird dem Data Engineering noch mehr Bedeutung zukommen. Die Unternehmen erzeugen immer mehr Daten, welche analysiert und bewertet werden müssen. Dieser Artikel stellt daher die relevanten Kernthemen für 2017 vor.

Trends für 2017

Digitalisierung

Digitalisierung ist das Thema aus 2016 und wird auch in 2017 eine große Rolle spielen. In 2017 wird wichtig sein, dass Digitalisierung nicht in einzelnen (kleinen) Projekten gedacht wird, zumeist im Online Marketing (bspw. Social Media Integration) oder als reines IT Projekt. Digitalisierung ist ganzheitlich anzugehen, da es das Unternehmen in den Basisprozessen berühren und verändern kann. Digitalisierung ist notwendig, da u.a. Start-Ups den “Platzhirschen” den Rang, aufgrund der Start-Up typischen Flexibilität, ablaufen. Für eine erfolgreiche Digitalisierung ist natürlich auch eine flexible und agile IT-Landschaft und Architektur zwingend erforderlich. Data Engineering hilft genau bei dieser Herausforderung. Durch den Einsatz von neuen Technologien (Hadoop basierend) neben den klassischen (u.a. relationale Datenbanken) wird die technische Basis für eine erfolgreiche Digitalisierung im Unternehmen gelegt.

Data Lake

Schaut man in eine klassische IT-Architektur findet man zumeist ein Enterprise Data Warehouse (EDWH). Vorwiegend implementiert auf Basis von Kimball (dimensional) oder Inmon (3. Normalform-Modell im Core). Leider sind viele Benutzer eines EDWHs nicht immer voll zufrieden. Wesentliche Kritikpunkte sind die Benutzbarkeit und die Umsetzungsgeschwindigkeit neuer Anforderungen. Erschwerend kommt hinzu, dass die Anwender/Requester nicht immer klar eine Anforderung formulieren können. Werden “neue” Daten im Unternehmen gesammelt oder verarbeitet und nicht immer ist gleich klar, welcher Wert diese haben und wie die Daten zu relevanten Informationen transformiert werden können. Solange dies nicht klar ist, ist eine Implementierung in ein EDWH kostenintensiv und auch nicht zweckdienlich.

Ein Data Lake (auch: Enterprise Data Hub) schafft Abhilfe. Der Analyst hat mit dem Data Lake eine zentrale Plattform, um Rohdaten des Unternehmens zu sichten und hinsichtlich ihres Nutzens zu bewerten. Eine Transformation der Daten wie im EDWH ist im Data Lake nicht notwendig, da im Data Lake bewusst die Rohdaten gespeichert werden. Zusätzlich kann man unstrukturierte (semistrukturierte) Daten im Data Lake speichern und analysieren.

Data Engineering als Disziplin ist in der Lage ein Data Lake zu implementieren. Hierzu kommen verschiedene Werkzeuge zum Einsatz, u.a. Hadoop, Sqoop (Integration relationale Datenbanken), Flume (Verarbeitung Log od. Stream Daten) und Hive (Abfragesprache HiveQL auf Hadoop Daten).

Hadoop Solutions (Open Source)

In den vorherigen Abschnitten sind wir bereits auf Hadoop Technologien kurz eingegangen. Das Hadoop Ökosystem enthält verschiedene Technologien zum Beispiel HDFS, Hive, Pig, Spark, Ranger, Atlas etc. Diese sind als sogenannte Open Source Projekte verfügbar, d.h. der Quellcode ist öffentlich einsehbar und die von großen Herstellern (Oracle, Microsoft) bekannten Lizenzkosten entfallen. Die teilweise horrenden Lizenzkosten bremsen Wachstum und Innovation in Unternehmen.

Der Einsatz von Open Source und lizenzkostenfreie Software ermöglichen kostengünstige Prototyp-Entwicklung und PoC und in Produktivumgebungen ein früheren ROI. Insbesondere das Hadoop Ökosystem lässt sich sehr gut in eine bestehende IT Landschaft integrieren, d.h. eine sofortige Ablösung von bestehenden System ist nicht notwendig und kann wenn gewünscht schrittweise erfolgen. In 2017 werden mit Hilfe von Data Engineering mehr Open Source Lösungen für verschiedene Herausforderungen ausgewählt und genutzt. Unternehmen untersuchen den Einsatz und deren Vorteil von Open Source. Data Engineerung unterstützt dabei eine komplette Solution zu implementieren und nicht einzelne Insellösungen in der IT-Landschaft zu belassen.

Cloud Computing

Cloud Computing selbst ist ein Thema welches uns die letzten Jahre begleitet. In Deutschland ist Cloud Computing aber noch nicht vollständig angekommen, u.a. aufgrund von Sicherheitsbedenken. Die großen Cloud Anbieter wie Amazon Web Service (AWS) steuern dagegen, indem sie Rechenzentren direkt in Deutschland aufbauen und sich die Sicherheit auch von unabhängigen Stellen zertifizieren lassen. Schritt für Schritt finden immer mehr Daten ihren Weg in die Cloud. Vorteil hierbei ist ein einfacher orts- und zeitunabhängiger Zugriff durch Mitarbeiter des Unternehmens.

Aber nicht nur Daten werden in der Cloud gespeichert, sondern auch Anwendungen und Programme laufen auf Cloud Systemen. Anwendungen, die für kurze Zeit eine hohe Rechenleistung (bspw. Machine Learning Algorithmen) benötigen, sind prädestiniert für den Einsatz flexibler Cloud Serverressourcen. In 2017 wird das Datenmanagement somit einen hybriden Charakter aufweisen: On-Premise und Cloud.

Cloud Computing ist aber nicht nur ein Thema für große Unternehmen, sondern gerade für Kleinunternehmen und Mittelständler von Interesse. Eine Evaluierung der Möglichkeiten und ein Vergleich von Kosten und Nutzen ist zu empfehlen.

Self-Service-BI

Self-Service-BI wird sich in 2017 vermehrt durchsetzen. Immer mehr Anwender im Unternehmen wollen und sollen Zugriff auf notwendige Daten erhalten und diese für Ihre Anforderungen auswerten. Der Anwender ist hierbei nicht zwangsläufig ein BI Experte und benötigt somit eine intuitive und leicht bedienbare Umgebung. Die Kombination von kostengünstiger/kostenfreier Open Source Software und breiten Nutzen im Unternehmen führen zu frühen ROI der BI Landschaft.

Blanke Zahlen aus Excel Dokumenten werden von anschaulichen und verständlichen Visualisierungen abgelöst. Dabei werden nicht nur die Analyseergebnisse sondern auch die Daten selbst illustriert und visualisiert.

Data Engineering mit der breiten Werkzeugpalette stellt die technische Basis einer erfolgreichen Self-Service-BI Umgebung dar. Fokus ist hierbei eine performante Umgebung die auch hinsichtlich Security und Compliance alle Anforderungen erfüllt.

Fazit

2017 wird die Digitalisierung noch mehr an Bedeutung zunehmen und einer der Hauptaufgaben für Unternehmen sein. Data Engineering hilft dabei die technische IT-Landschaft zukunftssicher aufzustellen, u.a. mit dem Einsatz von Hadoop basierenden Technologien und Cloud Computing.
Ein Data Lake ermöglicht die zügige und kostengünstige Auswertung von Rohdaten des Unternehmens durch Analysten und die Bewertung zu Nutzen und Qualität.
Idealerweise haben alle Mitarbeiter Zugriff auf benötigte Daten und können Auswertungen auf diesen laufen lassen. Die Fähigkeit zur Auswertung von Daten soll ohne Unterstützung durch die IT möglich sein. Self-Service-BI ermöglicht diese Anforderung und führt zu einem früheren ROI und größeren Akzeptanz für die BI Lösung im Unternehmen.

Quellen/Verweise

https://appdevelopermagazine.com/4777/2016/12/27/Big-Data-predictions-for-2017/
http://betanews.com/2016/12/23/big-data-predictions-2017/
http://data-flair.training/blogs/big-picture-of-big-data-top-10-big-data-trends-in-2017/
http://www.cio.de/a/die-top-it-trends-fuer-cios-2017-von-pac,3260915
http://www.silicon.de/blog/warum-wir-lernen-muessen-daten-zu-lesen/