In heutigen Unternehmen entstehen immer mehr Daten. Einzelne Bereiche nutzen Spezialsoftware, um ihre operativen Tätigkeiten bestmöglich abbilden zu können. So entsteht im Laufe der Zeit eine bunten Mischung an verschiedenen Insellösungen. In der digitalen Welt ist es auch nicht mehr zeitgemäß eine monolithische Software zu betreiben. Vielmehr soll dem Business die notwendigen Werkzeuge an die Hand gegeben werden. Data Engineering unterstützt bei der Herausforderung die Daten zentralisiert und auswertbar zu speichern

Worum geht es beim Data Engineering

Data Engineering hat die Aufgabe robuste, fehlertolerante Datenpipelines zu implementieren, die die Daten bereinigen, transformieren und wenn notwendig aggregieren. Dabei liegt der Fokus auf die Bereitstellung der Informationen für de Analyst oder Data Scientist. Data Engineering stellt das Datenbanksystem bereit, schreibt komplexe, performante Abfragen und baut skalierbare Umgebungen.
Hierfür nutzt das Data Engineering Kenntnisse aus den Bereichen

  • Hadoop basierten Technologien (Hive, Pig etc.)
  • SQL Technologien (u.a. SQL Server, Oracle, PostgesSQL)
  • NoSQL (u.a. Cassandra, MongoDB)
  • Data Warehousing (Inmon, Kimball, Data Vault)

Data Engineers sind dafür verantwortlich sicherzustellen, dass die Daten zügig von der Quelle zum Ziel verarbeiten werden, um dann durch ein Data Scientist/Analyst weiter verarbeitet werden kann.

Für das Data Engineering lassen sich folgende Verantwortlichkeiten definieren:

  • Design, Aufbau, Installation, Test und Wartung hoch skalierbaren Daten Management Systeme
  • Verbesserung der grundlegenden Datenverarbeitung, Richtlinien und Normen
  • Integration neuer Daten Management Technologien und Software Engineering Tools in bestehenden Strukturen
  • Implementierung individueller Komponenten und Analyse Applikationen

Ein Data Engineer sollte dabei Kenntnisse u.a. in den Bereichen Datenbank Design, Coding, Data collection, Data Warehousing und ETL Entwicklung aufweisen können. Neben den technischen Know-How sind Business Skills ebenso notwendig. Im Data Engineering sind oft kreative Problemlösungen notwendig um Daten zeitnah den Analysten zur Verfügung stellen zu können. Gute Kommunikationsfähigkeiten und effektive Zusammenarbeit im Team gehören genauso dazu wie Kenntnisse zu dem jeweiligen Business in welchen sich der Data Engineer bewegt.

Abgrenzung Data Engineer und Data Scientist

Der Data Engineer hat sein Fokus auf die Systeme, die die Daten speichern und zur Verfügung stellen. Dabei spielen klassische Data Warehouse Ansätze eine Rolle genauso wie die Möglichkeit Daten in real-time zur Verfügung zu stellen. Der Data Engineer bildet somit die datenseitige Grundlage für den Data Scientist, der die vorbereiten Daten für seine weitergehenden Analysen nutzen kann. Als Data Engineer besitzt man mehr Kenntnisse im Bereich Software Engineering und Programmierung als ein Data Scientist. Dieser wiederum hat sein Schwerpunkt in der Statistik/Mathematik und der Informationspräsentation (Stichwort Story Telling).

Data Engineering vs Data Science

 

Zusammenfassung

Data Engineering ist eine Abgrenzung zum Data Science. Data Engineering ermöglicht einen einfachen Zugriff auf die Gesamtheit der Daten im Unternehmen mit Hilfe moderner und bewährter Technologien und Vorgehensweisen.

Quellen/Verweise
http://www.mastersindatascience.org/careers/data-engineer/
http://www.analyticsvidhya.com/blog/2015/10/job-comparison-data-scientist-data-engineer-statistician/
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/