Was erwartet Dich in diesem Kurs?
Unstrukturierte Datenmassen liefern häufig bessere Antworten als kleine, aufwändig erhobene Datenmengen: Zum Beispiel wird vermutet, dass Grippewellen heute schneller durch die Analyse von Social-Media-Posts aufgespürt werden als durch (staatlich) erhobene Daten.
Allerdings haben diese Datenmassen auch Kehrseiten: Sie sind komplex zu verarbeiten. Klassische (relationale) Datenbanken gelten als ungeeignet und unwirtschaftlich. Hierbei scheinen die Basistechnologien Hadoop, HBase, Spark oder MongoDB Abhilfe zu schaffen: Sie versprechen die Verarbeitung und Vorhaltung riesiger Datenmengen effizient und kostengünstig.
Was kannst du in diesem Kurs lernen?
- Du kannst den Begriff Big-Data erklären
- Du kannst die „Macht“ durch Analyse großer Datenmengen erklären
- Du kannst einschätzen, ob eine Big-Data-Technologie für einen Business Case relevant ist
- Du kannst teure klassische Datenbanken und wirtschaftliche Big-Data-Technologien kontrastieren
- Du kannst die Grundsätze bei der Speicherung von Daten bei Big-Data-Technologien erklären (z. Bsp. Optimierung auf einmaliges Schreiben ohne Änderung von Daten)
- Du kannst den Prozess der Beschaffung von Daten am typischen Big-Data-Beispiel von Social-Media-Daten wiedergeben
Wie ist der Kurs aufgebaut?
Kapitel 1: Big-Data: Was ist das?
1.1 Big-Data als Vorgehensweise
1.2 Big-Data definiert durch 3 Vs
Kapitel 2: Big-Data und Infrastruktur
2.1 Besondere Wichtigkeit von Infrastruktur im Big-Data-Kontext
2.2 Überblick über Big-Data-Technologien
Kapitel 3: Deep-Dive Technologie: Hadoop
3.1 HDFS
3.2 Technische Implementierung des HDFS
3.3 Map-Reduce
3.4 Hadoops Kernvorteil: "Programm zu den Daten" vs. "Daten zum Programm"
Kapitel 4: Deep-Dive Technologie: Spark und R on Spark
4.1 Architektur von Spark
4.2 R und Spark auf Hadoop
Kapitel 5: Einsatzszenarien für Big-Data-Technologien
5.1 Typische Datenquellen für Big-Data
5.2 Vor- und Nachteile von Big-Data-Technologien
Kapitel 6: Abschluss/ Zertifikat