Einführung in Data Science

Kontakt

Name

Wil van der Aalst

Lehrstuhlinhaber

Telefon

work
+49 241 80 21900

E-Mail

E-Mail
 

Studienführer Einführung in Data Science (WS 2018/2019)

Der Kurs beginnt am 10. Oktober 2018.

Die Vorlesungen finden mittwochs und donnerstags von 08:30 Uhr – 10:00 Uhr in der Aula 2 (2352/021) statt.

Die Übungen finden freitags von 08:30 Uhr bis 10:00 Uhr ebenfalls in Aula 2 (2352/021) statt.

Dozenten

  • Prof. Dr. Wil van der Aalst (Vorlesungen)
  • Marco Pegoraro, M.Sc
  • Mahsa Pourbafrani, M.Sc.
  • Majid Rafiei, M.Sc.
  • Dr. Yaguang Sun
  • Anja Syring, M.Sc.

Kursziel

Ziel des Kurses ist es, einen umfassenden Überblick auf dem Gebiet Data Science zu
vermitteln und die Studierenden mit realen Datensätzen und Werkzeugen vertraut zu
machen.

Der Kurs beinhaltet drei Sichtweisen auf den Bereich Data Science:

  1. Infrastruktur unter besonderer Berücksichtigung von Volumen und Geschwindigkeit.
    Themen sind u.a. Instrumentarium, Big Data-Infrastrukturen sowie verteilte Systeme,
    Datenbanken, Datenmanagement und Programmierung. Die größte Herausforderung
    besteht darin, eine Skalierbarkeit und sofortige Verfügbarkeit herzustellen.
  2. Datenwissenschaftliche Analysen, die sich mit der Extraktion von Daten aus Wissen
    beschäftigen. Zu diesen Themen gehören Statistik, Data- und Process Mining, maschinelles
    Lernen / künstliche Intelligenz, Operations Research, Algorithmen und Visualisierung.
    Die größte Herausforderung besteht darin, Antworten auf bekannte und unbekannte
    Fragen zu erhalten.
  3. Auswirkung von Data Science auf Menschen, Organisationen und die Gesellschaft. Zu
    den Themen gehören u.a. Ethik und Datenschutz, IT-Recht, Interaktion Mensch-Technik,
    Betriebsführung, Geschäftsmodelle, Unternehmerschaft. Die größte Herausforderung
    besteht darin, ein verantwortungsbewusstes Handeln bezüglich aller oben genannten Aspekte zu
    ermöglichen.

Der Kurs wird folgende Themen eingehender behandeln:

  • Datenexploration
  • Datenvisualisierung
  • Probleme mit der Datenqualität und Datenvorbereitung
  • Datentypen: von Tabellen und Ereignisprotokollen bis hin zu unstrukturierten Daten
  • Betreutes Lernen
  • Lernen von Entscheidungsbäumen
  • Unbeaufsichtigtes Lernen
  • Clustering
  • Pattern Mining
  • Process Mining
  • Text Mining
  • Bewertungsverfahren
  • Verteilung mittels MapReduce
  • Verantwortung im Bereich Data Science: Fairness, Genauigkeit, Vertraulichkeit und
    Transparenz
  • Diskriminierungsbewusstsein im Bereich des Data Mining
  • Anonymisierung versus Verschlüsselung

Dieses wird durch praktische Übungen ergänzt, bei denen verschiedene Datensätze und und Software-Tools zum Einsatz kommen (weitere Informationen folgen).

Lernziel

Nach Abschluss des Kurses sollte der Studierende einen guten Überblick über den umfangreichen
Bereich der Data Science erhalten haben. Praktische Übungen mit realen Datensätzen erlauben es
den Studierenden, die Herausforderungen in den verschiedenen Teilbereichen der Data Science
besser verstehen. Darüber hinaus werden ausgewählte Themen eingehender betrachtet,
die dann auch weitergehend theoretisch beleuchtet werden.